Сторінка
2

Дослідження можливостей програми Fine Reader

Автоматичне розпізнання тексту

Після обробки документа сканером виходить графічне зображення документа. Але графічний вигляд не являється текстом документа. Людині досить подивитись на листок паперу з текстом, щоб зрозуміти, що на ньому написано. З точки зору комп’ютера, документ після сканування перетворюється в набір різнокольорових точок, а не в текстовий документ. Проблема розпізнання тексту в складі точкового графічного зображення являється дуже складною. Подібні задачі вирішуються за допомогою спеціальних програмних засобів, називаються вони засоби розпізнання зображень. Реальний технічний прорив в цій області пройшов лише в останні роки. До того розпізнання тексту було можливо лише шляхом порівняння знайдених конфігурацій точок із стандартним зразком. Автори програми критерій “схожості” використовуваний при ідентифікації символів. Такі системи називаються ОСR(OptikalCharacted Recognition-оптичне розпізнання символів) і оперались на спеціально вироблені шрифти. З часом наукові дослідження в області розпізнання зображень буквально перевернули представлення при оптичному розпізнані символів. Сучасні програми можуть ставитись з різноманітними шрифтами без перенастройки. Багато розпізнають навіть малюнковий.

Програми розпізнання текстів

Оскільки потреба в розпізнані тексту відсканованих документів достатньо велика, невипадково, що є велика кількість програм, призначена для такої цілі. Так, як різні наукові методи розпізнання тексту розвивалась незалежно один від одного, багато із цих програм використовують різні алгоритми. Ці алгоритми можуть давати різні результати на різні документи. Наприклад, система OCR здібна розпізнати тільки стандартний спеціально підготовлений шрифт і дають на цьому шрифті найкращі результати, які не можуть перевершити ні одна із універсальних програм. Сучасні алгоритми розпізнання тексту не орієнтуються на конкретний шрифт, ні на конкретний алфавіт. Більшість програм розпізнають текст на декількох мовах. Один і той же алгоритм можна використовувати для розпізнання російського, латинського, арабського і других алфавітів і навіть змішаних текстів. Розуміється програма повинна знати про який алфавіт іде мова. Нас перш за все інтересують програми здатні розпізнавати текст, написаний на російській мові. Такі програми випускаються вітчизняними виробниками. Найбільш широко відомі і розповсюджені програми Fine Reader і Cunei Form. Програма Fine Reader забезпечує високу якість розпізнання і вигоду застосування.

Розпізнання документів в програмі Fine Reader

Програма Fine Reader виготовляється вітчизняною компанією АВВУУ Software(w.w.w. bitsoft.ru.). Ця програма призначена для розпізнання текстів на російському, англійському, німецькому, українському, французькому і багатьох інших мовах, а також для розпізнання змішаних двох мовних текстів. Програма має ряд можливостей. Вона дозволяє об’єднати сканування і розпізнання в одну операцію, працювати з пакетами документів і бланками. Програму можна навчити для кращої якості розпізнання неправильно надрукованих текстів і складних шрифтів. Вона дозволяє редагувати текст і провіряти його орфографію. Fine Reader працює з різними моделями сканерів. Програма дотримується стандарту TWAIN. Ми розглянемо програму на прикладі версії 4.0 одну із основних версій.

Вікно програми

Після включення програми Fine Reader в меню програми головного меню появляються пункти, забезпечуючи роботу з нею. Вікно програми має типовий для Windows 9х вид і має стрічку меню, ряд панелей інструментів і робочу область.

1. В лівій частині робочої області розміщується панель Пакет, містить список графічних документів які повинні бути перетворені в текст. Ці графічні файли розглядаються, як частинки одного документа. Результати її обробки в подальшому об’єднуються в єдиний текстовий файл. Форма значка, відмічає початковий файл і вказує чи було проведено розпізнання.

2. Панель в нижній частині робочої області має фрагмент графічного документа в збільшиному виді. З його допомогою можна оцінити якість розпізнання. Цю панель також використовують для “навчання” програми в ході розпізнання тексту.

3. А всю іншу частину робочої області займають вікна документів. Тут розміщується вікно графічного документа, а також вікно текстового документа після розпізнання.

4. У верхній частині вікна під стрічкою меню розміщується панель інструментів.

5. Панель інструментів Стандартна містить кнопки для відкриття документа і для операції з буфером обміну. Інші кнопки цієї панелі служать для зміни представлення документа.

6. Панель Scan Read містить кнопки, які відповідають всім етапам перетворення паперового документа в електронний текст. Перша кнопка дозволяє виконати таке перетворення в рамках єдиної операції. Остальні кнопки відповідають відокремленим етапам роботи і містять відкриваючи меню службові для управління відповідною операцією.

7. Панель Розпізнання дозволяє вказати мову документа і вид шрифта. Остані вимагаються роботи тільки в тих випадках, коли документ має не достатню кількість друку.

8. Панель Інструменти використовується при роботі з вихідними зображеннями. Вона дозволяє управляти сегментацією документів. З допомогою елементів управління цієї панелі задають послідовність фрагментів текстів в заключному документі.

9. Елементи управління панелі Формативна використовується для зміни представленні готового тексту або при його редагуванні.

Порядок розпізнання текстових документів

Перетворення паперового документа в електронний проходить в три етапи. Кожний із цих етапів програми Fine Readerможе виконувати, як автоматичний так і під контролем користувача. Якщо всі етапи проходять автоматично, то перетворення документа проходить за один прийом.

1. Перший етап роботи – сканування. На цьому етапі завжди використовується сканер. Однак зображення з листка паперу може бути перетворена в цифрову форму і з допомогою других засобів таких, як наприклад цифрові фотоапарати і цифрові відеокамери.

2. Другий етап роботи – сегментація тексту. Діло в тому, що в паперових документах, на сторінках книжки чи журналу, текст не завжди розміщується в зазначеному порядку. Він може розміщуватись в декількох колонках. Містить малюнки (підписи до них). Доповнюючі вирізки і дані представлені в таблиці, а також можуть заплутати порядок тексту. Тому перш за все, як включити текст документа його розбивають на блоки, вміст фрагментів. Блоки розпізнають послідовно. Отриманий текст включається в документів порядку номера блока.

Перейти на сторінку номер:
 1  2  3  4  5 


Інші реферати на тему «Інформатика»: