Сторінка
4

Автоматизація роботи в офісі. Розпізнання документів в програмі Fine Reader

5. Для зміни настройки сканера використовують кнопку Настройки сканера.

6. Коли сканер вибраний появляється два флажка, в нижній частині діалогового вікна. Якщо поставити флажок Показувати діалог TWAIN-драйвера сканера, то сканування проходить через протокол з відображенням діалогового вікна. В протележному випадку програма працює напряму із сканером. Використати протокол має значення тільки в тому випадку, коли робота напряму неможлива або дає неякісні результати.

7. Флажок Показати опції перед початком сканування застосовують лише в тому випадку, коли паперові сторінки документа сильно відрізняється одна від другої. Це може бути викликано, наприклад, розмірами паперу або тим, що різні сторінки друкувались в різний час і різними засобами. В такому випадку перед скануванням кожної сторінки відкривається діалогове вікно настройки сканера, щоби користувач міг відрегулювати якість процесу.

Сам процес сканування проходить в автоматичному режимі. Якщо потрібно проробити багато сторінок, то краще всього спочатку їх усіх просканувати, а уже потім проводити розпізнання. Це звязано з тим, що сканування потребує присутності користувача через управління сканером, а розпізнання може проводитися в автоматичному режимі.

Сегментація документа

Під порядком розпізнання тексту розуміється послідовне розпізнання сторінок зліва на право. Якщо текст розбитий на декілька колонок або має вирізки, підмалюнкові підписи, примітки і другі елементи форматування, його розпізнання в послідовному порядку неможливо. В таких випадках програма розбиває текст на блоки, кожний з яких представляє собою фрагмент тексту, розпізнаний в послідовному порядку. Таке розбиття документа називається сегментацією.

Автоматична сегментація – це проста задача для програми. Програма шукає проміжки між стрічками, а також зони початку і кінця стрічок. Якщо послідовність стрічок, ідуть підряд, має одинакові зони початку і кінця, то програма розглядає таку область як текстовий блок. Якщо проміжки між стрічками взагалі існують, то по всій можливості, мова іде про ілюстрацію. Якщо знайдеться велике число вертикальних і горизонтальних фрагментів, які відображають правильну структуру, то напевне в текст включена таблиця. Якщо клацнути на кнопці Сегментація виділені сторінки, то сегментація сторінки проходить автоматично. правда зображення документа має невисоку якість, то сегментація може бути виконано не правильно, що виявляється у великій кількості малих блоків. В таких випадках можна вручну вказати границі блоків або змінити автоматичне розбиття. Нові прямокутні блоки створюються методом перетягуванням миші. При перетягуванні створюється блок і виділяється пунктирною рамкою, яка в момент створення блока перетворюється в єдину зелену лінію. Якщо сторінка має простий стандартний вид, то простіше вручну створити одиничний блок, який охоплює всю сторінку, чим представити це програмі, ризикуючи можливістю появлення помилок. Один із створених блоків являється текучим. Він обведений великою жирною лінією, а його вершини помічені маркерами. Переніс цих маркерів можна редагувати границі блока. Для створення блока прямокутної форми або зміна послідовності блоків використовують кнопки панелі інструментів Інструменти. Всі кнопки цієї панелі використовують на етапі сегментації. Програма FineReader розпізнає декілька блоків які працюють по різному. Такі блоки виділяються різними кольорами. Текстові блоки обводяться зеленою лінією. Щоб змінити тип блока потрібно клацнути в зоні блока ПКМ і вибрати потрібний тип в меню. Тип блока контекстного меню.

Розпізнання документа

Після сегментації і встановлення порядку текстових блоків виконує останній етап роботи – розпізнання. Якщо документ надрукований не стандартним шрифтом, який добре відсканований, по клацанню кнопки Розпознать відкриту сторінку досить, щоб документ був розпізнаний. Якщо паперовий документ має нестандартний шрифт, то процес розпізнання ускладнюється. В такому випадку програма може не справитись з розпізнанням символів і допускати однотипні помилки. В таких випадках для великих документів перш за все спочатку треба провести навчання програми з особливостями даного документа. Це досить великий процес, але він все таки простіший, ніж ручний ввід багато сторінкового документа. Настройку розпізнання починають із створення еталону в, якому зберігаються особливості даного документа. Для цього потрібно виконати команду Сервіс – Редактор еталонів, клацнути у відкритому діалоговому вікні Еталони на кнопці Нові еталони і ввести ім’я створення еталона.

1. Для підключення еталона при розпізнані, треба клацнути на відкриваючі кнопці поруч з кнопкою Розпізнати відкриту сторінку і вибрати пункт Опції. У відкритому діалоговому вікні в групі Обучение слід вибрати тільки, що створений еталон. Якщо розпізнання документа відповідає еталону, який був створений і настроєний раніше, то вибрати не новий, а старий еталон.

2. Для “навчання” еталона слід встановити прапорець Розпізнання з навчанням.

3. Режим розпізнання в такому випадку змінюється. Коли програма не може розпізнати символ, то вона видає діалогове вікно “навчання еталона”. У верхній частині цього вікна проводиться збільшення зображень розпізнання стрічки. Текучий символ обведений рамкою.

4. В полі із списком Символ, який розуміє програма, знаходиться в рамці.

5. Необхідно переконатись, що символ в полі вказаний правильно і замінити його у випадку необхідності. Після цього треба клацнути на кнопці “навчання”.

6. Якщо неправильно вказані границі символу, то кнопки Зсунути вліво і Зсунути вправо, дозволять поправити положення рамки.

Перейти на сторінку номер:
 1  2  3  4  5  6 


Інші реферати на тему «Інформатика»: