CFA LogoCFA Logo Computer
Новости Статьи Магазин Драйвера Контакты
Новости
RSS канал новостей
В конце марта компания ASRock анонсировала фирменную линейку графических ускорителей Phantom Gaming. ...
Компания Huawei продолжает заниматься расширением фирменной линейки смартфонов Y Series. Очередное ...
Компания Antec в своем очередном пресс-релизе анонсировала поставки фирменной серии блоков питания ...
Компания Thermalright отчиталась о готовности нового высокопроизводительного процессорного кулера ...
Компания Biostar сообщает в официальном пресс-релизе о готовности флагманской материнской платы ...
Самое интересное
Программаторы 25 SPI FLASH Адаптеры Optibay HDD Caddy Драйвера nVidia GeForce Драйвера AMD Radeon HD Игры на DVD Сравнение видеокарт Сравнение процессоров

АРХИВ СТАТЕЙ ЖУРНАЛА «МОЙ КОМПЬЮТЕР» ЗА 2002 ГОД

Читатель в FORM`е

Роман БУРАКОВСКИЙ

«Вот и лето пролетело, все осталось позади, но мы-то знаем, лучшее, конечно, впереди!» Помните такую песню? А помните, что в последнем майском номере МК №22 (193) мы разместили анкету, чтобы, вооружившись вашим мнением о нас, сообща сделать наш еженедельник еще лучше? Что-то смутно припоминаете? А тем временем, мы, благодаря вашим ответам, имеем пищу для размышлений и поле для действий. Эта статья — своеобразный отчет о происходившем. В ней вы узнаете, как проходил процесс, начиная от распечатывания конвертов с заполненными анкетами до сведения и анализа результатов.

Некоторые из вас (очевидно, понимая конфиденциальность анкетной информации) прилагали большие физические и материальные (выраженные в литрах истраченного клея :-)) усилия, заклеивая конверты. В результате некоторые анкеты оказались неразделимыми с конвертами, и потому даже после хирургического вмешательства непригодными к последующему сканированию. К счастью для нас и вас, количество таких анкет оказалось не столь большим. Кстати, отдельная благодарность тем, кто заполнил электронный вариант анкеты в Интернете на нашем сайте —http://www.mycomp.com.ua.

Естественно, в любом анкетировании важно получить и обработать данные как можно быстрее. Существует два способа ввода данных в компьютер: вручную или при помощи автоматизированной системы. В первом случае мы имеем занятие скучное, утомительное и неэффективное с точки зрения скорости ввода. С этим способом связаны еще и такие проблемы, как опечатки, оплата труда армии машинисток и машинистов :-), плата за аренду помещений, где располагаются эти люди, стоимость оборудования рабочих мест и т.п. Как вы, наверное, догадались, мы предпочли второй путь — благо нам пошла навстречу компания ABBYY Украина. С помощью программы ABBYY FormReader (Рис. 1) можно обрабатывать любые типы форм, причем система работает во много раз быстрее и аккуратнее, чем Рис. 1любая профессиональная машинистка.

Во внешнем виде программы тут же узнается интерфейс известной многим системы оптического распознавания текста ABBYY FineReader — он столь же прост и интуитивно понятен. Первым этапом работы с FormReader является разработка шаблона формы. Вы можете создать до 99 различных шаблонов форм на один пакет, т.е. приложение в состоянии различить указанное число форм в едином потоке.

После сканирования или импорта изображения пустой формы система находит в ней различные элементы — линии, статический текст (повторяющийся на всех формах), пункты, черные квадраты, штрих-коды, — таким образом освобождая пользователя от необходимости выделять их вручную. Выбранные области можно легко отредактировать или удалить, если вы в чем-нибудь не согласны с машиной.

После этого вы указываете поля, в которых содержится текст для распознавания (Рис. 2). Для каждого из них необходимо задать колонку в таблице базы данных, которая соответствует этому полю.

На следующем этапе вы задаете языки для полей, подключаете словари и выбираете правила контроля. Всего этого можно и не делать, если вы планируете ввести только несколько сотен форм, если же их количество существенно больше, имеет смысл потратить немного сил и времени. Можно существенно повысить качество распознавания и уменьшить трудозатраты на верификацию, если задать типы данных, языки на поля и правила контроля. На последних я остановлюсь подробнее чуть ниже.

Следующий этап —сканирование. Здесь опять же вспоминается опыт работы с Finereader’ом . ABBYY FormReader поддерживает протокол TWAIN, являющийся стандартным для индустрии сканирования. Расширенная поддержка протокола TWAIN позволяет отключить диалоговые окна драйвера сканера и управлять сканером напрямую из системы ABBYY Рис. 2FormReader.

Если вы предпочитаете использовать другую программу сканирования, то вам достаточно убедиться, что формат файлов изображений, создаваемых программой, включен в большой список форматов, поддерживаемых FormReader’ом.

Далее можно приступать к распознаванию. О, возможности системы впечатляют! А если совместить распознавание и потенциал проверки, то можно достичь просто-таки потрясающих результатов. ABBYY FormReader может распознавать:

рукописный текст, без настройки на почерк (об этом ниже );

печатный или машинописный текст, автоматически определяя стиль печатных букв;

различные типы штрих-кодов;

всевозможные пункты и группы пунктов.

Используя технологию автоматического определения типа текста, система может идентифицировать и распознавать комбинированный печатно-рукописный текст (Рис. 3). Поражает и скорость распознавания — 20 страниц формата А3 были распознаны в течение 50 секунд! Представляю, как сейчас потирают руки студенты, гробящие время и глаза над перепечатыванием шпор с конспектов!  Но Рис. 3помните: профессор может быть и лопух, но «Мой компьютер» при нем…».

Верификация — это единственный этап, на котором пропускная способность системы ограничена производительностью работы человека. Пресловутый «человеческий фактор» заставляет меня обратить на этот этап особое внимание, так как и тут разработчики предусмотрели множество возможностей, облегчающих труд операторов.

Способ верификации различных полей определяется на этапе создания шаблона формы. В системе ABBYY FormReader реализована трехступенчатая технология верификации (групповая, контекстная, в форме), придающая системе гибкость и позволяющая организовать наиболее эффективную технологию обработки информации.

Например, вы можете включить все поля, содержащие числовую информацию, в процесс групповой обработки, а все текстовые поля отправить на контекстную.

В ходе групповой проверки выводятся все символы, распознанные как отдельные. «Как это понимать?» — спросите вы. Отвечу вопросом на вопрос: «Легко ли написать цифру 2»? Только не думайте, что я над вами издеваюсь. На Рис. 4 изображены всевозможные «авторские» варианты написания этой нехитрой цифры, извлеченные из ваших писем. Несложно догадаться, что с каллиграфией других букв и цифр дело обстоит не лучше. Но благодаря групповой проверке эта проблема становится вполне решаемой.

Контекстная проверка — это проверка по полю (Рис. 5). По желанию пользователя возможна проверка всех символов, только неуверенно распознанных, отложенная проверка, наконец, эту процедуру можно и вовсе пропустить.

И последний этап проверки —верификация по правилам. Вы можете использовать правила, чтобы исключить из процесса верификации информацию, которая заведомо верна. Для каждого поля вы можете указать, насколько критично система должна подходить к определению сомнительно распознанных символов.

ABBYY FormReader включает большое число готовых правил контроля (Рис. 6). Вы можете использовать проверку по базе данных, чтобы гарантировать правильность ввода информации. Используйте правила нормализации данных для унификации представления дат, финансовых данных и т.д. Вы можете задать шаблон заполнения полей в виде регулярных выражений, чтобы иметь возможность убедиться, что поле заполнено и распознано верно. Также можно задать проверку соответствия суммы или, например, даты цифрами и суммы (даты) прописью, что критично для ввода важной финансовой информации.

Рис. 4   Рис. 5   Рис. 6

Особенно гибка проверка automation, позволяющая программировать какие угодно правила. Все это обеспечивает FormReader’у репутацию непревзойденного инструмента для применения в различных сферах — статистике, банковской сфере, бухгалтерии, маркетинге, социологии и т.д.

Когда все этапы пройдены, естественно, необходимо экспортировать данные для дальнейшей обработки.

ABBYY FormReader позволяет выбрать из нескольких альтернативных способов экспорта:

в файлы форматов DBF, Microsoft Excel, CSV (Comma separated values);

через ODBC в любую базу данных;

через специализированный модуль экспорта.

Последний вариант наиболее гибок, но требует программирования. Вы можете использовать любой язык, поддерживающий OLE Automation, для создания сервера OLE Automation, который будет получать распознанные данные. Этот модуль может далее производить любые операции с данными.

Вы также можете экспортировать изображения форм в базу данных и в электронный архив в популярных графических форматах: .bmp, .tif, .wmf, .pcx…

Ну вот вкратце и все. В заключении хочу поблагодарить всех, кого волнует судьба любимого журнала, кто тратил кровно заработанные копейки на конверты, марки и dial-up, отвечая на вопросы нашей анкеты. Поверьте, мы в долгу не останемся, но карт раньше времени не откроем  — вас ждут изменения и сюрпризы! Оставайтесь с нами!

Отдельное спасибо компании ABBYY-Украина за помощь и предоставленные материалы.

Рекомендуем ещё прочитать:






Данную страницу никто не комментировал. Вы можете стать первым.

Ваше имя:
Ваша почта:

RSS
Комментарий:
Введите символы или вычислите пример: *
captcha
Обновить





Хостинг на серверах в Украине, США и Германии. © sector.biz.ua 2006-2015 design by Vadim Popov