Программа ABBYY FineReader - один из немногих качественных пакетов для распознавания текстов (OCR) и практически единственный, действительно хорошо поддерживающий кириллицу. Каждая новая версии данной утилиты всегда демонстрировала более качественное и быстрое распознавание текстовых документов с несложными таблицами. Что ж, давайте посмотрим, чем нас порадует восьмая версия FineReader и протестируем ее возможности на практике, сравнив их с предыдущими версиями программы.
Инсталляция программы
При установке у пользователя не должно возникнуть никаких трудностей. Сначала вам предложат выбрать язык (русский или английский). Затем вы выберете режим установки (полный или выборочный) и папку, в которой будут размещены файлы программы. В режиме выборочной установки вы сами, вручную, выбираете нужные вам компоненты для установки. В демонстрационной версии FineReader 8.0 Professional доступны следующие компоненты для инсталляции: языки интерфейса (русский, английский), языки распознавания (русский, английский), интеграция с офисным пакетом Microsoft Office, демонстрационные файлы и утилита ABBYY ScreenShot Reader. Сама же установка программы на ПК с процессором Athlon XP 2200+ и 512 МБ оперативной памяти заняла не более одной минуты.
Выбор нужных компонентов для установки
Системные требования
- Процессор Intel® Pentium®/Celeron®/Xeon™, AMD K6/Athlon™/Duron™/Sempron™ или совместимые процессоры с тактовой частотой не менее 500 МГц;
- Операционная система Microsoft® Windows® Server 2003/XP/2000;
- Объём оперативной памяти не менее 128 МБ;
- Свободное место на жёстком диске не менее 350 МБ;
- Видеоплата и монитор с разрешением не менее 800х600 точек;
- TWAIN-совместимый сканер, цифровая камера или факс-модем.
Различие версий в семействе FineReader 8.0
Линейка продуктов ABBYY FineReader 8.0 включает в себя пять различных версий программы. Друг от друга их отличает способ распространения, возможности и, естественно, цена. Цены на ABBYY FineReader 8.0 колеблются в пределах от 1100 до 7400 рублей. Тем, кто только собирается покупать сканер или МФУ, стоит обратить внимание на комплект поставки будущего устройства, так как в комплект многих из них входит упрощенная версия программы FineReader - Sprint. Итак, рассмотрим более детально каждую версию.
ABBYY FineReader 8.0 Sprint - упрощенная версия программы, поставляется в комплекте со многими новыми сканерами и МФУ. Стоит отметить, что, даже сегодня купив новый сканер, в комплекте с ним может поставляться устаревшая версия программы (к примеру, 5.0). Эта проблема решается обновлением через Интернет.
ABBYY FineReader 8.0 Home Edition - немного упрощенная, если сравнивать с Professional, версия программы. Предназначена, прежде всего, для домашнего использования. Благо, стоимость 1100 рублей испугает не всех современных пользователей. Данная версия программы способна распознавать несложные документы и простенькие таблицы. Результат распознавания можно сохранять в распространенные форматы документов.
Самая интересная версия программы - ABBYY FineReader 8.0 Professional Edition обладает наибольшим количеством функций и нововведений по сравнению с программами, вышедшими до восьмой редакции. Стоимость данной версии составляет 3700 рублей. Далее, в статье будет рассматриваться именно FineReader 8.0 Professional. Поэтому, описание этой программы выведено в отдельный подраздел данного обзора.
ABBYY FineReader 8.0 Corporate Edition - корпоративная версия программы стоимостью 7400 рублей. Она предназначена для использования в локальной сети в полиграфических и издательских организациях, а также других компаниях, активно работающих с текстовыми документами/таблицами. Программа обладает мощными возможностями для работы в локальной сети.
ABBYY FineReader XIX - уникальная разработка компании. Обладает возможностями Corporate Edition, а также способна распознавать старинные европейские шрифты. Программа способна распознавать такие шрифты, как Fraktur, Schwabacher и большое количество готических шрифтов с учетом особенностей орфографии и мифологии того времени. Цена на данную версию FineReader не известна, так как эти по истине уникальная разработка, и каждый ее покупатель тоже будет уникальным.
Принципиальные нововведения в ABBYY FineReader 8.0 Professional
Часто (а у некоторых пользователей - почти всегда) случаются ситуации, когда нужно ввести и распознать большой объем текста со сканера или МФУ в компьютер. Подобные задачи востребованы переводчиками, редакторами изданий, студентами... Известно, что раньше, для более-менее качественного распознавание текста OCR, системы требовали от сканируемой картинки качества изображения не менее 300 точек на дюйм (dpi). Время сканирования листа формата А4 с таким качеством в среднем составляло чуть более одной минуты (значение зависит от качества сканера и его производительности). Таким образом, только на сканирование к примеру 100-страничной книги, уйдет более полутора часов. Дабы упростить жизнь тем, кому нужно оперативно сканировать и распознавать большие объемы текстов.
Теперь FineReader способен распознавать изображения с минимальным качеством от 200 точек на дюйм. Так, отныне на ввод в ПК одной страницы формата А4 уйдет не более минуты, а в высокоскоростных сканерах - менее 30 секунд. Стоит отметить, что снижение требований к качеству изображений позволяет программе без особых трудностей распознавать текст со снимков фотокамеры (начиная от двух мегапикселей). Компания ABBYY заверяет, что новая версия программы FineReader на 30% лучше распознает сообщения с факса, со сканера - на 15%, а с цифровой фотокамеры - на 40%.
Среди остальных нововведений стоит отметить вышеупомянутую подпрограмму для обучения пользователей, интеграцию с последними версиями Microsoft Word, и несколько необычную подпрограмму для распознавания текста со скриншотов вашего монитора.
Встроенная подпрограмма "обучение на примерах" научит работать с FineReader любого пользователя, не знакомого ранее с этой программой. На выбор вам предоставляется множество готовых примеров работы с разными типами документов и изображений: простое письмо, многоязычный документ, книжный разворот, факс, газета, PDF-документ, таблица, визитная карточка и т.д. Кроме того, вы найдете множество полезных советов по разнообразным задачам, с которыми справляется FineReader. Для "непосвященных" предусмотрен раздел "быстрое знакомство".
Screenshot Reader - поставляемая вместе с FineReader программа (в демоверсии - недоступна), предназначенная для распознавания текста со снимков экрана вашего монитора. Работает она по простому принципу: сначала выполняется снимок с экрана (данная процедура - аналог действия клавиши PrintScreen), послу чего FineReader "поднимает" это изображение из буфера обмена и распознает тексты, таблицы и другие стандартные объекты документов. То же самое можно сделать и вручную, но Screenshot Reader позволяет значительно сэкономить время. О востребованности подпрограммы можно спорить, но бесполезной ее назвать нельзя. Во-первых, она значительно экономит время, во-вторых, это один из немногих способов "достать" исходный текст защищенных текстовых файлов и документов.
Интерфейс программы ABBYY FineReader 8.0
Стартует программа с предложения - ввести документ с помощью Мастера Scan&Read, запустить обучающее приложение или показать работу пакета в демонстрационном режиме. Демо-пример, стоит отметить, отличный способ ознакомиться с принципом работы пакета для новичков.
По сравнению с предыдущими версиями программы, интерфейс не претерпел каких-либо принципиальных нововведений. Изменились только иконки и добавился традиционный для приложений под Windows XP переход цвета на панели инструментов. Кнопку "Scan&Read", как и прежде, вызывает мастер сканирования и распознавания текстовых документов. Сам мастер такой же, каким он был в FineReader 7.0, без изменений. Следующая функциональная кнопка "Открыть" позволит открыть изображение, или же снять его со сканера, для последующей обработки. Кнопка "Распознать" отвечает за распознавание текста выделенной страницы. Чтобы распознать сразу несколько страниц, следует выделить нужное их количество на левой панели. Кнопка "Проверить" отвечает за проверку орфографии. И, наконец, последняя кнопка "Сохранить" вызывает мастер сохранения пакетов FineReader в другие широко распространенные форматы текстовых документов и изображений. Также без изменений остались и другие составляющие интерфейса. Как и прежде, выбор языка находится в верхней части окна, список страниц документа слева, работа с документом осуществляется в основной части программы, разделенной на три части, для каждой из которых можно выбрать нужный масштаб.
Практические исследования производительности программы, в том числе и в сравнении с предыдущими версиями
Для начала - утолим своё любопытство, проверим работу новой версии пакета FineReader на примере обычного сканирования и распознавания первой попавшейся под руку обложки. Роль "рояля в кустах" сегодня отведена коробке с электронными словарями Lingvo 10 авторства той же компании ABBYY. Чудесно: и политкорректность сохранена, и пример весьма непростой, тем более, что сканирование коробки производится через полиэтиленовую пленку. Для чистоты эксперимента расположим образец под углом примерно в 5 градусов к направляющей оси.
Теперь задаём режим распознавания - мышкой или горячей клавишей, и voila, процесс пошёл.
Что получилось в результате
Надо отметить, что с работой программа справилась блестяще, почти без нареканий. С ошибкой распознаны лишь два блока - набранное крупным шрифтом слово Lingvo в верхнем правом углу, да подпись "36 словарей", сделанная белым по коричневому фону. Все остальное распознано на удивление быстро, качественно и грамотно! Никакой путаницы в переходе с русского языка на английский, все названия торговых марок и брендов распознаны без ошибок. Впрочем, для желающих провести доскональную проверку орфографии имеется настраиваемая кнопка и ее аналог - горячая клавиша F7, позволяющие свериться с установленными словарями. Такие мелочи, как, например сбой в распознавании значка "торговый знак" и замена его на типографскую кавычку, мне бы не хотелось позиционировать как существенную ошибку, благо, что сам значок выполнен небольшим кеглем и пропечатан не самым лучшим образом.
Далее приступим к сравнительному тестированию. Методика измерения предельно проста: один документ и одна электронная таблица сохраняются в виде растра в двух вариантах - с фигурным и рубленым шрифтом, в формат PDF. После этого, каждый файл распознается поочередно программами ABBYY FineReader версий 6.0, 7.0 и 8.0. Конечно, таким способом можно оценить только лишь максимальную скорость распознавания, так как при распознавании сканированного изображения возможны задержки по времени из-за особенностей сканируемого документа. Но, также стоит отметить, что такой тест (с точки зрения производительности) будет более объективным, так как качество распознавания сканированных документов программой версии 6.0 и 8.0 существенно отличаются. Ну-с, приступим!
В качестве "подопытного" документа выступила моя статья "Технология DVD - "все что вы хотели знать". Ее сохранили в формат PDF два раза - со шрифтом Arial и Times. Таким образом, получилось 2 файла, каждый - по 6 страниц. Результаты распознавания приведены в таблице:
|
ABBYY FineReader 6,0
|
ABBYY FineReader 7,0
|
ABBYY FineReader 8,0
|
Документ в формате PDF (6 страниц), шрифт Arial, с
|
29,3
|
19,8
|
6,0
|
Документ в формате PDF (6 страниц), шрифт Times, с
|
28,3
|
20,6
|
5,9
|
Как видите, при распознавании идеального (PDF) текстового документа, восьмая версия OCR-пакета ABBYY FineReader демонстрирует просто небывалую производительность. Она опережает предыдущую, седьмую версию программы в три, а шестую в четыре раза. А главное, сколько времени экономится на распознавании больших объемов текста, если одна страница распознается за секунду. Повторюсь, что распознавания сканированного изображения будет длиться на 30-70% дольше по времени, нежели та же операция, производимая с идеальным документом в PDF-формате.
Теперь перейдем к распознаванию таблиц. Для примера взят 6-страничный прайс-лист со шрифтом Arial 11 кегля. Поскольку все таблицы оформляются именно Arial, мы не стали делать еще один PDF-файл с другим шрифтом.
|
ABBYY FineReader 6.0
|
ABBYY FineReader 7.0
|
ABBYY FineReader 8.0
|
Таблица в формате PDF (6 страниц), шрифт Arial, с
|
1:26,2
|
1:06,1
|
27,4
|
Прайс-лист характеризуется большим количеством ячеек в таблице, а также немалым объемом текста и цифр. При распознавании программа не только определяет символы, но и расставляет их в нужных местах в распознаваемой таблице. В таблице, используемой для теста, было 7 столбцов, из которых только 5 содержали текст. ABBYY FineReader 8.0 продемонстрировал колоссальный результат быстродействия, опередив предыдущую версию программы в четыре раза, а шестую - в пять раз.
Результат, как говорится, налицо. Если FineReader 7.0 в сравнении с 6.0 стал производительнее на 25-35%, в зависимости от сложности документа, то программа с индексом 8.0 опережает предшественников в разы.
Заключение
Безусловно, FineReader 8.0 - лучший пакет для распознавания текстов. По крайней мере, для распознавания кириллицы пока ничего лучшего не придумали. 179 языков, доступных для распознавания, 20% из которых обладают словарями, возможность проверки орфографии после распознавания текста, новая возможность распознавания изображений низкого качества - все это содержит в себе новая версия пакета FineReader.
О недостатках программы можно было бы говорить только в случае, если бы у нее были достойные конкуренты. А за неимением таковых, почти монопольный статус программы от ABBYY ставит ее в категорию лучших. Так что, можно считать, что явных недостатков в программе нет.