Оригинал материала: https://3dnews.kz/616042

На пути к совершенству. Обзор новшеств ABBYY FineReader 11

Пожалуй, трудно в IT-сфере найти человека, ничего не слышавшего о программных решениях отечественной компании ABBYY, входящей в ТОП-100 самых упоминаемых брендов Рунета и являющейся законодателем мод в области распознавания документов и лингвистики. Более чем двадцатилетний опыт насыщенной и продуктивной работы определил успех российского разработчика во всем мире, о чем свидетельствует не только 30-миллионная аудитория пользователей более чем в 130 странах, но и признание со стороны бизнес-сообщества, обрабатывающего с помощью технологий и инструментов компании свыше 1,6 млрд страниц документов и форм ежегодно. Цифры впечатляющие, однако в ABBYY не почивают на лаврах и продолжают неустанно из года в год совершенствовать и расширять линейку своей продукции, не так давно пополнившуюся новой, одиннадцатой по счету версией OCR-пакета FineReader, представленного в редакциях Professional Edition и Corporate Edition и предназначенного для конвертирования отсканированных документов, изображений, фотографий и PDF-файлов в редактируемые форматы.

Говоря о нововведениях в систему оптического распознавания текстов, прежде всего следует отметить увеличенную скорость обработки документов. По результатам проведенных ABBYY тестов, FineReader 11 демонстрирует возросшую на 20% производительность по сравнению с предыдущей версией продукта. Особый акцент разработчики делают на оптимизации различных режимов работы приложения, позволяющих добиваться существенной экономии времени при обработке больших объемов информации. Так, практическое использование нового ­черно-белого режима ускоряет конвертирование данных до 30%, а активация режима быстрого распознавания, предназначенного для документов с простым оформлением и хорошим качеством печати, форсирует упомянутый процесс аж до 70%. Немалую роль в достижении программой столь значимых результатов играет эффективное использование вычислительных возможностей многоядерных процессоров.

Вторая ключевая особенность FineReader 11 — улучшенное качество распознавания и сохранения­ структуры многостраничных документов. Благодаря совершенствованию технологии адаптивного распознавания документов (ADRT — Adaptive Document Recognition Technology), специалистам ABBYY удалось на 40% повысить точность определения заголовков и колонтитулов, на 70% — текста на полях, на 25% улучшить распознавание таблиц и на 15% — определение картинок и диаграмм­. Также добавлена поддержка вертикальных колонтитулов, улучшено на 20% качество "понимания" текстов для группы языков CJK (китайский, японский, корейский) и в состав программы включен инструментарий для создания в PDF-документе оглавления в виде закладок. Использование последней опции восстанавливает структуру­ оглавления документа с возможностью перехода по ссылкам, что существенно упрощает навигацию и работу с многостраничными материалами.

Важный аспект — поддержка языков, также не оставшаяся без внимания программистов, инженеров и лингвистов ABBYY. Разработчики добавили в одиннадцатую сборку продукта арабский, вьетнамский, туркменский (латиница) языки и реализовали словарную поддержку для­ арабского, вьетнамского, латинского,­ японского, корейского языков. Таким образом, отныне в активе OCR-решения значится 189 языков распознавания, для 45 из которых предусмотрена проверка орфографии. Такой багаж знаний делает FineReader самой многоязычной системой распознавания в мире.

Вполне возможно, что рядовым пользователям FineReader, чья работа с приложением ограничивается конвертированием документов на двух-трех европейских языках, включение поддержки перечисленных в предыдущем абзаце языков покажется малозначительным, однако на деле умение программы понимать особенности той же арабской системы письма свидетельствует о том, что технологии оптического распознавания ABBYY развиваются, а значит, становятся еще совершеннее. Важно осознавать, что за реализацией поддержки любого дополнительного языка кроется кропотливый труд большого числа специалистов и экспертов компании.

Отдельное внимание при разработке программы было уделено переводу бумажных книг в цифровой вид. Электронные книги давно уже превратились из экзотики в обыденность, поэтому включение в состав FineReader 11 поддержки форматов FictionBook 2.0 (FB2), Electronic Publication (ePub) и возможности отправлять файлы непосредственно из окна приложения в учетную запись Amazon Kindle является оправданным шагом. В настройках модуля, отвечающего за формирование eBook-изданий, можно управлять функцией сохранения изображений и их качеством, выбирать оформление книги с использованием простого или форматированного текста, включать встраивание шрифтов и манипулировать прочими свойствами документа. Кроме того, программа умеет автоматически сохранять главы книги в отдельные HTML-файлы и восстанавливать ссылки в содержании на соответствующие главы книги. Данная возможность FineReader также может быть востребована владельцами eBook-ридеров и прочих портативных устройств.

Серьезно изменились средства обработки фотографий, пополнившиеся новыми инструментами для редактирования изображений, включая настройку яркости, контрастности и уровней интенсивности света и тени, которая позволяет значительно улучшить исходные снимки и получить более точные результаты распознавания. Подобного рода корректировки можно произвести в любом имеющемся под рукой графическом редакторе, однако одно дело — возиться со сторонним приложением и затем переносить файлы в FineReader, и совсем другое — вносить необходимые правки непосредственно в окне OCR-пакета.

Упомянуть следует и появившийся в 10-й версии программы и улучшенный в 11-й инструментарий для исправления трапециевидных искажений, часто возникающих при съемке документов цифровой камерой. Выбрав в редакторе изображений соответствующий пункт, пользователь может, перетаскивая мышью углы рамки и совмещая их с углами картинки, устранить искажение перспективы и в два счета привести снимок к «плоскому» виду. Подобный функционал может быть полезен как для улучшения читабельности сфотографированных документов, так и для приведения разнородных снимков к общему знаменателю.

Изображение до...

...и после коррекции трапеции средствами FineReader 11

ABBYY FineReader предоставляет широкий спектр возможностей для работы с форматом PDF — принятым во всем мире стандартом обмена электронными документами и деловой переписки. В обновленной редакции продукта улучшена технология MRC-сжатия (Mixed Raster Content), благодаря чему можно уменьшить размеры PDF-файлов в пять раз, по сравнению с 10-й версией программы, без видимых изменений качества изображения — это позволяет экономить пространство на диске компьютера и пересылать объемные документы по электронной почте. Три новых режима сохранения PDF — «Высокое качество», «Небольшой размер», «Сбалансированный режим» — позволяют пользователю получать оптимальные результаты для разного типа задач.

Раз уж речь зашла о функциях сохранения и архивирования данных, то логичным будет упомянуть еще об одном нововведении в данной области — поддержке форматов экспорта DjVu и OpenDocument Text (ODT). Первый формат повсеместно используется для хранения отсканированных документов — научных книг, журналов и рукописей с обилием формул, схем, рисунков и рукописных символов; второй — задействован в OpenOffice.org Writer и прочих открытых офисных пакетах, все чаще применяемых в государственном секторе и образовательных учреждениях.

Претерпели изменения в FineReader 11 также средства редактирования и проверки документов. Из наиболее значимых новшеств можно отметить механизм разделения пакета страниц на несколько документов. Данная функция может быть полезна при сканировании в едином потоке разнородных­ материалов (газетные вырезки, журнальные статьи, сканы книжных страниц и так далее), для каждого из которых необходимо использовать различные настройки OCR-движка. Сортировка осуществляется простым перетягиванием мышью миниатюр страниц в окне «Разделить документ на несколько» и последующим нажатием клавиши «Создать» (см. скриншот). В результате для каждого набора страниц запустятся отдельные копии FineReader с независимыми друг от друга параметрами распознавания текстов.

Брызги нововведений затронули также инструментарий для проверки неуверенно распознанных и отсутствующих в словарной базе слов, редактор стилей с функцией объединения стилей со схожими атрибутами и диалоговое окно «Задачи», обеспечивающее мгновенный доступ ко всем базовым и пользовательским сценариям работы. Кроме того, в FineReader 11 появилась возможность изменять нумерацию страниц­ в книгах с обратной нумерацией и восстанавливать оную при двустороннем сканировании документов.

Таковы основные изменения одиннадцатой линейки FineReader, обзор которой был бы неполным без упоминания особенностей корпоративной сборки продукта, включающей все возможности Professional-редакции и имеющей ряд дополнительных инструментов для удобства совместной работы в сети (например на одном компьютере можно сканировать документы, на другом — распознавать, а на третьем — проверять результаты). Кроме того, версия Corporate Edition предусматривает возможность автоматизированной установки программы на вычислительные машины в локальной сети и централизованное управление лицензиями.

Акцентируя внимание на новшествах FineReader 11 Corporate Edition, прежде всего следует отметить расширенное стартовое окно «Задачи» и возможность создания пользователем собственных сценариев работы программы. Если в профессиональной редакции OCR-пакета список «однокликовых» операций строго регламентирован, то в корпоративной версии его можно всячески варьировать, гибко настраивая и автоматизируя работу FineReader. Важной особенностью приложения является возможность использования сценариев, созданных другими пользователями, и наличие в составе продукта планировщика Hot Folder, также подвергшегося дальнейшим улучшениям и доработкам.

Настраиваемые сценарии FineReader 11 Corporate Edition

Менеджер задач с функциями экспорта/импорта сценариев

Следуя новым техническим и организационным веяниям в области информационной безопасности, разработчики ABBYY оснастили текстовый редактор программы средствами цензурирования документов. Основная функция новинки заключается в защите конфиденциальных данных от посторонних глаз: с помощью специального маркер, пользователь может замазать черными полосами секретный текст и сделать его недоступным для просмотра и копирования. Функция поддерживается при сохранении­ документа в PDF-файл, а также в других форматах.

Наконец, еще одним нововведением в FineReader 11 Corporate Edition является наличие в дистрибутиве продукта ABBYY Business Card Reader — программы для автоматического перевода бумажных визитных карточек в электронный формат. Решение поддерживает 25 языков распознавания, позволяет одновременно сканировать до десяти ­визиток на одной странице, а также оснащено функциями экспорта записей в Microsoft Outlook, файлы формата vCard и пересылки контактных данных по электронной почте. Полный список продуктов и условия использования приложения представлены на сайте abbyy.ru.

Что касается предъявляемых одиннадцатой версией FineReader системных требований, то они практически не изменились. Для корректной работы пакета необходим функционирующий под управлением Windows компьютер с тактовой частотой процессора 1 ГГц или выше и объемом оперативной памяти не менее одного гигабайта. Программа работает со всеми популярными моделями сканеров и многофункциональных устройств (МФУ), в том числе с цифровыми фотокамерами и камерами мобильных телефонов с разрешением свыше двух мегапикселей и функцией автофокуса.

Обновленная линейка OCR-решений уже доступна в онлайн-маркете store.abbyy.ru, торговых сетях партнеров компании и в виде ознакомительных версий на сайте ABBYY. Рекомендованная розничная цена коробочной версии FineReader 11 Professional Edition составляет 3 990 рублей, электронной версии — 3 590 рублей. Стоимость Corporate-редакции продукта также не претерпела изменений — 8 990 рублей в интернет-магазине разработчика. Пользователи предыдущих сборок FineReader могут сэкономить, приобретя соответствующий набор обновлений.



Оригинал материала: https://3dnews.kz/616042