Сегодня 20 апреля 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

«Яндекс» научил нейросеть расшифровывать архивные документы даже с дореволюционной орфографией

Специалисты «Яндекса» обучили нейросети расшифровке архивных записей — теперь препятствиями не являются ни рукописный текст, ни дореволюционная орфография. Поработать с технологией можно уже сейчас, открыв службу «Поиск по архивам», в которой доступны более 2,5 млн страниц исторических документов и их текстовая расшифровка.

 Источник изображения: Яндекс

Источник изображения: Яндекс

Нейросеть была обучена при помощи сотен тысяч рукописных строк в реальных архивных документах, датированных с XVIII по XIX вв., а также десятков миллионов примеров, которые были сгенерированы. В работе участвовали эксперты — они производили расшифровку и разметку документов, а также контролировали качество работы системы. Прочитать такие рукописи неподготовленному человеку очень сложно, но нейросеть «Яндекса» справляется с задачей почти мгновенно. При наличии расшифровки появилась возможность быстро находить документы с упоминанием ключевых слов, например, названий населённых пунктов и фамилий.

Служба «Поиск по архивам» поможет в работе историкам, социологам, демографам и генеалогам, а также тем, кто не обладает профессиональной подготовкой, но хочет больше узнать об истории своей семьи. Первыми в базе появились материалы Главархива Москвы, потому что нейросеть обучали на них; впоследствии коллекция пополнилась документами из архивов Оренбургской и Новгородской областей. Со временем к проекту подключатся и другие архивы, документов станет больше.

Сейчас в поиске доступны материалы с XVIII до начала XX вв. — они наиболее популярны у пользователей. В базе есть метрические книги, исповедные ведомости, а также ревизские сказки, в которые внесены результаты переписи населения. Документы открываются как по каталогу, так и через поисковую строку — на странице приводится скан листа и его построчная расшифровка с подсветкой при наведении.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме
window-new
Soft
Hard
Тренды 🔥
Schneider Electric ведёт переговоры о покупке Bentley Systems 10 ч.
Новая статья: Atom Bomb Baby: рассказываем, почему Fallout — идеальная экранизация видеоигрового материала, и почему этот сериал не стоит пропускать 11 ч.
Bethesda готовит «несколько очень хороших обновлений» для Starfield, а Fallout 5 не в приоритете 13 ч.
В Dota 2 стартовало сюжетное событие «Павшая корона» с уникальными наградами, новыми «арканами» и комиксом 13 ч.
Связанные одной шиной: «Лаб СП» и «Фактор-ТС» представили отечественную интеграционную платформу Integration Gears 14 ч.
Paradox отказала Prison Architect 2 в досрочном освобождении — релиз отложили ещё на четыре месяца 15 ч.
Спустя 17 лет после релиза Team Fortress 2 получила поддержку 64 бит — выросла производительность и даже боты пропали 16 ч.
Netflix резко нарастила аудиторию и прибыль, запретив совместное использование аккаунтов 17 ч.
Российские студенты победили в чемпионате мира по программированию ICPC 17 ч.
Мошенники стали угонять Telegram-аккаунты через сайты с изображениями 18 ч.
В Японии в 2034 году запустят маглев, скорость движения которого составит 500 км/ч 3 ч.
«Народный» электрический кроссовер Kia EV2 за $14 500 мелькнул на видео 5 ч.
Власти Китая упростили условия привлечения иностранных инвестиций в национальный технологический сектор 5 ч.
Гиперщит с ИИ: Cisco представила систему безопасности Hypershield 13 ч.
Highpoint представила карту расширения на восемь SSD: до 64 Тбайт со скоростью до 56 Гбайт/с 13 ч.
Китайские экспериментальные лунные навигационные спутники прислали фотографии обратной стороны Луны 13 ч.
Налоговая служба Швеции закрыла 18 дата-центров за незаконный майнинг криптовалют 14 ч.
LG выпустила флагманский саундбар S95TR за $1500 с поддержкой Dolby Atmos и настройкой с помощью ИИ 16 ч.
Seagate заявила, что жёсткие диски с HAMR уже не уступают по надёжности традиционным HDD 17 ч.
Corsair представила обновлённые доступные проводные гарнитуры HS35 v2 для геймеров 17 ч.