Сегодня 06 мая 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

«Яндекс» научил нейросеть расшифровывать архивные документы даже с дореволюционной орфографией

Специалисты «Яндекса» обучили нейросети расшифровке архивных записей — теперь препятствиями не являются ни рукописный текст, ни дореволюционная орфография. Поработать с технологией можно уже сейчас, открыв службу «Поиск по архивам», в которой доступны более 2,5 млн страниц исторических документов и их текстовая расшифровка.

 Источник изображения: Яндекс

Источник изображения: Яндекс

Нейросеть была обучена при помощи сотен тысяч рукописных строк в реальных архивных документах, датированных с XVIII по XIX вв., а также десятков миллионов примеров, которые были сгенерированы. В работе участвовали эксперты — они производили расшифровку и разметку документов, а также контролировали качество работы системы. Прочитать такие рукописи неподготовленному человеку очень сложно, но нейросеть «Яндекса» справляется с задачей почти мгновенно. При наличии расшифровки появилась возможность быстро находить документы с упоминанием ключевых слов, например, названий населённых пунктов и фамилий.

Служба «Поиск по архивам» поможет в работе историкам, социологам, демографам и генеалогам, а также тем, кто не обладает профессиональной подготовкой, но хочет больше узнать об истории своей семьи. Первыми в базе появились материалы Главархива Москвы, потому что нейросеть обучали на них; впоследствии коллекция пополнилась документами из архивов Оренбургской и Новгородской областей. Со временем к проекту подключатся и другие архивы, документов станет больше.

Сейчас в поиске доступны материалы с XVIII до начала XX вв. — они наиболее популярны у пользователей. В базе есть метрические книги, исповедные ведомости, а также ревизские сказки, в которые внесены результаты переписи населения. Документы открываются как по каталогу, так и через поисковую строку — на странице приводится скан листа и его построчная расшифровка с подсветкой при наведении.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме
window-new
Soft
Hard
Тренды 🔥
Обзорный трейлер пошаговой ролевой игры SteamWorld Heist II: бои, прокачка, мультиклассы и кое-что ещё 9 ч.
Не бывать дешёвым мейнфреймам: IBM подала второй иск к LzLabs, предлагающей доступную облачную альтернативу её «железу» 10 ч.
Симулятор выживания Serum про сыворотку, гонку со временем и отравленный лес выйдет в раннем доступе 23 мая 17 ч.
В Instagram появились «секретные» Stories — для их просмотра нужно написать автору 18 ч.
IBM избежала выплаты $1,6 мрд в пользу BMC 19 ч.
Пользователи Threads смогут ограничить цитирование своих публикаций 20 ч.
Новая статья: Stellar Blade: внешность — не главное. Рецензия 05-05 00:05
Новая статья: Gamesblender № 672: слухи о презентации Xbox, триумф Manor Lords и «истинная» российская ААА-игра 04-05 23:32
iOS 18 получит функцию сокращения текстов и веб-страниц на основе ИИ 04-05 23:06
Рынок российских музыкальных сервисов вырос на 40 % в 2023 году 04-05 18:13
CATL разрабатывает натрий-ионные аккумуляторы второго поколения, но их практическое применение видит только в сочетании с литиевыми 26 мин.
Tesla готовит почву для легализации FSD в Европе и Великобритании 2 ч.
Апрельская выручка Foxconn выросла на 19 % до рекордных $15,8 млрд 4 ч.
Новая статья: Он вам не силикон! Часть третья: через нанотрубки к волшебным пузырькам 8 ч.
HPE представила СХД среднего уровня Cray Storage Systems C500 для задач НРС и ИИ 18 ч.
SK hynix продала всю память HBM, запланированную к выпуску в 2024–2025 гг. 19 ч.
Власти США продали на аукционе 5,34-ПФлопс суперкомпьютер Cheyenne из-за растущего числа сбоев и протечек СЖО 19 ч.
В этом квартале цены на память DRAM вырастут более чем на 20 % 23 ч.
Презентация новых Apple iPad пройдёт в удобное для европейцев и китайцев время 05-05 06:53
Французский стартап представил технологию RIS для дешёвого спутникового интернета 05-05 06:12