реклама
Новости Software

«Яндекс» научил нейросеть расшифровывать архивные документы даже с дореволюционной орфографией

Специалисты «Яндекса» обучили нейросети расшифровке архивных записей — теперь препятствиями не являются ни рукописный текст, ни дореволюционная орфография. Поработать с технологией можно уже сейчас, открыв службу «Поиск по архивам», в которой доступны более 2,5 млн страниц исторических документов и их текстовая расшифровка.

 Источник изображения: Яндекс

Источник изображения: Яндекс

Нейросеть была обучена при помощи сотен тысяч рукописных строк в реальных архивных документах, датированных с XVIII по XIX вв., а также десятков миллионов примеров, которые были сгенерированы. В работе участвовали эксперты — они производили расшифровку и разметку документов, а также контролировали качество работы системы. Прочитать такие рукописи неподготовленному человеку очень сложно, но нейросеть «Яндекса» справляется с задачей почти мгновенно. При наличии расшифровки появилась возможность быстро находить документы с упоминанием ключевых слов, например, названий населённых пунктов и фамилий.

Служба «Поиск по архивам» поможет в работе историкам, социологам, демографам и генеалогам, а также тем, кто не обладает профессиональной подготовкой, но хочет больше узнать об истории своей семьи. Первыми в базе появились материалы Главархива Москвы, потому что нейросеть обучали на них; впоследствии коллекция пополнилась документами из архивов Оренбургской и Новгородской областей. Со временем к проекту подключатся и другие архивы, документов станет больше.

Сейчас в поиске доступны материалы с XVIII до начала XX вв. — они наиболее популярны у пользователей. В базе есть метрические книги, исповедные ведомости, а также ревизские сказки, в которые внесены результаты переписи населения. Документы открываются как по каталогу, так и через поисковую строку — на странице приводится скан листа и его построчная расшифровка с подсветкой при наведении.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме
window-new
Soft
Hard
Тренды 🔥
OpenAI обновила интерфейс ChatGPT — теперь это чёрная дыра 4 ч.
В описании первого трейлера Assassin’s Creed Codename: Red засветилась дата выхода игры — она получила название Assassin’s Creed Shadows 11 ч.
Датамайнер нашёл в коде сайта Rockstar рекламу ПК-версии Red Dead Redemption 13 ч.
Календарь релизов — 13–19 мая: Homeworld 3, Men of War II и Ghost of Tsushima на ПК 13 ч.
Забытая демоверсия классической Fallout снова привлекла внимание фанатов из-за контента, которого нет в полной игре 13 ч.
MaxPatrol EDR получил сертификат соответствия ФСТЭК России 15 ч.
The Rogue Prince of Persia получила новую дату выхода, а разработчики подготовились к неожиданному релизу Hollow Knight: Silksong 15 ч.
Военная стратегия Men of War II потребует постоянное подключение к интернету, но у разработчиков есть план 17 ч.
ЕС обвинил Microsoft в монополизме из-за приложения Teams 19 ч.
Инсайдер обнадёжил фанатов перед презентацией Dragon Age: Dreadwolf — в BioWare «все очень довольны игрой» 20 ч.
Google выпустит комплекс 3D-видеосвязи Project Starline в 2025 году 5 мин.
К 2027 году Китай будет контролировать до 45 % всех мощностей по выпуску чипов с использованием зрелой литографии 10 мин.
У VR-гарнитур Meta Quest 2 и Quest 3 появился режим «Путешествие» для использования в транспорте 2 ч.
Власти рекомендовали китайским техногигантам отдавать предпочтение ускорителям вычислений местной разработки 2 ч.
Apple и Google начали борьбу со слежкой через популярные Bluetooth-трекеры 2 ч.
Apple готовится выпустить Vision Pro на рынки за пределами США 3 ч.
Apple выпустила iOS 17.5 с поддержкой оповещений о наличии поблизости устройств слежения 4 ч.
Бизнесом Intel по контрактному производству чипов будет руководить Кевин О’Бакли 4 ч.
Microsoft потратит €4 млрд на ЦОД для ИИ и облаков во Франции, а AWS постарается не отстать 9 ч.
Новая статья: Обзор Ryzen 5 8600G: новый король бюджетных сборок (нет) 9 ч.