реклама
Новости Software

Meta✴ выпустила ИИ, который налету переводит текст с русского и ещё ста языков

Meta выпустила модель искусственного интеллекта SeamlessM4T, способную осуществлять перевод со 101 языка. Проект является шагом к созданию универсального переводчика в реальном времени, который сможет обрабатывать устную речь, как только она произносится.

 Источник изображения: Sophia Richards / unsplash.com

Источник изображения: Sophia Richards / unsplash.com

Традиционные модели ИИ для перевода работают по многоэтапной схеме: сначала устная речь превращается в текст, затем осуществляется перевод этого текста на другой язык, после чего текст на новом языке снова превращается в устную речь. Этот метод не всегда достаточно эффективен, поскольку на каждом этапе существует вероятность возникновения ошибок, которые грозят неправильным результатом перевода. Новая модель Meta SeamlessM4T осуществляет перевод напрямую и срабатывает, по словам разработчиков, на 23 % точнее, чем лучшие современные модели. В арсенале Google значится модель AudioPaLM, которая поддерживает 113 языков, но осуществляет перевод только на английский; SeamlessM4T переводит со 101 языка на 36.

Залогом успеха проекта стал процесс параллельного сбора данных: ИИ фиксирует случаи в просканированных данных источников в вебе совпадения звука или видео с субтитрами на другом языке. В результате модель научилась связывать эти звуки на одном языке с соответствующими фрагментами текста на другом. Авторы проекта, однако, признают, что участие человека в переводе остаётся важным: человек способен учитывать культурный контекст и обеспечить передачу смысла высказывания с одного языка на другой. В медицине или юриспруденции машинный перевод должен тщательно проверяться человеком — в противном случае могут возникать недоразумения.

Следует также учесть, что у моделей ИИ могут быть разные объёмы обучающих данных для разных языков: может быть много примеров перевода с греческого на английский, но отсутствовать данные для перевода с суахили на греческий. Чтобы решить эту проблему, разработчики SeamlessM4T предварительно обучали модель на миллионах часов аудиозаписей разговоров на разных языках. Эта подготовка помогла ИИ распознавать общие закономерности языков — в результате упростилась обработка менее распространённых языков, поскольку модель уже располагала основными данными о том, как должна звучать разговорная речь на них.

Система доступна с открытым исходным кодом, что, как надеются разработчики, побудит других развивать её текущие возможности. Некоторые эксперты пока сомневаются в том, насколько SeamlessM4T может быть полезна на практике и указывают, что закрытая модель Google работает значительно быстрее. В Meta же утверждают, что специалисты компании уже создали более свежую версию Seamless, которая по скорости работы не уступает переводчикам-людям.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме
window-new
Soft
Hard
Тренды 🔥
OpenAI решили засудить за самоубийство подростка — компания пообещала изменить ChatGPT 16 мин.
Anthropic увернулась от иска за обучение ИИ на электронных книгах с помощью «исторического соглашения» 39 мин.
Восставший из мёртвых легендарный издатель Acclaim анонсировал игровую презентацию, которую «вы не захотите пропускать» 49 мин.
Миллионные зарплаты не помогли: элитная лаборатория суперинтеллекта Meta стала терять сотрудников 2 ч.
Atari выкупила у Ubisoft права на пять игр, включая Cold Fear, I Am Alive и Grow Home 2 ч.
Google выпустила «ИИ-фотошоп» — в Gemini встроили модель nano-banana, которая может точно редактировать картинки 3 ч.
«Мы прислушиваемся к вашим отзывам»: Paradox ответила на критику платных вампирских кланов в Vampire: The Masquerade — Bloodlines 2 3 ч.
OpenAI рискует потерять миллиарды инвестиций: переговоры с Microsoft откладывают реструктуризацию 4 ч.
Google кардинально обновила дизайн мобильного приложения Gmail в стиле Material 3 Expressive 7 ч.
Средневековый коронавирус и завершение истории Индржиха: новые детали сюжетного аддона Mysteria Ecclesiae для Kingdom Come: Deliverance 2 14 ч.
Летающие электромобили Alef получили базу для испытаний в Кремниевой долине — серийное производство не за горами 16 мин.
Проект одного из крупнейших в мире ЦОД Project Sale оказался под угрозой срыва 22 мин.
США теперь вряд ли позволят Intel избавиться от производства чипов 22 мин.
Apple, посторонись: Huawei раскрыла дату анонса тройного складного смартфона Mate XTs 2 ч.
XPeng показала, как её электромобили P7 сами уезжают с конвейера 3 ч.
Dreame выпустила в России дебютные телевизоры: от доступных моделей до 100-дюймового флагмана 4 ч.
Большому ИИ — большую СЖО: Google рассказала о системе охлаждения TPU 4 ч.
Южнокорейские энергетики помогут AWS и X-energy развернуть в США сеть малых модульных реакторов для ИИ ЦОД 5 ч.
Бум ИИ поднял выручку китайского конкурента Nvidia в 44 раза 5 ч.
Электромобиль Mercedes-Benz за сутки проехал 5479 км, обновив рекорд выносливости 5 ч.