реклама
Теги → seamlessm4t

Meta✴ научила ИИ-модель SeamlessM4T переводить текст и речь быстрее и естественнее

Meta обновила свою ИИ-модель SeamlessM4T, предназначенную для перевода речи и текста. Теперь платформа поддерживает переводы почти на 100 языках, включая русский, в текстовом формате и на 36 — в устной речи. С новой архитектурой решения технологический гигант стремится сделать перевод более естественным и выразительным, что обещает стать прорывом в коммуникациях между людьми и производстве контента.

 Источник изображения: ***

Источник изображения: Meta

Meta построила SeamlessM4T на основе своей архитектуры многофункциональной модели UnitY на базе PyTorch, которая выполняет различные модальные переводы, а также автоматическое распознавание речи. Она использует систему BERT 2.0 для аудиокодирования, разбивая входные данные на составляющие токены для анализа, и HiFi-GAN unit vocoder для генерации голосовых ответов.

Первая из двух новых функций SeamlessM4T называется SeamlessExpressive. Как можно понять из названия, она переносит эмоциональные интонации голоса в переведённую речь. Система учитывает такие составляющие, как тон речи, её громкость, эмоциональный окрас (возбуждение, печаль или шёпот), темп речи и паузы. Всё это делает переводы менее механическими и более живыми. Поддерживаются английский, испанский, немецкий, французский, итальянский и китайский языки.

Вторая функция, SeamlessStreaming, начинает переводить речь, пока говорящий ещё не закончил предложение, что позволяет другим слушателям быстрее услышать перевод. Задержка составляет чуть менее двух секунд. По словам Meta, основной трудностью здесь было различие в структуре предложений разных языков, поэтому был разработан специальный алгоритм, который анализирует неполные аудиофрагменты и решает, достаточно ли контекста для начала генерации перевода или стоит ещё послушать говорящего.

Как и большинство предыдущих разработок Meta в области машинного перевода, будь то Llama 2, Massively Multilingual Speech (MMS), Universal Speech Translator (UST) или амбициозный проект No Language Left Behind (NLLB), SeamlessM4T находится в открытом доступе на GitHub. «Мы считаем, что SeamlessM4T является важным прорывом в стремлении сообщества ИИ к созданию универсальных многофункциональных систем», — написала команда исследователей.

Развитие компанией Meta ИИ-технологий перевода с различных языков открывает новые перспективы в области межъязыкового общения. Эти инновации могут значительно превзойти существующие решения, такие как инструменты перевода, разработанные компаниями Google и Samsung. Пока нет точной информации о сроках внедрения Meta этих функций, но их потенциальное применение, например, в умных очках Meta, обещает сделать их незаменимыми в повседневной жизни и профессиональной сфере.

window-new
Soft
Hard
Тренды 🔥
Starbreeze в честь второй годовщины Payday 3 объявила об отмене обещанного офлайн-режима, о котором фанаты просили с самого релиза 50 мин.
Epic Games Store устроил раздачу неовикторианского выживания Nightingale от команды бывшего руководителя BioWare 4 ч.
Нелинейная партийная RPG Starfinder: Afterlight отправит в галактику, где соединились магия и технологии — новый геймплейный трейлер 6 ч.
Facebook и Instagram обязали вернуть хронологические ленты в качестве стандартных, но только в Нидерландах 6 ч.
Музыкальные лейблы будут лицензировать контент разработчикам для «этичного» обучения ИИ 6 ч.
Starbreeze отменила кооперативный экшен по Dungeons & Dragons ради Payday — «одной из самых знаковых франшиз в игровой индустрии» 6 ч.
Затраты — выше, безопасность — ниже: Google снова посетовала на заградительное лицензирование Microsoft 7 ч.
Сэма Альтмана поймали за руку при попытке украсть видеокарту — это самое популярное ИИ-видео в Sora 8 ч.
YouTube тестирует новый интерфейс мобильного приложения — реакция пользователей ожидаемо негативная 8 ч.
Суд США разрешил прокуратуре взломать Telegram, но у неё не получилось 10 ч.
Microsoft вложит $33 млрд в бывшую Yandex N.V. и другие «неоклауды», чтобы побороть дефицит мощностей для ИИ 46 мин.
У мозга появился конкурент — ДНК-компьютер с невероятно доступным источником питания 56 мин.
Microsoft потратит $33 млрд на доступ к 100+ тыс. NVIDIA GB300 в неооблаках, но со временем хочет перейти на свои ИИ-ускорители 3 ч.
В России начались продажи смартфонов Xiaomi 15T и 15T Pro с камерами Leica — от 54 990 рублей 3 ч.
MSI косвенно подтвердила совместимость процессоров AMD Zen 6 с платами AM5 4 ч.
Почти все новые iPhone разошлись лучше ожиданий — только одна модель не снискала популярности 5 ч.
HP представила 49-дюймовый офисный монитор Series 5 Pro с выдвижной веб-камерой и геймерскими характеристиками 5 ч.
Японцы научили ИИ видеть сквозь стены при помощи Wi-Fi 5 ч.
iPhone 17 Pro обвесили кулерами для SSD — и он выдержал стресс-тест почти без тротлинга 6 ч.
Продажи Tesla рванули до исторического рекорда, но впереди — резкий спад 6 ч.