реклама
Теги → речевые технологии

Новый вариант речевой ИИ-модели Google USM позволит обрабатывать более 1000 языков

В разработке у Google находятся практически все виды ИИ-технологий, но Универсальная речевая модель (Universal Speech Model или USM) занимает в портфолио компании особое место. Этот проект стал частью попытки компании построить систему, способную понимать 1000 наиболее распространённых языков мира.

 Источник изображения: intographics/unsplash.com

Источник изображения: intographics/unsplash.com

Хотя Google и Microsoft активно соперничают, пытаясь доказать превосходство своих чат-ботов, технология «человекоподобных» ИИ-инструментов — не единственная сфера применения машинного обучения и языковых моделей.

Наряду со слухами о планах представить более 20 инструментов на базе алгоритмов ИИ в ходе конференции I/O этого года, Google продолжает работать над языковой моделью, поддерживающей 1000 языков. В понедельник компания поделилась новой информацией о своей универсальной речевой модели, которую в Google описывают как «критический первый шаг» в реализации своих планов на этом поприще.

Ещё в прошлом ноябре компания анонсировала планы создания языковой модели, поддерживающей 1000 наиболее распространённых языков, рассказав об USM. Google описывает её как «семейство ультрасовременных речевых моделей» с 2 млрд параметров. При тренировке использовались 12 млн часов речи и 28 млрд предложений из более чем 300 языков.

USM уже используется Google для создания субтитров на YouTube, модель уже поддерживает автоматическое распознавание речи. Это позволяет автоматически определять и распознавать различные языки, от распространённых вроде английского или мандаринского диалекта китайского до амхарского или ассамского. По данным Google, уже сейчас USM поддерживает более 100 языков и послужит основой для строительства ещё более масштабной системы. Известно, что над аналогичной технологией ИИ-перевода уже работает Meta. Подробнее об USM можно почитать в докладе Google.

Одной из сфер применения технологии может быть использование в очках дополненной реальности — подобный концепт-вариант Google продемонстрировала ещё в ходе конференции I/O прошлого года. Система может в режиме реального времени переводить чужую речь, выводя результаты непосредственно на дисплей AR-очков. Впрочем, до появления окончательной версии технологии пока довольно далеко и Google придётся немало поработать, чтобы избежать досадных ошибок.

window-new
Soft
Hard
Тренды 🔥
Google, Meta и другие незаметно меняют политику конфиденциальности для обучения ИИ 59 мин.
Ticketmaster подтвердил кражу данных банковских карт, номеров телефонов и адресов электронной почты клиентов 6 ч.
Новая статья: Fallen Aces — карта в рукаве жанра. Предварительный обзор 6 ч.
Lenovo портировала свою облачную платформу на китайские процессоры Loongson 7 ч.
FromSoftware: виновником проблем с производительностью в ПК-версии Elden Ring: Shadow of the Erdtree может быть стороннее ПО для мышки 8 ч.
Роглайк-экшен Castle Come доверит игрокам управление ходячей крепостью в странном мире — первый трейлер и подробности 9 ч.
«Стало бы мечтой наяву»: продюсер Konami признался, что «больше всего» хотел бы снова поработать с Кодзимой над Metal Gear 11 ч.
В Казахстане официально разрешили торговать Toncoin 11 ч.
Windows 10 будет получать обновления безопасности до 2030 года благодаря 0Patch 11 ч.
Создатели Warhammer 40,000: Space Marine 2 раскрыли продолжительность сюжетной кампании и отменили обещанную «бету» 12 ч.
На закупку оборудования и подготовку к выпуску 2-нм продукции TSMC потратит $12,3 млрд за два года 2 ч.
Audi интегрирует ChatGPT в систему MIB3, расширив возможности голосового интерфейса 3 ч.
Рынок флеш-памяти NAND столкнулся с избытком предложения и низким потребительским спросом 6 ч.
Apple может упростить замену аккумуляторов iPhone 6 ч.
SK hynix представила оптимизированный для ИИ твёрдотельный накопитель PCB01 с PCIe 5.0 и скоростью до 14 Гбайт/с 8 ч.
У электромобилей по-прежнему большие проблемы с качеством — большинство проблем из-за ПО 12 ч.
Vivo представила 12,1-дюймовый планшет Pad3 с чипом Snapdragon 8s Gen 3 и аккумулятором на 10 000 мА·ч 12 ч.
Lian Li представила серию СЖО HydroShift LCD 360 с большими дисплеями и держателями для трубок 12 ч.
MSI выпустила мощный игровой ноутбук TITAN 18 Pro Ryzen Edition с Ryzen 9 7945HX3D и GeForce RTX 4090 14 ч.
Nokia купит за $2,3 млрд Infinera, чтобы масштабировать свой оптический бизнес 14 ч.