реклама
Новости Software

Meta✴ представила ИИ-модель Voicebox, которая генерирует и редактирует устную речь

Инженеры Meta рассказали о нейросетевой модели Voicebox, которая обладает широкими возможностями по работе с устной речью: генерация, редактирование или стилизация по образцу. Авторы проекта охарактеризовали её как прорыв в моделях речевого ИИ.

 Источник изображения: ***

Источник изображения: Meta

Voicebox озвучивает заданный текст с высоким качеством или производит обработку уже готовой записи голоса, например, удаляет из него посторонние звуки вроде автомобильных гудков и собачьего лая, сохраняя содержание и стилистику речи. При необходимости можно даже «переиграть» фрагмент записи, точечно исправив, например, неправильно произнесённое слово. Поддерживаются шесть языков: английский, французский, немецкий, испанский, польский и португальский. Voicebox может использоваться в качестве синхронного переводчика, передавая голос и манеру речи собеседника.

Модель была обучена на 50 часах аудиокниг, и этого ей хватило, чтобы овладеть навыками устной речи в полной мере: она составляет профиль голоса и манеры речи на основе образца продолжительностью всего две секунды, после чего может воспроизвести её с любым текстом. На практике эти возможности могут оказаться полезными в приложениях метавселенной, обеспечив естественное звучание голосов для виртуальных помощников и неигровых персонажей; или для слабовидящих людей — модель может озвучивать письма голосами их авторов.

Meta часто делает свои ИИ-модели общедоступными, но не на сей раз. В компании не раскрыли, на каких материалах производилось обучение Voicebox, и не предложили испытать технологию на практике — опасаются злоупотреблений.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме
window-new
Soft
Hard
Тренды 🔥
Google бесплатно раздаёт облачное пространство, но лишь пользователям с устаревшим бесплатным аккаунтом G Suite 5 ч.
После волны увольнений Tesla открыла вакансии в сфере ИИ с зарплатой до $360 000 в год 7 ч.
Новая статья: Crow Country — для тех, кто помнит. Рецензия 9 ч.
Скорый анонс новой Doom подтвердил надёжный источник — первые подробности Doom: The Dark Ages 13 ч.
«Лучший экшен 2024 года», кроссплей и никаких микротранзакций: новые подробности Warhammer 40,000: Space Marine 2 14 ч.
Исследование: основной целью хакеров при атаках на промышленность является шпионаж 14 ч.
Обойдёмся без Oracle: «Ростелеком» создаст собственную биллинговую систему с СУБД от «СберТеха» 15 ч.
От бега с ножницами до выдуманных фильмов: ИИ Google чудит с ответами прямо в поиске 15 ч.
«Есть куда стремиться»: глава FromSoftware прояснил будущее Armored Core и ответил на вопрос про Bloodborne 2 15 ч.
Angara Security создала ИБ-платформу предиктивной аналитики на основе баз данных угроз ФСТЭК и MITRE 16 ч.
Так вот как это было! «Джеймс Уэбб» засёк начало рождения галактик в ранней Вселенной 3 ч.
К следующему году Китай станет основным поставщиком электромобилей с поддержкой сверхбыстрой зарядки 3 ч.
Американские регуляторы решили углубиться в расследование новых инцидентов с прототипами беспилотных такси Waymo 5 ч.
Gunnir выпустила уникальные видеокарты Photon Arc A750 и Arc A770 в стиле Elden Ring: Shadow of the Erdtree 14 ч.
Продажи смартфонов в Европе закончили трёхлетнее падение, но до полного восстановления рынка ещё далеко 15 ч.
SpaceX Starship в следующий раз полетит в космос 5 июня, но это не точно 16 ч.
Банк России зафиксировал всплеск активности россиян на криптовалютном рынке 18 ч.
Китайские батареи для электромобилей будут вдвое дешевле американских, даже с новыми пошлинами США 18 ч.
SpaceX не нуждается в дополнительном капитале — Маск опроверг слухи о грядущей продаже акций компании 18 ч.
«Царь во дворца»: G.Skill представила флагманскую оперативную память Trident Z5 Royal DDR5 18 ч.