реклама
Новости Software

Alibaba представила нейросеть EMO — она оживляет портреты, заставляя их разговаривать и даже петь

Исследователи из Института интеллектуальных вычислений Alibaba разработали (PDF) систему искусственного интеллекта EMO (Emote Portrait Alive), которая анимирует статическое изображение человека, заставляя его реалистично говорить или петь.

 Источник изображения: youtube.com/@ai_beauty303

Источник изображения: youtube.com/@ai_beauty303

Система изображает реалистичную мимику и движения головы, точно соответствующие эмоциональным оттенкам звукового ряда, на основе которого генерируется анимация. «Традиционные методы зачастую неспособны передать полный спектр человеческих выражений лица и уникальность отдельных его стилей. Для решения этих проблемы мы предлагаем EMO — новый фреймворк, использующий подход прямого синтеза из аудио в видео, минуя потребность в промежуточных 3D-моделях или лицевых опорных точках», — пояснил глава группы разработчиков Линьжуй Тянь (Linrui Tian).

В основе системы EMO лежит диффузионная модель ИИ, зарекомендовавшая себя как способная генерировать реалистичные изображения. Исследователи обучили её на массиве данных, включающем более 250 часов видеозаписей «говорящей головы»: выступлений, фрагментов фильмов, телешоу и вокальных выступлений. В отличие от предыдущих методов, предполагающих создание трёхмерной модели или механизмов имитации человеческой мимики, EMO предполагает прямое преобразование звука в видеоряд. Это позволяет системе передавать мельчайшие движения и связанные с естественной речью особенности личности.

Авторы проекта утверждают, что EMO превосходит существующие методы по показателям качества видео, сохранения идентичности и выразительности. Исследователи опросили фокус-группу, и та показала, что созданные EMO видеоролики более естественны и эмоциональны, чем произведения других систем. Система создаёт анимацию не только на основе речи, но и с использованием звукового ряда с вокалом — она учитывает форму рта человека на оригинальном изображении, добавляет соответствующую мимику и синхронизирует движения с вокальной партией. Единственной связанной с EMO проблемой является вероятность злоупотребления этой технологией. Исследователи сообщают, что планируют изучить методы выявления созданных ИИ видеороликов.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме
window-new
Soft
Hard
Тренды 🔥
Дональд Трамп намерен обсудить сделку с TikTok сегодня 2 ч.
Картинки в стиле Ghibli перегрузили серверы OpenAI — выпуск новых функций замедлен 10 ч.
У Ubisoft пока нет чёткого плана работы новой компании с Tencent — инвесторы и сотрудники нервничают 11 ч.
«Загрузки быстрее, чем в Doom (2016)»: эксперт Digital Foundry остался в восторге от Doom: The Dark Ages 12 ч.
Консоли задержат релиз постапокалиптического стелс-экшена Steel Seed от создателей Close to the Sun — объявлена новая дата выхода 14 ч.
ИИ-модель Llama запустили на ПК из прошлого тысячелетия на базе Windows 98 15 ч.
ChatGPT остаётся самым популярным чат-ботом с ИИ, но у конкурентов аудитория тоже растёт 16 ч.
Google сделает сквозное шифрование в Gmail доступным для всех 16 ч.
Антиутопия на колёсах: новый геймплейный трейлер раскрыл дату выхода приключения Beholder: Conductor про кондуктора легендарного поезда 17 ч.
Путин запретил госорганам и банкам общаться с клиентами через иностранные мессенджеры 17 ч.
Hyundai представила Insteroid — концепт электромобиля в стиле гоночных симуляторов 2 ч.
Amazon возобновила доставку товаров дронами в Техасе и Аризоне после двухмесячного перерыва 2 ч.
UMC открыла в Сингапуре новое передовое предприятие, снижая зависимость от Тайваня 4 ч.
Intel: Panther Lake возьмут всё самое лучше от актуальных Core и ангстремного техпроцесса 18A, но выйдут в 2026 году 6 ч.
Новая статья: Выбираем кулер для процессора Intel LGA1700 до 2 000 рублей 10 ч.
Garmin представила смарт-часы Vivoactive 6 с мониторингом энергии пользователя за $300 12 ч.
Экспериментальный мозговой имплантат на лету превратил мысли пациента в беглую речь 12 ч.
В Калифорнии зарядных станций для электромобилей теперь на 48 % больше, чем бензоколонок 15 ч.
Японская Rapidus к концу апреля запустит опытное производство 2-нм чипов 16 ч.
В Лондоне появится экобезопасный ЦОД AWS для ленточных накопителей 18 ч.