реклама
Теги → elevenlabs

ElevenLabs обучила ИИ создавать звуковые эффекты для видео

На минувшей неделе OpenAI представила модель искусственного интеллекта Sora, обученную генерировать реалистичные видеоролики по текстовому описанию. Стартап ElevenLabs предложил собственное решение Sound Effects для наложения звуковых эффектов на такие ролики.

 Источник изображения: youtube.com/@elevenlabsio

Источник изображения: youtube.com/@elevenlabsio

Компанию ElevenLabs основали в 2022 году бывший инженер Google по машинному обучению Пётр Дабковски (Piotr Dabkowski) и бывший специалист Palantir по стратегии внедрения Мати Станишевски (Mati Staniszewski). Компания выпустила модель по преобразованию текста в речь и дублированного перевода на 20 языков с сохранением оригинального тона и тембра голоса.

Новый проект ElevenLabs получил название Sound Effects — он предназначается для создания звуковых эффектов для лишённых звука видеороликов; звук генерируется по текстовому описанию. Работу очередной ИИ-модели компания продемонстрировала на примере роликов, созданных нейросетью OpenAI Sora. Для этого использовались простые описания вроде «шум волн», «звон металла», «чириканье птиц» и «двигатель гоночной машины».

ElevenLabs не раскрыла технических подробностей, касающихся работы ИИ-системы, но результаты работы новой модели вполне убедительны — фоновые звуки получились реалистичными: городской шум, шаги на оживлённой улице, сигналы человекоподобного робота и закадровый текст, который как будто читает голливудский актёр. Компании ещё предстоит рассказать, как она планирует защитить свой проект от попыток недобросовестного использования — ElevenLabs Sound Effects может заинтересовать мошенников.

ИИ научили клонировать любые голоса для озвучки текста — в Сети тут же появились непристойные дипфейки с голосами знаменитостей

Несколько дней назад стартап ElevenLabs представил бета-версию платформы для создания синтетических голосов-клонов реальных людей для озвучивания текстов. Буквально через несколько дней в Сети появились дипфейки голосов знаменитостей, озвучивающих крайне сомнительные тексты. По словам компании, отмечено «увеличивающееся число случаев злоупотребления клонированием голосов» — компания уже работает над решением проблемы с помощью введения дополнительных мер защиты.

 Источник изображения: Kelly Sikkema/unsplash.com

Источник изображения: Kelly Sikkema/unsplash.com

Что имелось в виду под злоупотреблением, в компании не уточнили, но уже известно, что на интернет-форумах появились аудиозаписи с голосами знаменитостей, содержащие высказывания неприемлемого содержания.

Пока неизвестно, все ли материалы созданы с использованием технологии ElevenLabs, но значительная коллекция голосовых файлов содержит ссылку именно на платформу компании. Впрочем, ничего удивительно в этом нет, поскольку возникновение общедоступных систем машинного обучения привело к появлению многочисленных дипфейков различного рода.

Сейчас ElevenLabs собирает обратную связь для предотвращения злоупотреблений технологией. На данный момент компания не придумала ничего необычного кроме добавления дополнительных мер верификации аккаунтов для обеспечения доступа к клонированию голосов.

В числе идей: ввод платёжной информации или данных удостоверений личности. Дополнительно рассматривается верификация прав на использование голоса, который пользователи намерены клонировать, например, будет предложено загрузить образец с чтением предложенного текста. Наконец, компания рассматривает возможность полностью отказаться от инструмента Voice Lab и заставить проходить верификацию голосов в ручном режиме. Пока же пользователей призвали поделиться идеями с разработчиками сервиса.

Известно, что в первой половине января схожее решение представила Microsoft. Её инструмент VALL-E тоже позволяет преобразовать текст в речь, использовав в качестве образца всего 3 секунды записи голоса любого человека.

window-new
Soft
Hard
Тренды 🔥
Команда специалистов OpenAI по защите человечества от угроз, связанных с ИИ, просуществовала менее года 28 мин.
Google выпустил вторую бету Android 15 с «Личным пространством», предиктивным «Назад» и множеством других нововведений 8 ч.
Новая статья: Animal Well — колодец, из которого не хочется вылезать. Рецензия 8 ч.
В России готовы взяться за борьбу с серым импортом видеоигр 8 ч.
Microsoft начала веерные остановки подписок на свои облачные продукты для российских корпоративных клиентов 8 ч.
Лучше поздно, чем никогда: Arkane Austin всё-таки выпустит финальное обновление Redfall 9 ч.
МТС открыла магистратуру по искусственному интеллекту в Высшей школе экономики 12 ч.
Sony пригрозила 700 компаниям судом за несанкционированное использование музыки для обучения ИИ 12 ч.
Ubisoft отреагировала на слухи о требованиях Assassin's Creed Shadows к постоянному онлайн-подключению 12 ч.
Следующая Call of Duty на старте продаж станет доступна в Game Pass 14 ч.
Летающими электромобилями XPeng можно будет управлять без особых разрешений, но только за пределами городов 2 ч.
Слухи: Apple готовит сверхтонкий iPhone 17 — он выйдет в 2025 году и будет дороже iPhone 17 Pro Max 6 ч.
Крупнейший в России оператор ЦОД и облачных услуг «РТК-ЦОД» готовится к IPO 10 ч.
Palit представит на Computex видеокарту с водоблоком и воздушной системой охлаждения 11 ч.
Роборуки от MIT помогут астронавтам NASA встать после падения на Луне 11 ч.
Xiaomi представила смартфон среднего уровня Redmi Note 13R — он почти идентичен Redmi Note 12R 12 ч.
AT&T и AST SpaceMobile обеспечат спутниковой связью обычные смартфоны сначала в США, а после — по всей Земле 12 ч.
TSMC будет выпускать основания для стеков HBM4 по 12- и 5-нм техпроцессам 14 ч.
LG свернула производство рулонных телевизоров Signature OLED R 14 ч.
Производитель микроэлектроники «Элемент» выйдет на биржу до конца мая — это позволит привлечь до 15 млрд рублей на развитие 15 ч.