реклама
Теги → генерация музыки

Представлена нейросеть Stable Audio 2.0 для генерации полноценных трёхминутных музыкальных треков с вокалом

Модель ИИ для генерации аудио Stable Audio 2.0 от Stability AI позволяет пользователям загружать свои собственные аудиозаписи, на основе которых ИИ генерирует трёхминутные треки в соответствии с подсказками. По утверждению Stability AI, главное отличие новой версии Stable Audio состоит в создании песен с классической музыкальной структурой: вступлением, развитием и финалом. Тем не менее, эксперты уверены, что на «Грэмми» этим трекам пока рассчитывать не приходится.

 Источник изображения: Pixabay

Источник изображения: Pixabay

Первая версия Stable Audio была выпущена в сентябре 2023 года и предлагала платным пользователям генерацию треков длительностью до 90 секунд, пригодных только для экспериментов. Stable Audio 2.0 генерирует полноценный трёхминутный аудиофайл, что соответствует продолжительности песен для радиовещания. Новая версия Stable Audio полностью бесплатна и доступна как на официальном сайте, так и через API.

Stability AI сообщила, что модель обучалась на данных музыкальной библиотеки AudioSparx из более чем 800 000 композиций, причём артистам была предоставлена возможность запретить использование своего материала для обучения модели. Stable Audio 2.0 позволяет пользователям настраивать проект в широком диапазоне, регулируя степень влияния подсказки и то, какую часть загруженного аудио она будет изменять. Доступно добавление звуковых эффектов.

Исследователи, успевшие поэкспериментировать со Stable Audio 2.0, довольно сдержаны в своих оценках. По мнению одного из них, добавленный генератором вокал похож на звуки, издаваемые китами, другому показалось, что он «случайно вызвал в свой дом потустороннее существо». Эксперты назвали сгенерированные треки «бездушными и странными».

Все загруженные пользователем аудиозаписи не должны нарушать авторских прав. Проблемы с последними стали одной из причин, по которой бывший вице-президент Stability AI Эд Ньютон-Рекс (Ed Newton-Rex) покинул компанию вскоре после запуска Stable Audio. Теперь Stability AI заключила партнёрское соглашение с Audible Magic, чтобы использовать технологию распознавания контента, разработанную компанией, для отслеживания и блокировки попадания на платформу материалов, защищённых авторским правом.

«Сбер» научил GigaChat создавать уникальную музыку по текстовому описанию

«Сбер» научил своего ИИ-чат-бота GigaChat генерировать музыкальные композиции по текстовым запросам пользователей. Новостью поделился вице-президент по цифровым поверхностям «Салют» Сбербанка Денис Филиппов в рамках международной конференции по искусственному интеллекту AI Jorney 2023. Возможности сервиса были расширены путём интеграции нейросетей CLaMP и SymFormer.

Для создания музыки человек может просто сформулировать задачу. К примеру задать следующее описание: «Сочини весёлую музыку в стиле кантри» или «Напиши композицию для лаундж-зоны бизнес-центра». В результате GigaChat создаст аудиофайл с уникальной музыкальной дорожкой, а также нотную партитуру в формате MIDI, совместимую с любой DAW (Digital Audio Workstation). После этого пользователь сможет скачать и прослушать получившуюся музыку, а MIDI-файл — использовать в своих творческих проектах: редактировать гармонии, менять аранжировку и получать разнообразные варианты звучания композиции.

Генерация музыки стала возможна в GigaChat благодаря интеграции нейросетей CLaMP и SymFormer. Для обучения SymFormer применили платформу ML Space на базе суперкомпьютера Christofari и датасет из более чем 200 тысяч композиций разных музыкальных стилей: от классики до современной электронной и тяжёлой музыки. В основе модели генерации композиций лежит принцип рассмотрения музыки в качестве нотного текста — в этом помогла адаптация подхода text-2-image к нотному домену.

Отмечается, что создание музыкальных треков происходит в несколько этапов:

  1. Текстовый запрос пользователя с помощью модели CLaMP конвертируется в понятный для генератора мелодий язык.
  2. Данные от CLaMP, включая информацию о стиле, поступают на вход SysFormer, которая выполняет генерацию нескольких вариантов мультидорожечной композиции, из которых нейросеть выбирает наиболее удачные варианты по стилю.
  3. На последнем этапе генерации механизм рендеринга формирует аудиофайл и отправляет результат пользователю.

«Новые возможности GigaChat будут полезны не только музыкальным энтузиастам и представителям творческих профессий. Одним из сегментов целевой аудитории сервиса мы видим представителей малого и среднего бизнеса. Благодаря GigaChat они смогут быстро, качественно и, что важно, абсолютно легально решать задачи бизнеса: создавать фоновое музыкальное сопровождение для кафе, залов ожидания и салонов красоты, создавать мелодии для рекламных видеороликов и соцсетей», — поясняет Денис Филиппов.

Напомним, что ранее этой осенью в рамках культурной программы Восточного экономического форума (ВЭФ) во Владивостоке состоялся первый в мире симфонический концерт с импровизациями, созданными искусственным интеллектом. Нейросеть SymFormer выступила на этом концерте вместе с оркестром Мариинского театра Приморской сцены. В первой части симфонии «Космос», написанной композитором Петром Дранга, SymFormer управляла экспрессивностью исполнения. В третьей и четвёртой частях симфонии нейросеть импровизировала в режиме реального времени на основе информации, полученной от партитуры музыканта.

window-new
Soft
Hard
Тренды 🔥
Центр ФСБ по компьютерным инцидентам разорвал договор с Positive Technologies 2 ч.
Android упростит смену смартфона — авторизовываться в приложениях вручную больше не придётся 2 ч.
OpenAI обдумывает создание собственного интернет-браузера и поисковых систем для противостояния Google 2 ч.
Apple разрабатывает LLM Siri — она будет больше похожа на человека и выйдет с iOS 19 3 ч.
Новая статья: Верные спутники: 20+ полезных Telegram-ботов для путешественников 9 ч.
Итоги Golden Joystick Awards 2024 — Final Fantasy VII Rebirth и Helldivers 2 забрали больше всех наград, а Black Myth: Wukong стала игрой года 10 ч.
В программу сохранения классических игр от GOG вошли S.T.A.L.K.E.R. Shadow of Chernobyl и Call of Pripyat, а Clear Sky — на подходе 11 ч.
Star Wars Outlaws вышла в Steam с крупным обновлением и дополнением про Лэндо Калриссиана 13 ч.
Рекордная скидка и PvP-режим Versus обернулись для Warhammer: Vermintide 2 полумиллионом новых игроков за неделю 14 ч.
Новый трейлер раскрыл дату выхода Mandragora — метроидвании с элементами Dark Souls и нелинейной историей от соавтора Vampire: The Masquerade — Bloodlines 15 ч.
Positive Technologies получила сертификат ФСТЭК на межсетевой экран PT NGFW 2 ч.
Google готова навсегда отменить разработку планшета Pixel Tablet 3 2 ч.
Nvidia предупредила о предстоящем дефиците GeForce в ближайшие месяцы 6 ч.
Представлен внешний SSD SanDisk Extreme на 8 Тбайт за $800 и скоростной SanDisk Extreme PRO с USB4 10 ч.
Представлен безбуферный SSD WD_Black SN7100 со скоростью до 7250 Мбайт/с и внешний SSD WD_Black C50 для Xbox 10 ч.
Новая статья: Обзор ноутбука ASUS Zenbook S 16 (UM5606W): Ryzen AI в естественной среде 10 ч.
Redmi показала флагманский смартфон K80 Pro и объявила дату его премьеры 12 ч.
Астрономы впервые сфотографировали умирающую звезду за пределами нашей галактики — она выглядит не так, как ожидалось 15 ч.
Представлена технология охлаждения чипов светом — секретная и только по предварительной записи 16 ч.
Японская Hokkaido Electric Power намерена перезапустить ядерный реактор для удовлетворения потребности ЦОД в энергии 16 ч.