реклама
Новости Software

NVIDIA представила ИИ, который генерирует видео с высоким разрешением по текстовому описанию

NVIDIA представила свою ИИ-модель для превращения текста в видео под названием VideoLDM, разработанную в сотрудничестве с исследователями из Корнельского университета. Модель способна генерировать видео в разрешении до 2048 × 1280 пикселей с частотой 24 кадра и длительностью до 4,7 секунд на основе текстового описания.

 Источник изображений: NVIDIA

Источник изображений: NVIDIA

В основе модели лежат наработки нейросети Stable Diffusion. Решение NVIDIA имеет до 4,1 млрд параметров, но только 2,7 млрд из них использовали видео для тренировки. Это весьма скромно по меркам современных ИИ. Тем не менее, с помощью эффективного подхода к модели скрытой диффузии (LDM — Latent diffusion model) разработчики смогли создавать разнообразные и согласованные во времени видео высокого разрешения с весьма высоким качеством.

Исследователи выделяют следующие особенности данной модели: генерацию персонализированного видео и свёрточный синтез во времени. Временные слои, которые были обучены в VideoLDM для превращения текста в видео, вставляются в опорные сети LDM изображений, которые заранее точно настроены в наборе изображений DreamBooth. Временные слои обобщаются контрольными точками DreamBooth, что позволяет персонализировать преобразование текста в видео. Применяя изученные временные слои сверточно во времени, можно получить клипы чуть большей продолжительности с незначительным ухудшением качества.

Модель также способна генерировать видео сцен вождения. Видеоролики имеют разрешение 1024 × 512 точек и длительностью до 5 минут. Есть возможность моделирования конкретного сценария вождения, когда за основу берутся ограничивающие рамки для создания интересующей обстановки, синтезируется соответствующий начальный кадр, а затем создаются правдоподобные видеоролики. Помимо этого, модель может сделать мультимодальное прогнозирование сценариев движения, сгенерировав несколько правдоподобных развертываний на основе одного начального кадра.

Данная исследовательская работа является участником Конференции по машинному зрению и распознаванию образов, которая проходит в Ванкувере с 18 по 22 июня. Пока что представленная нейросеть является лишь исследовательским проектом и не ясно, когда что-то подобное NVIDIA выпустит в открытый доступ.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме
window-new
Soft
Hard
Тренды 🔥
BioWare подтвердила новое название Dragon Age: Dreadwolf и анонсировала показ 15 минут геймплея 21 мин.
The Callisto Protocol и Still Wakes the Deep вошли в первую волну июньских новинок Game Pass, а High on Life и The Bookwalker скоро покинут подписку 2 ч.
Европейские правозащитники подали 11 жалоб на Meta — она будет обучать ИИ на данных пользователей без их согласия 2 ч.
США подвергнут Nvidia, Microsoft и OpenAI антимонопольным проверкам — власти беспокоит сфера ИИ 6 ч.
Слухи: презентация Dragon Age: Dreadwolf пройдёт на Xbox Games Showcase 2024, но есть нюанс 7 ч.
Покорившая мир легендарная советская головоломка празднует юбилей — «Тетрису» исполнилось 40 лет 7 ч.
Хакеры украли данные сотен миллионов людей, взломав сервис облачной аналитики Snowflake 7 ч.
Инсайдер раскрыл, какую игру издатель Borderlands, BioShock и Mafia анонсирует на Summer Game Fest 2024 10 ч.
Apple признала многолетний дефект в приложении родительского контроля Screen Time 16 ч.
Приложения для Windows скоро заработают на Chromebook — Google купила Cameyo 19 ч.