реклама
Новости Software

Google представила нейросеть, которая генерирует HD-видео по текстовому описанию

Google рассказала о системе искусственного интеллекта Imagen Video, которая генерирует видео высокого разрешения (1280×768 пикселей, 24 кадра в секунду) по текстовому описанию. Однако из опасения, что модель будет генерировать неприемлемый контент, компания пока решила воздержаться от публикации исходных кодов проекта.

 Источник изображения: imagen.research.google

Источник изображения: imagen.research.google

В описании (PDF) решения Google отметила, что Imagen Video способна работать в заданной стилистике, имитируя, к примеру, манеры известных художников, создавать вращающиеся 3D-объекты с сохранением их формы или изображать текст в различных анимационных жанрах. Основу технологии составил «каскад» моделей, которые на основе текстового описания создают прототип ролика (16 кадров в разрешении 24×48 пикселей с частотой 3 кадра в секунду), который далее в несколько шагов преобразуется в видео высокого разрешения с более высокой частотой кадров. Конечное видео имеет длительность 5,3 секунды.

Представленные на сайте Imagen Video примеры включают и простые сцены вроде «Стекающего по стаканчику тающего фисташкового мороженого», и замысловатые сценарии, например, «Пролёт сквозь битву пиратских кораблей в бушующем океане». Изображения содержат очевидные артефакты, однако их детализация и плавность заметно выше, чем у существующих аналогов. Параллельно дебютировала ещё одна ИИ-модель от Google для генерации видео по текстовому описанию — Phenaki создаёт более длинные ролики.

В Google рассказали, что система Imagen Video была обучена на общедоступной базе LAION-400M, которая содержит «14 млн пар видео-текст и 60 млн пар картинка-текст». По версии компании, это «проблемные данные», и хотя специалисты попытались их отфильтровать, сохраняется вероятность, что модель будет генерировать неприемлемый контент, содержащий сцены деликатного характера, насилие, социальные стереотипы и культурные предубеждения. И «пока эти опасения не будут устранены», исходный код модели Imagen Video публиковать не станут.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме
window-new
Soft
Hard
Тренды 🔥
OpenAI рассчитывает определиться со схемой привлечения инвестиций к концу следующей недели 2 ч.
Регуляторы рекомендуют китайским разработчикам отказываться от ускорителей Nvidia в пользу китайских аналогов 2 ч.
NASA и «Роскосмос» не пришли к единому мнению, какой уровень утечки воздуха в модуле «Пирс» считать неприемлемым 3 ч.
В России протестировали технологию мысленного управления «Газелью» — через нейроинтерфейс и акселерометр 8 ч.
Периферия от гения: Higround выпустила спецсерию клавиатур Basecamp 65, к которым приложил руку Хидео Кодзима 10 ч.
Минюст США начал расследование деятельности Supermicro — акции компании снова упали 11 ч.
Ampere создаст кастомные Arm-процессоры для Uber 12 ч.
Infinix представила свою первую раскладушку Zero Flip с 6,9-дюймовым экраном, тремя 50-Мп камерами и чипом Dimensity 8020 за $645 13 ч.
Lenovo готовит к выпуску портативные игровые приставки Legion Go 2 и Legion Go Lite 16 ч.
Blackstone вложит £10 млрд в строительство в Великобритании крупнейшего в Европе ИИ ЦОД 17 ч.