реклама
Новости Software

Meta✴ анонсировала производительный ИИ-генератор изображений CM3Leon с поддержкой точных команд редактирования

За минувшие два года основанные на алгоритмах искусственного интеллекта генераторы изображений стали почти повседневным явлением, и на первый взгляд в работе они не так сильно отличаются друг от друга. Но в Meta утверждают, что разработанная инженерами компании новая модель CM3Leon является прорывом.

 Источник изображений: ***

Источник изображений: Meta

Отличием модели Meta CM3Leon, как заявляют разработчики, является высокая производительность при преобразовании текста в изображение. Кроме того, это одна из первых моделей, обеспечивающих обратную операцию — создание подписей к изображениям. Большинство современных генераторов изображений, включая OpenAI DALL-E, Google Imagen и Stable Diffusion при создании картинок используют диффузию — процесс постепенного удаления шума из первоначального изображения по мере приближения к поставленной цели. Результат получается убедительным, но данный алгоритм требует значительных вычислительных ресурсов, что делает работу таких систем дорогостоящей, а сами модели — медленными, и в реальном времени они функционировать попросту не могут.

 Редактирование исходного изображения: заменить девушку на бородатого мужчину, добавить очки, увеличить возраст, раскрасить лицо

Редактирование исходного изображения: заменить девушку на бородатого мужчину, добавить очки, увеличить возраст, раскрасить лицо

Модель CM3Leon действует принципиально иначе — в её основе лежит алгоритм-трансформер, предусматривающий оценку релевантности исходных данных, будь то текст или изображение. Примечательно, что и в OpenAI первоначально строили генераторы изображений на основе моделей-трансформеров, но на смену Image GPT пришли диффузионные алгоритмы. При обучении CM3Leon использовались 2 млн изображений, лицензированных у Shutterstock — самая мощная версия модели имеет 7 млрд параметров — в два раза больше, чем у OpenAI DALL-E 2. Наконец, здесь использован механизм дообучения SFT (Supervised Fine-Tuning), обычно свойственный генераторам текста. В результате увеличилась производительность модели при генерации изображений и составлении описаний к готовым картинкам, а система получила возможность редактировать изображения по текстовым командам, например, «изменить цвет неба на ярко-синий».

 Генерация интерьера с объектами, для которых указываются точные координаты

Генерация интерьера с объектами, для которых указываются точные координаты

В результате Meta CM3Leon воспринимает в качестве исходных данных весьма конкретные команды — вплоть до того, в какой области изображения в пикселях должен находиться тот или иной предмет. Для сравнения, DALL-E такие нюансы игнорирует и зачастую даже отказывается помещать на изображение объекты, непосредственно указанные в инструкции.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме
window-new
Soft
Hard
Тренды 🔥
Новая статья: Верные спутники: 20+ полезных Telegram-ботов для путешественников 4 ч.
Итоги Golden Joystick Awards 2024 — Final Fantasy VII Rebirth и Helldivers 2 забрали больше всех наград, а Black Myth: Wukong стала игрой года 6 ч.
В программу сохранения классических игр от GOG вошли S.T.A.L.K.E.R. Shadow of Chernobyl и Call of Pripyat, а Clear Sky — на подходе 7 ч.
Star Wars Outlaws вышла в Steam с крупным обновлением и дополнением про Лэндо Калриссиана 8 ч.
Рекордная скидка и PvP-режим Versus обернулись для Warhammer: Vermintide 2 полумиллионом новых игроков за неделю 10 ч.
Новый трейлер раскрыл дату выхода Mandragora — метроидвании с элементами Dark Souls и нелинейной историей от соавтора Vampire: The Masquerade — Bloodlines 11 ч.
В Японии порекомендовали добавить в завещания свои логины и пароли 12 ч.
Обновления Windows 11 больше не будут перезагружать ПК, но обычных пользователей это не касается 12 ч.
VK похвасталась успехами «VK Видео» на фоне замедления YouTube 14 ч.
GTA наоборот: полицейская песочница The Precinct с «дозой нуара 80-х» не выйдет в 2024 году 16 ч.
Nvidia предупредила о возможном дефиците игровых решений в четвёртом квартале 41 мин.
Представлен внешний SSD SanDisk Extreme на 8 Тбайт за $800 и скоростной SanDisk Extreme PRO с USB4 6 ч.
Представлен безбуферный SSD WD_Black SN7100 со скоростью до 7250 Мбайт/с и внешний SSD WD_Black C50 для Xbox 6 ч.
Новая статья: Обзор ноутбука ASUS Zenbook S 16 (UM5606W): Ryzen AI в естественной среде 6 ч.
Redmi показала флагманский смартфон K80 Pro и объявила дату его премьеры 8 ч.
Астрономы впервые сфотографировали умирающую звезду за пределами нашей галактики — она выглядит не так, как ожидалось 11 ч.
Представлена технология охлаждения чипов светом — секретная и только по предварительной записи 11 ч.
Японская Hokkaido Electric Power намерена перезапустить ядерный реактор для удовлетворения потребности ЦОД в энергии 11 ч.
Грузовик «Прогресс МС-29» улетел к МКС с новогодними подарками и мандаринами для космонавтов 12 ч.
Meta планирует построить за $5 млрд кампус ЦОД в Луизиане 12 ч.