реклама
Теги → генератор
Быстрый переход

Google так и не решила проблемы с расовой инклюзивностью у генератора изображений Gemini

В феврале Google приостановила работу основанного на искусственном интеллекте генератора изображений Gemini, который допускал оскорбляющие общественность исторические неточности. К примеру, расовое разнообразие солдат по запросу «римский легион» — явный анахронизм — и стереотипно чёрные мужчины по запросу «зулусские воины». Кажется, ничего не изменилось до сих пор.

 Источник изображения: blog.google

Источник изображения: blog.google

Гендиректору Google Сундару Пичаи (Sundar Pichai) пришлось принести извинения за сбой в работе генератора изображений Gemini, а глава ответственного за проект профильного подразделения Google DeepMind Демис Хассабис (Demis Hassabis) пообещал, что ошибка будет исправлена в «кратчайшие сроки» — за несколько недель. Сейчас уже середина мая, а ошибка до сих пор не исправлена.

На этой неделе Google провела ежегодную конференцию I/O, на которой рассказала о множестве новых функций Gemini: модель ИИ сможет использоваться для создания собственных чат-ботов, планировки маршрутов, она будет интегрирована в Google Calendar, Keep и YouTube Music. Но генерация изображений до сих пор отключена в приложении Gemini и веб-интерфейсе, подтвердил ресурсу TechCrunch представитель Google.

Причин задержки он не пояснил. По одной из версий, при обучении ИИ используются наборы данных, в которых превалируют изображения белых людей, тогда как представители других рас и этнических групп составляют исключения, что формирует стереотипы. В попытке исправить этот перекос Google могла прибегнуть к кардинальной мере — жёсткому кодированию, при котором данные встраиваются непосредственно в исходный код. Исправить созданный таким образом алгоритм очень непросто.

Президент OpenAI опубликовал изображение, созданное GPT-4o — оно очень впечатляет

На этой неделе OpenAI представила модель искусственного интеллекта нового поколения GPT-4o. Буква «o» в её названии означает Omni, подразумевая, что она изначально поддерживает несколько форматов ввода — ранее мультимодальность предполагала преобразование всех нетекстовых форматов в текст. Президент и соучредитель OpenAI Грег Брокман (Greg Brockman) впервые опубликовал созданное GPT-4o изображение.

 Источник изображения: twitter.com/gdb

То самое сгенерированное GPT-4o изображение. Источник изображения: twitter.com/gdb

Поддержка текста, изображений и звука в качестве входных данных означает, что модель также способна их генерировать. Приведённая выше картинка — не фотография, а творение GPT-4o. На ней изображён мужчина в футболке с логотипом OpenAI, который пишет на доске. Сверху находится частично стёртая надпись «Перенос между модальностями». Далее следует текст: «Положим, мы напрямую моделируем P (текст, пиксели, звук) посредством одного авторегрессионного трансформера. Каковы за и против?».

Если присмотреться, можно разглядеть некоторые признаки того, что изображение было создано ИИ. Доска висит под неестественным углом, под ней непонятным образом находится ещё одна, рука мужчины имеет странную форму, а освещение неоднородно. Невероятной, вместе с тем, кажется способность ИИ генерировать длинные фрагменты связного текста — с этим с трудом справляется даже DALL-E 3. Генератор изображений GPT-4o широкой публике пока недоступен: пользователи ChatGPT с подключённой моделью нового поколения пока могут генерировать изображения лишь с DALL-E 3. Но президент OpenAI Грег Брокман уверяет, что компания прилагает значительные усилия, чтобы открыть к модели нового поколения полный доступ.

Google анонсировала свой самый мощный ИИ-генератор изображений Imagen 3

В рамках проходящей в эти дни в Маунтин-Вью конференции Google I/O состоялся анонс новой версии генеративной нейросети семейства Imagen. Речь идёт об алгоритме Imagen 3 — самом продвинутом генераторе изображений от Google на данный момент.

 Источник изображения: Google

Источник изображения: Google

Глава исследовательского ИИ-подразделения Google Deep Mind Демис Хассабис (Demis Hassabis) во время презентации заявил, что Imagen 3 более точно понимает тестовые запросы, на основе которых он создаёт изображения, чем модель Imagen 2. Он отметил, что алгоритм работает более «креативно и детализировано», а также реже ошибается и создаёт меньше «отвлекающих артефактов».

Вместе с этим Google попыталась развеять опасения по поводу того, что Imagen 3 будет использоваться для создания дипфейков. В процессе генерации изображений будет задействована технология SynthID, посредством которой на медиафайлы наносятся невидимые криптографические водяные знаки. Предполагается, что такой подход сделает бесполезными попытки использовать ИИ-генератор Google для создания фейкового контента.

Частные пользователи могут оформить подписку на Imagen 3 через сервис Google ImageFX. Разработчики и корпоративные клиенты получат доступ к ИИ-генератору через платформу машинного обучения Vertex AI. Как и в прошлом, в этот раз Google не поделилась подробностями касательно того, какие данные использовались для обучения нового алгоритма.

64 пикселя за 20 минут: на 40-летнем компьютере Commodore 64 запустили ИИ-генератор изображений

В августе 1982 года вышел компьютер Commodore 64, которому было суждено стать одним из самых продаваемых ПК всех времён. Как оказалось, оборудование той эпохи и может справляться и с современными алгоритмами искусственного интеллекта — конечно, с некоторыми оговорками.

 Источник изображения: github.com/nickbild

Источник изображения: github.com/nickbild

Энтузиаст Ник Бильд (Nick Bild) разработал для Commodore 64 систему генеративного ИИ, способную создавать изображения размером 8 × 8 пикселей, которые затем преобразуются в картинки 64 × 64 точки. Эти изображения призваны служить источником вдохновения при разработке концепций игрового дизайна. Как оказалось, современную модель генеративного ИИ действительно можно запускать на таком старом оборудовании. На выполнение 94 итерации для построения окончательного изображения у Commodore 64 ушли 20 минут — и это, пожалуй, совсем неплохо, учитывая возраст компьютера.

О проектах уровня OpenAI речи, конечно, не идёт, но и «вероятностный алгоритм PCA», запущенный на 40-летней машине, в реальности был обучен на современном компьютере. Таким образом, хотя модель и по-честному работала на Commodore 64, для её запуска всё равно оказался необходим современный ПК.

Изобразительная нейросеть Kandinsky 3.1 стала доступна для всех пользователей

«Сбер» объявил о доступности для всех пользователей без ограничений улучшенной модели генеративной нейросети Kandinsky 3.1, представленной ранее в этом месяце. ИИ-сервис позволяет создавать изображения по текстовому описанию на русском и английском языках. Сообщается, что обновлённая версия была дообучена на датасете эстетичных изображений, что позволило повысить качество генерации картинок.

 Источник изображения: «Сбер»

Источник изображения: «Сбер»

Кроме того, благодаря новому подходу к обучению и использованию качественного датасета значительно улучшилась функция Inpainting для редактирования отдельных фрагментов изображения.

Как сообщает «Сбер», у пользователей также появилась возможность воспользоваться в Telegram-боте в том числе быстрой моделью Kandinsky 3.1 Flash. Время генерации изображений с её помощью уменьшилось по сравнению с базовой версией более чем в 10 раз.

По словам разработчика, в ближайшее время будут добавлены инструменты создания изображений в формате 4K, функции создания вариаций изображения, смешивания нескольких графических файлов, смешивания картинок и текстов, генерации стикерпаков, а также возможность внесения локальных правок изображения без изменения всей композиции сцены (ControlNet). Кроме того, вскоре все пользователи смогут протестировать обновлённую версию модели генерации видео по тексту Kandinsky Video 1.1.

OpenAI отключила генератор изображений DALL-E 2 — его место займёт более продвинутый DALL-E 3

Компания OpenAI продолжает активно развивать свои генеративные алгоритмы, делая их более совершенными и удобными для пользователей. На этом фоне разработчики объявили о закрытии нейросети DALL-E 2, которая дебютировала в апреле 2022 года и позволяла создавать качественные изображения на основе текстовых описаний. Этого следовало ожидать, поскольку OpenAI уже выпустила более совершенный алгоритм DALL-E 3.

 Источник изображения: OpenAI

Источник изображения: OpenAI

Алгоритм DALL-E 3 получил полную интеграцию с ИИ-ботом ChatGPT, что способствовало формированию более простого пользовательского интерфейса и созданию более качественных изображений. Начать взаимодействие с ChatGPT в DALL-E 3 можно буквально в пару кликов. Что же касается DALL-E 2, то очевидно, что нейросеть безвозвратно уходит в прошлое.

«Мы больше не допускаем новых пользователей к DALL-E 2. DALL-E 3 позволяет создавать изображения более высокого качества, лучше обрабатывает запросы, и мы начали внедрять в него функцию редактирования изображений. Он доступен пользователям ChatGPT Plus, Teams и Enterprise, а также через API OpenAI», — говорится в сообщении разработчиков на странице DALL-E 2.

Вместе с появлением сообщения от разработчиков со страницы исчезла форма для ввода текстовых описаний. Доступ к сгенерированным ранее изображениям на данный момент есть, но не исключено, что позднее это изменится. OpenAI предупреждала о предстоящем закрытии доступа к алгоритму ещё в начале года, поэтому для пользователей нейросети этот шаг не должен стать чем-то неожиданным.

Meta✴ добавила ИИ-генерацию изображений в реальном времени в WhatsApp — пока в тестовом режиме

Компания Meta начала тестировать в мессенджере WhatsApp генератор изображений Meta AI на базе искусственного интеллекта. Пока новая функция доступно только пользователям из США. Она работает в режиме реального времени: как только пользователь начинает добавлять в запрос детали для создания картинки, он сразу же видит, как изображение меняется в соответствии с указанными деталями.

 Источник изображения:  pexels.com

Источник изображения: pexels.com

В примере, предоставленном Meta, пользователь составляет запрос: «Представь игру в футбол на Марсе» (Imagine a soccer game on mars). С каждым написанным словом ИИ добавляет новые детали в генерируемое изображения, сначала показывая обычных игроков в футбол на обычном поле, а затем меняет его на пейзаж Марса. Пользователи, получившие доступ к бета-версии ИИ-генератора изображения в WhatsApp, могут попробовать новую функцию сами. Запрос необходимо делать на английском языке, начиная со слова «Imagine».

Компания Meta также сообщила, что её языковая модель Llama 3, на которой построен ИИ-генератор, способна создавать «более чёткие и качественные» изображения и лучше отображать текст. Пользователи также могут делать для Meta AI запрос для анимации любого предоставленного ими изображения. ИИ сгенерирует из статичной картинки GIF-изображение, которым можно будет поделиться с друзьями.

Помимо мобильного приложения WhatsApp, функция ИИ-генерации изображений в реальном времени также стала доступна для пользователей веб-версии платформы Meta AI, но пока тоже только из США.

ИИ Meta✴ оказался неспособен рисовать азиатов вместе с представителями других рас

Разработанный Meta генератор изображений на основе искусственного интеллекта вслед за Google Gemini продемонстрировал неожиданное отношение к расовому вопросу. Созданная гигантом соцсетей система оказалась почти неспособной изображать азиатов совместно с представителями других рас, обратила внимание журналистка The Verge Миа Сато (Mia Sato), которая сама является азиаткой.

 Источник изображений: ***

Источник изображений: Meta

Она несколько десятков раз обращалась к созданному Meta ИИ-генератору изображений, используя такие запросы как «мужчина-азиат и друг-европеец», «муж-азиат и жена с европейскими чертами лица», «азиатская женщина и муж-европеец». И лишь однажды система смогла точно изобразить предложенных ей представителей рас. Вариации запросов ситуацию не спасли. Команда «азиатский мужчина и белая женщина, улыбающиеся с собакой» привела к появлению трёх подряд изображений двух людей азиатской расы. Замена слова «белая» на «европейка» дала тот же результат. По запросу «мужчина-азиат и женщина-европейка в день свадьбы» ИИ предложил изображение мужчины-азиата в костюме и женщины-азиатки в традиционной одежде — причём это было нечто среднее между китайским платьем ципао и японским кимоно.

Перемены не наступили и с переходом в плоскость платонических отношений. По запросам «азиатский мужчина с европейским другом» и «азиатская женщина и белая подруга» генератор изображений Meta снова предложил одних азиатов. Двух азиатских женщин система предложила и по запросу «азиатская женщина с темнокожей подругой». Адекватный ответ появился лишь по запросу «женщина-азиатка с подругой-афроамериканкой». Не очень помогла и смена региона. По запросу «мужчина из Южной Азии с женой-европейкой» ИИ сначала представил корректное изображение, но за ним по тому же запросу последовала картинка с двумя представителями Южной Азии. Причём система обращался к стереотипам, украшая южноазиатских женщин бинди (красными точками на лбу) и сари (традиционной в Индии женской одеждой).

 Только одна попытка изобразить азиатку с подругой-афроамериканкой увенчалась успехом

Только одна попытка изобразить азиатку с подругой-афроамериканкой увенчалась успехом

Стоит отметить, что под «азиатскими женщинами» ИИ Meta понимает образы светлокожих женщин из Восточной Азии, хотя самой густонаселённой страной в Азии является Индия. Причём азиатские мужчины, принадлежащие, по мнению генератора изображений, к той же этнической группе, иногда оказываются пожилыми, зато женщины всегда изображаются молодыми.

Meta комментариев по данному вопросу пока не предоставила. К слову, жена главы компании Марка Цукерберга (Mark Zuckerberg), представителя европейской расы, — Присцила Чан (Priscilla Chan), по происхождению является китаянкой.

«Сбер» представил дообученный генератор изображений Kandinsky 3.1

«Сбер» официально представил усовершенствованную версию своей генеративной нейросети Kandinsky 3.1, которая позволяет создавать изображения по текстовому описанию на русском и английском языках. Обновлённый алгоритм дообучен на увеличенном наборе изображений, за счёт чего удалось повысить качество генераций.

 Источник изображения: sberbank.ru

Источник изображения: sberbank.ru

Одна из главных особенностей новой версии алгоритма заключается в повышении скорости генерации изображений. По данным компании, время создания одной картинки сократилось почти в 10 раз, а разрешение генераций можно повысить до формата 4K. В дополнение к этому пользователи теперь могут задействовать функцию улучшения текстового запроса с помощью языковой модели. Доступны функции создания разных вариантов изображений, смешивание картинок и текста, создание стикерпаков, а также возможность внесения локальных изменений на изображении без смены всей композиции.

Вместе с этим «Сбер» анонсировал скорое появление алгоритма Kandinsky Video 1.1, предназначенного для генерации видео по текстовому описанию. Разработчики сумели существенно повысить качество генераций благодаря увеличению объёма используемого для обучения датасета пар «текст-видео», а также изменениям в архитектуре модели. Внесённые изменения позволили повысить разрешение видео вдвое в сравнении с возможностями алгоритма Kandinsky 1.0. Модель разработана специалистами Sber AI совместно с учёными из Института искусственного интеллекта AIRI на объединённых датасетах Sber AI и компании SberDevices.

Nvidia и Shutterstock запустили ИИ-генератор 3D-моделей Edify

Архитектура визуального генеративного искусственного интеллекта Nvidia Edify вышла на новый уровень — она предложила генерацию 3D-объектов по текстовому описанию. Возможности платформы заинтересовали Shutterstock, Getty Images, Adobe, HP, Mattel и других партнёров Nvidia.

 Источник изображений: nvidia.com

Источник изображений: nvidia.com

Фотобанк Shutterstock открыл ранний доступ к API на основе архитектуры Edify — платформа позволяет художникам создавать трёхмерные объекты или целые сцены по текстовому описанию. Разработчики смогут протестировать возможности предварительно обученных моделей ИИ на архитектуре Edify с использованием данных Getty Images и Shutterstock по API через набор микросервисов Nvidia NIM. Обученная на лицензионном контенте Shutterstock модель обладает встроенными средствами фильтрации генерируемого контента; поддерживается экспорт в наиболее популярные 3D-форматы. Доступно также обучение и развёртывание специализированных моделей генеративного ИИ на архитектуре Edify при помощи платформы Nvidia Picasso на ресурсах Nvidia DGX Cloud.

Предложенный Shutterstock 3D-генератор заинтересовал компанию HP: созданные по текстовому описанию объекты можно преобразовывать в модели для 3D-принтеров HP с возможностью их последующего вывода на печать. Проект оказался полезным и компании Mattel: инструменты ИИ помогают дизайнерам визуализировать свои идеи для создания новых игрушек посредством текстовых команд, снижая тем самым технический барьер при разработке дизайна. На архитектуре Nvidia Edify также работает запущенный Adobe генератор 3D-изображений для пользователей сервисов Firefly и Creative Cloud.

Технологическая консалтинговая компания Accenture Song, которая уже развернула в работе платформу Nvidia Omniverse, также внедрила решения Edify для создания при помощи текстовых команд 3D-сцен в реалистичной среде для цифрового двойника автомобиля Land Rover Defender.

Фотобанк Getty Images на январской выставке CES анонсировал API на базе Nvidia Edify — этот инструмент позволяет добавлять, удалять или заменять объекты на изображениях, и теперь эти функции доступны на платформах Gettyimages.com и iStock.com. С мая Getty Images предложит услуги по индивидуальной настройке модели Edify Foundation в соответствии с брендом и визуальным стилем выступающей заказчиком компании. Эти сервисы работают без необходимости использовать программный код: клиент сможет загрузить собственный набор данных, свериться с автоматически генерируемыми тегами, сформировать задачи по тонкой настройке модели и просмотреть результаты перед их окончательным развёртыванием. Наконец, Getty Images предложит средства API для точного контроля над выводом изображений: платформа сможет генерировать изображения по эскизам, контролируя глубину цвета и сегментируя фрагменты изображения для работы с каждым объектом сцены в индивидуальном порядке.

Midjourney теперь можно показать персонажа, чтобы он повторял его на генерируемых изображениях

Основанный на искусственном интеллекте генератор изображений Midjourney 6, доступный сейчас только в рамках альфа-тестирования на платформе Discord, предложил новую функцию «образец персонажа» (Character Reference), позволяющую зафиксировать один образ на разных созданных платформой изображениях.

 Источник изображения: youtube.com/@curtispyketech

Источник изображения: youtube.com/@curtispyketech

Чтобы задать образец, пользователь Midjourney может указать одну или несколько ссылок на картинку с интересующим его персонажем или загрузить его на платформу, и генератор будет учитывать эти данные при получении команды. Администрация сервиса отметила, что новая функция предназначается в первую очередь для персонажей, созданных ИИ. «Для реальных людей/фотографий она не предназначена», — заявил администратор Midjourney Discord и добавил, что это, «скорее всего, исказит их, как это делают обычные запросы на изображения».

Но пользователи платформы, конечно, не смогли не попробовать. Один из них загрузил в качестве образца фотографию футбольной звезды Криштиану Роналду (Cristiano Ronaldo), и результаты действительно сильно напоминали известного спортсмена. Функция пока тестируется, но уже демонстрирует убедительные результаты: доступен также параметр «силы» (strength), то есть степени соответствия образца и результата генерации.

Новая функция вызывает два противоположных этических вопроса. С одной стороны, возможность задать образец персонажа облегчит недобросовестным пользователям создание убедительных дипфейков. С другой, исключение отсылок на работы художников может вызвать проблемы с авторскими правами, если пользователи захотят коммерциализировать или опубликовать творения Midjourney.

Начались продажи игрового генератора запахов GameScent — чтобы пахнуть правильно, он использует ИИ

В продажу поступило устройство GameScent, которое при помощи алгоритмов искусственного интеллекта анализирует происходящие в играх события и генерирует соответствующие ароматы.

 Источник изображений: gamescent.com

Источник изображений: gamescent.com

GameScent в реальном времени «слушает» игровые звуки и высвобождает соответствующие ароматы: идентифицировав грозу, он производит запах дождя; а при звуке выстрела издаёт запах пороха. Устройство представляет собой небольшую коробку, совместимую с ПК, консолями и гарнитурами виртуальной реальности — оно через адаптер подключается к порту HDMI или 3,5-мм разъёму.

Ароматы производятся при помощи сменных картриджей. В основной набор входят запахи «Оружейный огонь», «Взрыв», «Гонка», «Шторм», «Лес», а также «Чистый воздух» — нейтрализатор остальных запахов, который высвобождается по завершении игровой сессии. В перспективе производитель обещал расширить набор новыми ароматами: «Спортивная арена», «Кровь», «Океан» и «Свежескошенная трава». На сайте продукта также присутствует намёк на некий MovieScent — возможно, это будет генератор запахов для домашнего просмотра кино и сериалов.

GameScent продаётся на американских торговых площадках по льготной цене $149,99, но скоро она повысится до $179,99.

Google экстренно чинит генератор изображений в Gemini — он переборщил с расовой инклюзивностью

Google сообщила, что на время частично приостановила работу генератора изображений в чат-боте Gemini, когда выяснилось, что она допускает исторические неточности в изображении людей, связанные с расовыми вопросами. Так, при попытке изобразить американских отцов-основателей и солдат нацистской Германии она как будто ниспровергает гендерные и расовые стереотипы, что расценивают как попытку фальсификации истории.

 Такими Gemini представляет себе американских отцов-основателей. Источник изображения: Google

Такими Gemini представляет себе американских отцов-основателей. Источник изображения: Google

Компания приняла решение направить генератор изображений Gemini на доработку менее чем через сутки после поступления первых жалоб. Пользователи чат-бота запрашивали у искусственного интеллекта картинки с историческими группами или лицами и получали на выходе изображения, на которых в основном были представители рас, отличных от европеоидной. Это спровоцировало появление в интернете теорий заговора, что Google намеренно избегает показывать белых людей.

 Сенатор США в 19-м веке по мнению Gemini. Источник изображения: Google

Сенатор США в 19-м веке по мнению Gemini. Источник изображения: Google

К примеру, когда Gemini попросили создать изображение американского сенатора XIX века, ИИ предложил картинки чернокожих женщин и женщин коренных американских наций. В действительности женщина впервые стала сенатором в США лишь в 1922 году, и она была белой. Таким образом, генератор изображений Gemini стирал историю расовой и гендерной дискриминации.

Сейчас, когда Gemini просят создать изображение человека или нескольких, тот выводит сообщение следующего содержания: «Мы работаем над улучшением способности генерировать изображения людей. Ожидаем, что эта функция скоро вернётся, и мы сообщим об обновлении выпуска, когда это произойдёт». Генератор изображений появился в чат-боте Gemini (ранее Bard) в начале месяца как ответ на аналогичные продукты OpenAI и Microsoft Copilot — он создаёт картинки по текстовому запросу.

В США стало незаконным использование в робозвонках сгенерированных ИИ голосов

Федеральная комиссия по связи (FCC) США объявила незаконным использование сгенерированных искусственным интеллектом голосов в роботизированных звонках. Новое постановление ведомства позволит прокурорам штатов принимать соответствующие меры в отношении людей, использующих технологию клонирования голоса с помощью генеративных нейросетей.

 Источник изображения: Gerd Altmann / pixabay.com

Источник изображения: Gerd Altmann / pixabay.com

В постановлении FCC сказано, что сгенерированные с помощью ИИ голоса теперь считаются «искусственными или записанными заранее голосами» в соответствии с Законом о защите потребителей услуг телефонной связи. Это означает, что звонящие больше не смогут задействовать сгенерированные голоса при совершении неэкстренных звонков или без предварительного согласия потребителей. Упомянутый закон включает в себя ряд запретов на использование разных методов автоматического обзвона. Любопытно, что запрет на использование «искусственного или заранее записанного голоса» для распространения сообщений в законе был и прежде, но не было чёткого указания на то, что к этой категории относятся голоса, клонированные с помощью ИИ.

«Злоумышленники используют голоса, сгенерированные искусственным интеллектом, для совершения нежелательных роботизированных звонков, чтобы вымогать деньги у людей, подражать знаменитостям и дезинформировать избирателей. Теперь у генеральных прокуроров штатов будут новые инструменты для борьбы с этим мошенничеством и обеспечения защиты общественности от мошенничества и дезинформации», — заявила председатель FCC Джессика Розенворсель (Jessica Rosenworcel).

Прокуроры штатов и прежде могли наказывать мошенников, использующих роботизированные звонки для обмана граждан. Теперь же они смогут привлекать их к ответственности только лишь на основании использования голоса, клонированного с помощью ИИ.

Google выпустила передовой ИИ-генератор изображений Imagen 2 — он доступен отдельно и через Bard

Google представила передовой генератор изображений Imagen 2, который, как уверяет разработчик, отличается высоким реализмом и избавлен от свойственных системам искусственного интеллекта артефактов. Система доступна как в составе чат-бота Bard, так и в качестве отдельного сервиса ImageFX на платформе бета-тестирования AI Test Kitchen.

 Источник изображения: deepmind.google

Источник изображения: deepmind.google

Google всесторонне улучшила Bard: теперь в основе чат-бота лежит большая языковая модель Gemini Pro — она была представлена ещё в декабре, но до настоящего момента работала лишь у небольшой части пользователей. Теперь Gemini Pro доступна везде, где работает Bard — на всех поддерживаемых языках, во всех странах и на всех территориях.

Но чего в Bard пока не было, так это генератора изображений. Раньше компания уступала в этом сегменте как Bing Image Creator, так и Midjourney. Но с выходом Imagen 2 силы, похоже, сравнялись — эта нейросеть теперь работает и в составе чат-бота, и как отдельный сервис ImageFX. Правда, в последнем случае потребуется регистрация в программе AI Test Kitchen — наряду с MusicFX, качество которой Google тоже улучшила. ImageFX позволяет не только генерировать реалистичные изображения по текстовому описанию, но и редактировать их, в том числе изменяя стиль.

В компании подчеркнули, что созданные ImageFX изображения маркируются как созданные ИИ посредством метаданных и цифровых водяных знаков SynthID; если эти картинки появятся в поиске Google, то они получат соответствующую пометку и там. Модель Imagen 2 «предлагает изображения самого высокого на сегодня качества, а также улучшения в проблемных областях систем преобразования текста в изображение, таких как прорисовка реалистичных человеческих рук и лиц, избавляя картинки от отвлекающих визуальных артефактов», пояснил вице-президент подразделения Google DeepMind Эли Коллинз (Eli Collins). Разработчик также заверил, что принял защитные меры, которые не позволят платформе генерировать неприемлемый контент.

window-new
Soft
Hard
Тренды 🔥
Tesla открыла 20 вакансий в сфере ИИ с зарплатой до $360 000 в год 2 ч.
Новая статья: Crow Country — для тех, кто помнит. Рецензия 4 ч.
Скорый анонс новой Doom подтвердил надёжный источник — первые подробности Doom: The Dark Ages 8 ч.
«Лучший экшен 2024 года», кроссплей и никаких микротранзакций: новые подробности Warhammer 40,000: Space Marine 2 9 ч.
Исследование: основной целью хакеров при атаках на промышленность является шпионаж 9 ч.
Обойдёмся без Oracle: «Ростелеком» создаст собственную биллинговую систему с СУБД от «СберТеха» 10 ч.
От бега с ножницами до выдуманных фильмов: ИИ Google чудит с ответами прямо в поиске 10 ч.
«Есть куда стремиться»: глава FromSoftware прояснил будущее Armored Core и ответил на вопрос про Bloodborne 2 11 ч.
Angara Security создала ИБ-платформу предиктивной аналитики на основе баз данных угроз ФСТЭК и MITRE 11 ч.
За первые пять месяцев 2024 года игровые компании уволили более 10 тысяч человек — почти столько же, сколько за весь 2023-й 12 ч.
Американские регуляторы решили углубиться в расследование новых инцидентов с прототипами беспилотных такси Waymo 2 мин.
Gunnir выпустила уникальные видеокарты Photon Arc A750 и Arc A770 в стиле Elden Ring: Shadow of the Erdtree 9 ч.
Продажи смартфонов в Европе закончили трёхлетнее падение, но до полного восстановления рынка ещё далеко 10 ч.
SpaceX Starship в следующий раз полетит в космос 5 июня, но это не точно 11 ч.
Банк России зафиксировал всплеск активности россиян на криптовалютном рынке 13 ч.
Китайские батареи для электромобилей будут вдвое дешевле американских, даже с новыми пошлинами США 13 ч.
SpaceX не нуждается в дополнительном капитале — Маск опроверг слухи о грядущей продаже акций компании 13 ч.
«Царь во дворца»: G.Skill представила флагманскую оперативную память Trident Z5 Royal DDR5 13 ч.
Деньги на ветер: Spotify отключит автомобильные проигрыватели Car Thing и не вернёт средства 13 ч.
Micron заплатит $445 млн за воровство технологий компьютерной памяти у Netlist 14 ч.