реклама
Теги → генератор изображений
Быстрый переход

Google предложила помощь ИИ в создании клипартов для документов

На платформе Google Workspace появился генератор изображений на основе искусственного интеллекта Gemini прямо в приложении «Google Документы» — он позволяет быстро создавать иллюстрации к текстам. По сути, это генератор клипартов, схожий с аналогичной функцией в офисном пакете Microsoft.

 Источник изображения: workspaceupdates.googleblog.com

Источник изображения: workspaceupdates.googleblog.com

Генератор изображений для «Google Документов» доступен для обладателей платных учётных записей Workspace, в том числе Gemini Business, Enterprise, Education, Education Premium и Google One AI Premium. Те, у кого новая функция уже заработала, могут открыть её через меню «Вставка», в котором требуется последовательно выбрать пункты «Изображение» и «Помогите мне создать изображение». Появляется боковая панель, на которой можно ввести описание требуемой иллюстрации; на ней же есть выпадающий список художественных стилей — например, «Фотография» или «Эскиз».

Изображение будет квадратным либо вытянутым в горизонтальном или вертикальном направлении — можно выбрать то, что лучше впишется в макет документа. Доступно создание и изображения для обложки, которое протянется на всю страницу. За новую функцию отвечает новейший генератор Google Imagen 3 — он, по словам компании, обеспечивает «лучшую детализацию, более насыщенное освещение и меньше лишних артефактов». У части учётных записей новая функция появится в ближайшие 15 дней; для других она начнёт развёртываться 16 декабря.

Представлена ИИ-модель YandexART 2.0 с поддержкой генерации текста на изображениях

«Яндекс» выпустил YandexART 2.0 — генератор картинок нового поколения. Нейросеть научилась создавать надписи на изображении и выдерживать на одной картинке сразу несколько стилей; объекты в пространстве и относительно друг друга теперь располагаются более естественно; а при создании изображений учитывается большее число деталей запроса.

 Источник изображений: «Яндекс»

Источник изображений: «Яндекс»

Отличительной особенностью YandexART 2.0 является гибридная архитектура нейросети, сочетающая черты свёрточной и трансформерной моделей. Свёрточная модель работает по принципу человеческого глаза, определяя ключевые признаки объекта, например, его форму, текстуру и края, но она ограничена в длине контекста, поэтому в длинных запросах ей помогает трансформер. Эта архитектура помогает YandexART 2.0 выдерживать несколько жанров в одном изображении — к примеру, она может изобразить анимешную этикетку на фотореалистичной бутылке лимонада.

Для обучения нейросети YandexART 2.0 использовались несколько сотен миллионов пар изображений и текстовых описаний к ним; более точное их соотношение обеспечила дополнительная VLM-модель, при помощи которой картинки анализировались и сопровождались подробными текстовыми описаниями. Массив обучающих данных был расширен за счёт нескольких сотен тысяч изображений с текстом — это помогло YandexART 2.0 дополнять картинки надписями латинскими буквами.

«Яндекс» также разработал собственную систему оценки качества работы для генератора изображений: новая модель выиграла у Midjourney v6.1 по критериям комплексности и эстетичности в 66 % и 58 % случаев соответственно, а также приблизилась к нему в аспекте релевантности запросам.

Бизнес-пользователи могут поработать с YandexART 2.0 на платформе Yandex Cloud — при помощи API можно интегрировать генератор изображений в любые приложения; есть возможность протестировать её работу в демонстрационном режиме для подбора оптимальных запросов. Корпоративные клиенты могут генерировать логотипы, иллюстрации для статей, презентаций или социальных сетей.

Визуальная нейросеть доступна также частным пользователям в веб-версии «Алисы» и собственном приложении виртуального помощника; владельцы бесплатных учётных записей могут запросить до пяти изображений в сутки, а у подписчиков опции «Алиса Про» такое ограничение отсутствует. С YandexART 2.0 можно создать аватарку для соцсетей, значок приложения, принт для футболки, открытку для друга или иллюстрацию для публикации.

Google наконец починила ИИ-генератор изображений в Gemini — он перебарщивал с расовой инклюзивностью

Компания Google скоро вернёт пользователям доступ к генератору картинок в ИИ-чат-боте Gemini. Функция была удалена из чат-бота в феврале из-за того, что что она допускала серьёзные исторические ошибки в изображении людей, связанные с расовыми и гендерными вопросами. К примеру, расовое разнообразие солдат по запросу «римский легион» — явный анахронизм.

 Источник изображения: Google

Источник изображения: Google

Ранний доступ к новому генератору изображений Imagen 3 от Google откроется платным пользователям Gemini на тарифах Advanced, Business и Enterprise в ближайшие дни, сообщил в официальном блоге Google Дэйв Ситрон (Dave Citron), старший директор по продуктам Gemini. Изначально функция будет поддерживать запросы только на английском языке.

«Мы внесли технические исправления в продукт, а также поработали над более продвинутыми алгоритмами оценки и защитой от red-teaming-атак», — написал Ситрон.

В феврале этого года Google приостановила работу функцию генерации изображений в Gemini, объяснив это тем, что она предлагает «неточности» при генерации исторических изображений. Компания приняла решение направить генератор изображений Gemini на доработку менее чем через сутки после поступления первых жалоб.

По словам Ситрона, новый генератор Imagen 3 «не поддерживает создание фотореалистичных идентифицируемых лиц, изображений несовершеннолетний или чрезмерно кровавые, жестокие или сексуальные сцены».

«Конечно, как и в случае с любым генеративным инструментом ИИ, не каждое изображение, создаваемое Gemini, будет идеальным, но мы продолжим прислушиваться к отзывам пользователей и будем совершенствовать наш продукт».

Он также пообещал, что в дальнейшем пользоваться генератором изображений смогут больше людей, а сама функция получит поддержку дополнительных языков.

Веб-версия генератора изображений Midjourney стала доступной для всех

Генеральный директор Midjourney Дэвид Хольц (David Holz) сообщил в Discord, что любой желающий теперь может открыть сайт сервиса и начать генерировать изображения. Бесплатная демо-версия платформы позволяет создать до 25 картинок.

 Источник изображения: Swello / unsplash.com

Источник изображения: Swello / unsplash.com

Ранее для доступа к генератору Midjourney было необходимо пользоваться мессенджером Discord. Это было непросто, потому что приходилось особым образом составлять запросы. Чтобы привлечь пользователей, которым в Discord не нравилось, был запущен сайт платформы, но к работе в веб-интерфейсе допустили лишь тех, кто создал не менее 10 000 изображений через мессенджер. Теперь же сайт Midjourney открыт для всех желающих. Для регистрации потребуется учётная запись в Google или Discord — обладатели аккаунтов на обеих платформах могут подключить их к одной учётной записи в Midjourney и входить через любую их двух.

После входа в систему набор основных инструментов доступен на левой боковой панели. Можно ознакомиться с изображениями, созданным по запросам других пользователей или попробовать сгенерировать картинку самостоятельно, предварительно посмотрев обучающий ролик. В верхней части страницы есть поле для ввода запроса, в ответ на который Midjourney предложит четыре изображения — качество наиболее удачного настраивается с помощью специальных инструментов: уменьшить, увеличить картинку или скорректировать ракурс. Есть и редактор изображений, где можно скорректировать запрос, изменить определённые области картинки, выбрать другое соотношение сторон и добавить новые элементы.

Есть раздел, где собраны все созданные пользователем изображения. Картинку из коллекции можно посмотреть, изменить, скопировать или скачать. На сайте доступны чаты, где можно посмотреть, что создали другие люди, или разместить собственное изображение. По исчерпании лимита в 25 картинок Midjourney предложит оформить подписку на один из четырёх тарифных планов — они отличаются ценами и квотами на число изображений.

Google открыла всем американским пользователям доступ к генератору изображений Imagen 3

Google без громких анонсов открыла всем пользователям из США доступ к последней модели генератора изображений с искусственным интеллектом Imagen 3 на платформе ImageFX. Компания также опубликовала исследовательскую работу, в которой подробно описывается эта технология.

 Источник изображения: deepmind.google

Источник изображения: deepmind.google

Модель Imagen 3 была анонсирована в мае на конференции Google I/O и выпущена в ограниченный доступ для пользователей платформы Vertex AI. «Представляем Imagen 3 — модель скрытой диффузии, которая генерирует высококачественные изображения по текстовым запросам. На момент проведения оценки Imagen 3 является более предпочтительной, чем другие современные модели», — говорится в научной работе.

Выпуск Google нового генератора изображений для широкой общественности в США — важный стратегический шаг для компании, вступившей в гонку технологий ИИ. С одной стороны, разработчику удалось повысить качестве её работы, с другой — модель подвергается критике за излишне строгие фильтры контента. Пользователи Reddit, в частности, сообщают, что генератор изображений отклоняет до половины запросов, даже если не предлагать ему «нарисовать» нечто сомнительное — дошло до того, что он отказался создать изображение киборга.

Это резко контрастирует с подходом стартапа Илона Маска (Elon Musk) xAI, который на этой неделе выпустил модель Grok-2. Она генерирует изображения практически без ограничений, допуская создание картинок с общественными деятелями и деталями, которые на других платформах считаются недопустимыми. Это тоже вызвало недоумение общественности и породило предположения, что на xAI будет оказываться давление. Перед отраслью ИИ встаёт вопрос о балансе между творчеством и ответственностью, а также возможном влиянии генераторов изображений на публичный дискурс и достоверность информации.

Художники одержали важную победу в деле об авторских правах против Stability AI и Midjourney

Группа художников, которая объединилась в коллективном иске против разработчиков наиболее популярных моделей искусственного интеллекта для генерации изображений, устроила празднование по случаю того, что судья дал ход этому делу и санкционировал раскрытие информации.

 Источник изображения: Alexandra_Koch / pixabay.com

Источник изображения: Alexandra_Koch / pixabay.com

Ответчиками по делу выступают создатели сервисов Midjourney, Runway, Stability AI и DeviantArt — по версии истцов, разработчики систем на основе модели Stable Diffusion использовали их защищённые авторским правом работы для обучения ИИ. Судья Северного окружного суда Калифорнии Уильям Оррик (William H. Orrick), курирующий Сан-Франциско, где располагаются многие крупнейшие разработчики систем ИИ, пока не вынес окончательного решения по делу, но счёл, что предъявленных ответчикам обвинений достаточно, чтобы дело перешло к стадии раскрытия информации. Это значит, что представляющие истцов юристы могут изучить документы компаний — разработчиков генераторов изображений с ИИ; огласке будут преданы подробности о массивах обучающих данных, механизмах и внутренней работе систем.

Модель Stable Diffusion предположительно обучалась на наборе данных LAION-5B из 5 млрд изображений, который был опубликован в 2022 году. Но, как отмечается в деле, эта база содержала только URL-адреса, то есть ссылки на изображения, а также их текстовые описания, то есть компаниям приходилось самостоятельно собирать эти изображения.

Основанные на Stable Diffusion модели используют в работе механизм «CLIP-guided diffusion», помогающий им при генерации изображений отталкиваться от пользовательских запросов, которые могут включать имена художников. Метод CLIP (Contrastive Language-Image Pre-training) разработала и ещё в 2021 году опубликовала компания OpenAI — более чем за год до выпуска ChatGPT. Модель OpenAI CLIP способна работать как база данных по фирменному стилю, и если при обучении схожей с ней модели Midjourney использовались имена художников и их работы с сопоставленными с ними описаниями, то этот факт может представлять собой нарушение авторских прав.

Стартап Black Forest Labs представил ИИ-генератор изображений FLUX.1 — он отлично справляется с прорисовкой рук человека

В конце прошлой недели стартап Black Forest Labs объявил о начале своей деятельности в сфере разработки генеративных нейросетей. Вместе с этим компания, созданная выходцами из Stability AI, представила семейство моделей генерации изображений по текстовому описанию под названием FLUX.1, которые претендуют на звание лучших в своём классе.

 Источник изображений: FLUX.1

Источник изображений: FLUX.1

Запуск FLUX.1 произошёл примерно через семь недель после того, как в середине июня Stability AI выпустила ИИ-генератор Stable Diffusion 3 Medium, который собрал много критики из-за невысокого качества при создании изображений, на которых есть люди. Пользователи активно делились в соцсетях результатами генерации алгоритма с искажёнными конечностями и телами людей.

Запуск Stable Diffusion 3 Medium последовал за уходом из Stability AI трёх ключевых сотрудников — Робина Ромбаха (Robin Rombach), Андреаса Блаттманна (Andreas Blattmann) и Доминика Лоренца (Dominik Lorenz). Именно они вместе с Патриком Эссером (Patrick Esser), который участвовал в разработке первой версии Stable Diffusion и с тех пор работал над разными ИИ-алгоритмами, а также другими инженерами, основали компанию Black Forest Lab.

На данный момент стартап представил три модели для генерации по текстовому описанию FLUX.1. ИИ-модель FLUX.1 pro представляет собой наиболее производительный генератор изображений, предназначенный для коммерческого использования через соответствующий API. Вместе с этим были выпущены FLUX.1 dev, доступная для некоммерческого использования, а также более лёгкая и быстрая FLUX.1 schnell (в переводе с немецкого — «быстрый» или «стремительный»).

Разработчики утверждают, что их ИИ-модели превосходят существующие аналоги, такие как Midjourney и DALL-E, по целому ряду показателей, включая качество создаваемых изображений и точность следования исходному описанию. В целом результаты генерации FLUX.1 сопоставимы с тем, что можно создать с помощью DALL-E 3 от OpenAI по точности следования описанию, и близки по фотореалистичности к Midjourney 6. При этом алгоритм явно более качественно работает по сравнению со Stable Diffusion XL, последним крупным релизом команды этих разработчиков, когда они ещё были частью Stability AI, не считая Stable Diffusion XL Turbo.

Модели Black Forest Lab построены на базе гибридной архитектуры, которая объединяет методы трансформации и диффузии, с масштабированием до 12 млрд параметров. Похоже, что такой подход делает нейросеть FLUX.1 способной качественно генерировать руки человека, что было слабым местом многих уже выпущенных на рынок аналогов. При этом разработчики не уточнили, на каких данных обучались модели FLUX.1.

Отметим, что Black Forest Lab уже привлекла финансирование в размере $31 млн. Желающим опробовать FLUX.1 в действии можно воспользоваться сервисами Fal.ai или Replicate.com, где придётся платить деньги для работы с алгоритмами.

AMD представила Amuse 2.0 — ПО для ИИ-генерации изображений для Ryzen и Radeon

AMD представила Amuse 2.0 — программный инструмент для ИИ-генерации изображений. Программа доступна в бета-версии. В перспективе её функциональность будет расширяться. Amuse 2.0 является своего рода аналогом инструмента AI Playground от Intel, использующего мощности видеокарт Intel Arc. Решение от AMD для генерации контента в свою очередь полагается на мощности процессоров Ryzen и видеокарт Radeon.

 Источник изображений: AMD

Источник изображений: AMD

Приложение Amuse 2.0, разработанное с помощью TensorStack, отличается простотой использования, без необходимости загружать множество внешних компонентов, задействовать командные строки или запускать что-либо ещё. Для использования приложения достаточно лишь запустить исполняемый файл.

По сравнению с Intel AI Playground, Amuse 2.0 не поддерживает запуск чат-ботов на основе больших языковых моделей. В настоящее время приложение предназначено только для генерации изображений с помощью ИИ. Amuse 2.0 использует модели Stable Diffusion и поддерживает процессоры Ryzen AI 300 (Strix Point), Ryzen 8040 (Hawk Point) и серию видеокарт Radeon RX 7000. Почему компания не добавила поддержку видеокарт Radeon RX 6000 и более ранних моделей, а также процессоров Ryzen 7040 (Phoenix), обладающих практически идентичными характеристиками с Hawk Point, неизвестно. Возможно, это изменится в будущем.

Для работы Amuse 2.0 AMD рекомендует использовать 24 Гбайт ОЗУ или больше для систем на базе процессоров Ryzen AI 300 и 32 Гбайт оперативной памяти для систем на базе Ryzen 8040. Для видеокарт Radeon RX 7000 требования к необходимому объёму памяти не указаны.

Возможности Amuse 2.0:

  • не требуется командная строка;
  • простота и удобство использования;
  • поддержка AMD XDNA Super Resolution;
  • один исполняемый файл;
  • никаких настроек;
  • автоматическая настройка и выбор модели;
  • преобразование рисунка в изображение;
  • создание собственных ИИ фильтров;
  • многоступенчатый конвейер на основе ONNX (Stable Diffusion, Control Nets, Feature Extractors).

Стоит отметить, что инструмент поддерживает XDNA Super Resolution — технологию, позволяющую увеличивать масштаб изображений вдвое. Более подробно об Amuse 2.0 можно узнать по этой ссылке.

Microsoft выпустила приложение Designer для создания изображений с помощью ИИ на iOS и Android

Компания Microsoft сообщила, что её приложение Designer на базе искусственного интеллекта вышло из предварительной версии и теперь доступно всем пользователям операционных систем iOS и Android. Приложение позволяет создавать изображения и дизайны на основе текстовых подсказок. С его помощью можно создавать, например, наклейки, поздравительные открытки, приглашения, коллажи и многое другое.

 Источник изображений: Microsoft

Источник изображений: Microsoft

Веб-версия приложения Designer теперь поддерживает более 80 языков мира. Оно также доступно в виде бесплатного мобильного приложения, а также приложения в составе операционной системы Windows. В Designer есть «шаблоны подсказок», призванные помочь пользователям начать творческий процесс. Шаблоны включают стили и описания, которые можно настраивать и делиться с другими. Помимо стикеров, с помощью текстовых подсказок можно создавать смайлы, картинки, обои, монограммы, аватары и многое другое.

Кроме того, Designer можно использовать для редактирования стиля изображения с помощью ИИ. Например, в приложение можно загрузить селфи, а затем выбрать один из наборов стилей и добавить на изображение дополнительные детали. Скоро в Designer появится функция «замена фона», которая позволит с помощью текстовых подсказок заменять задний фон на изображениях.

Автономное приложение Designer совместимо с Word и PowerPoint через Copilot. Пользователи подписки Copilot Pro могут создавать с помощью Designer изображения прямо в своей рабочей среде. Вскоре компания добавит возможность создавать баннеры для того или иного документа на основе содержимого документов Word.

Microsoft также сообщила, что приложение Designer получило более глубокую интеграцию в Microsoft Photos в составе Windows 11. Пользователи смогут использовать ИИ для редактирования фотографий, не выходя из приложения «Фото». У фотографий можно удалять объекты, фон и проводить автоматическую обрезку прямо в приложении.

Figma отключила ИИ-помощника дизайнера — он копировал интерфейс приложений Apple

Администрация платформы Figma была вынуждена отключить основанный на генеративном искусственном интеллекте инструмент Make Designs — он начал разрабатывать для пользователей проекты, которые выглядели поразительно похожими на приложения из iOS.

 Источник изображения: Gerd Altmann / pixabay.com

Источник изображения: Gerd Altmann / pixabay.com

Генеральный директор Figma Дилан Филд (Dylan Field) подробно рассказал о проблеме на своей странице в соцсети X, возложил на себя вину за то, что торопил своих подчинённых выпустить продукт в общий доступ и выразил уверенность в правильности подхода компании в отношении ИИ. Он также процитировал гендиректора Not Boring Software Энди Аллена (Andy Allen), который наглядно продемонстрировал, как Figma Make Designs практически полностью копирует приложение погоды Apple, и предупредил пользователей платформы, что это чревато юридическими проблемами.

«Мы не проводили обучения в рамках функций генеративного ИИ», — заявил ресурсу The Verge технический директор Figma Крис Расмуссен (Kris Rasmussen). Инструмент Make Designs, по его словам, был запущен на готовых моделях ИИ и созданной на заказ системе дизайна; на контенте пользователей или дизайнах готовых приложений обучение также не проводится, добавил Дилан Филд. В основе Make Designs лежат две модели ИИ: OpenAI GPT-4o и Amazon Titan Image Generator G1, рассказал технический директор, из чего можно сделать вывод, что дизайны Apple использовались для обучения ИИ в OpenAI или Amazon.

От идеи обучать собственные модели ИИ на контенте пользователей Figma администрация платформы не отказывается, но и торопить события в компании не собираются. На минувшей неделе пользователям представили политику обучения ИИ и дали время до 15 августа решить, согласны ли они предоставлять свои материалы: в тарифных планах Starter и Professional это согласие по умолчанию дано, а в Organization и Enterprise — нет.

Make Designs вернётся к пользователям Figma в обозримом будущем. «Мы проведём проверку данной системы дизайна, чтобы убедиться, что она предлагает достаточное разнообразие и отвечает нашим стандартам качества. <..> В этом основная причина проблемы. Но мы примем дополнительные меры предосторожности, прежде чем снова включить [Make Designs], чтобы убедиться, что функция в целом соответствует нашим стандартам качества и ценностям», — пообещал Расмуссен. Он также указал, что Make Designs находится в стадии бета-тестирования. «Бета-версии по определению несовершенны. Но можно сказать с уверенностью, как Дилан написал в своём твите, что мы просто не заметили эту конкретную проблему. А должны были», — заключил технический директор Figma.

Intel представила AI Playground — бесплатный ИИ-генератор изображений, работающий локально

На этой неделе состоялась ежегодная выставка Computex 2024, в рамках которой было представлено немало аппаратных и программных новинок. Одной из них стал генератор изображений AI Playground от Intel. Его основной является генеративная нейросеть, а главная особенность заключается в способности работать локально на пользовательском компьютере без подключения к облачным вычислительным мощностям.

 Источник изображения: Intel

Источник изображения: Intel

Приложение AI Playground для устройств с Windows требует наличия производительного процессора Intel Core Ultra, в составе которого есть встроенный ИИ-сопроцессор (NPU) для ускорения выполнения задач искусственного интеллекта. Также требуется наличие встроенной графики Intel Arc или дискретной видеокарты Intel с не менее чем 8 Гбайт видеопамяти.

Ещё одна особенность приложения, которое станет доступно для скачивания позднее этим летом, в том, что использовать её можно бесплатно. «Мы не рассматриваем AI Playground как замену многим замечательным проектам и приложениям на основе ИИ, но мы рассматриваем AI Playground как лёгкий способ начать работу с ИИ», — говорится в сообщении Intel.

AI Playground устанавливается на компьютер как стандартное приложение Windows. Пользовательский интерфейс выглядит достаточно простым. Для взаимодействия с разными функциями, такими как генерация или редактирование изображения, предлагается переключаться между вкладками в верхней части рабочего пространства. Для создания картинки достаточно ввести текстовое описание и запустить процесс генерации. Поддерживается возможность изменения качества и разрешения изображения, есть дополнительные опции, которые могут оказаться полезными при редактировании.

Основой приложения стала большая языковая модель Answer. Хотя возможности AI Playground на данном этапе не слишком впечатляют, недостатки может компенсировать способность приложения работать локально. Это означает, что у разработчиков продукта не будет доступа к созданному пользователями контенту и текстовым подсказкам, которые они задействовали в процессе генерации. Кроме того, приложение можно использовать бесплатно, что также будет привлекательно для пользователей, которые только начинают знакомство с ИИ-генераторами изображений.

Google так и не решила проблемы с расовой инклюзивностью у генератора изображений Gemini

В феврале Google приостановила работу основанного на искусственном интеллекте генератора изображений Gemini, который допускал оскорбляющие общественность исторические неточности. К примеру, расовое разнообразие солдат по запросу «римский легион» — явный анахронизм — и стереотипно чёрные мужчины по запросу «зулусские воины». Кажется, ничего не изменилось до сих пор.

 Источник изображения: blog.google

Источник изображения: blog.google

Гендиректору Google Сундару Пичаи (Sundar Pichai) пришлось принести извинения за сбой в работе генератора изображений Gemini, а глава ответственного за проект профильного подразделения Google DeepMind Демис Хассабис (Demis Hassabis) пообещал, что ошибка будет исправлена в «кратчайшие сроки» — за несколько недель. Сейчас уже середина мая, а ошибка до сих пор не исправлена.

На этой неделе Google провела ежегодную конференцию I/O, на которой рассказала о множестве новых функций Gemini: модель ИИ сможет использоваться для создания собственных чат-ботов, планировки маршрутов, она будет интегрирована в Google Calendar, Keep и YouTube Music. Но генерация изображений до сих пор отключена в приложении Gemini и веб-интерфейсе, подтвердил ресурсу TechCrunch представитель Google.

Причин задержки он не пояснил. По одной из версий, при обучении ИИ используются наборы данных, в которых превалируют изображения белых людей, тогда как представители других рас и этнических групп составляют исключения, что формирует стереотипы. В попытке исправить этот перекос Google могла прибегнуть к кардинальной мере — жёсткому кодированию, при котором данные встраиваются непосредственно в исходный код. Исправить созданный таким образом алгоритм очень непросто.

Президент OpenAI опубликовал изображение, созданное GPT-4o — оно очень впечатляет

На этой неделе OpenAI представила модель искусственного интеллекта нового поколения GPT-4o. Буква «o» в её названии означает Omni, подразумевая, что она изначально поддерживает несколько форматов ввода — ранее мультимодальность предполагала преобразование всех нетекстовых форматов в текст. Президент и соучредитель OpenAI Грег Брокман (Greg Brockman) впервые опубликовал созданное GPT-4o изображение.

 Источник изображения: twitter.com/gdb

То самое сгенерированное GPT-4o изображение. Источник изображения: twitter.com/gdb

Поддержка текста, изображений и звука в качестве входных данных означает, что модель также способна их генерировать. Приведённая выше картинка — не фотография, а творение GPT-4o. На ней изображён мужчина в футболке с логотипом OpenAI, который пишет на доске. Сверху находится частично стёртая надпись «Перенос между модальностями». Далее следует текст: «Положим, мы напрямую моделируем P (текст, пиксели, звук) посредством одного авторегрессионного трансформера. Каковы за и против?».

Если присмотреться, можно разглядеть некоторые признаки того, что изображение было создано ИИ. Доска висит под неестественным углом, под ней непонятным образом находится ещё одна, рука мужчины имеет странную форму, а освещение неоднородно. Невероятной, вместе с тем, кажется способность ИИ генерировать длинные фрагменты связного текста — с этим с трудом справляется даже DALL-E 3. Генератор изображений GPT-4o широкой публике пока недоступен: пользователи ChatGPT с подключённой моделью нового поколения пока могут генерировать изображения лишь с DALL-E 3. Но президент OpenAI Грег Брокман уверяет, что компания прилагает значительные усилия, чтобы открыть к модели нового поколения полный доступ.

Google анонсировала свой самый мощный ИИ-генератор изображений Imagen 3

В рамках проходящей в эти дни в Маунтин-Вью конференции Google I/O состоялся анонс новой версии генеративной нейросети семейства Imagen. Речь идёт об алгоритме Imagen 3 — самом продвинутом генераторе изображений от Google на данный момент.

 Источник изображения: Google

Источник изображения: Google

Глава исследовательского ИИ-подразделения Google Deep Mind Демис Хассабис (Demis Hassabis) во время презентации заявил, что Imagen 3 более точно понимает тестовые запросы, на основе которых он создаёт изображения, чем модель Imagen 2. Он отметил, что алгоритм работает более «креативно и детализировано», а также реже ошибается и создаёт меньше «отвлекающих артефактов».

Вместе с этим Google попыталась развеять опасения по поводу того, что Imagen 3 будет использоваться для создания дипфейков. В процессе генерации изображений будет задействована технология SynthID, посредством которой на медиафайлы наносятся невидимые криптографические водяные знаки. Предполагается, что такой подход сделает бесполезными попытки использовать ИИ-генератор Google для создания фейкового контента.

Частные пользователи могут оформить подписку на Imagen 3 через сервис Google ImageFX. Разработчики и корпоративные клиенты получат доступ к ИИ-генератору через платформу машинного обучения Vertex AI. Как и в прошлом, в этот раз Google не поделилась подробностями касательно того, какие данные использовались для обучения нового алгоритма.

64 пикселя за 20 минут: на 40-летнем компьютере Commodore 64 запустили ИИ-генератор изображений

В августе 1982 года вышел компьютер Commodore 64, которому было суждено стать одним из самых продаваемых ПК всех времён. Как оказалось, оборудование той эпохи и может справляться и с современными алгоритмами искусственного интеллекта — конечно, с некоторыми оговорками.

 Источник изображения: github.com/nickbild

Источник изображения: github.com/nickbild

Энтузиаст Ник Бильд (Nick Bild) разработал для Commodore 64 систему генеративного ИИ, способную создавать изображения размером 8 × 8 пикселей, которые затем преобразуются в картинки 64 × 64 точки. Эти изображения призваны служить источником вдохновения при разработке концепций игрового дизайна. Как оказалось, современную модель генеративного ИИ действительно можно запускать на таком старом оборудовании. На выполнение 94 итерации для построения окончательного изображения у Commodore 64 ушли 20 минут — и это, пожалуй, совсем неплохо, учитывая возраст компьютера.

О проектах уровня OpenAI речи, конечно, не идёт, но и «вероятностный алгоритм PCA», запущенный на 40-летней машине, в реальности был обучен на современном компьютере. Таким образом, хотя модель и по-честному работала на Commodore 64, для её запуска всё равно оказался необходим современный ПК.

window-new
Soft
Hard
Тренды 🔥
ПК с ИИ снижают производительность труда пользователей — люди не умеют правильно общаться с ИИ 7 мин.
Разработчики Path of Exile 2 раскрыли, чего ждать от раннего доступа — геймплей, подробности и предзаказ в российском Steam 2 ч.
Приключение Hela про храброго мышонка в открытом мире получит кооператив на четверых — геймплейный трейлер новой игры от экс-разработчиков Unravel 3 ч.
OpenAI случайно удалила потенциальные улики по иску об авторских правах 4 ч.
Скрытые возможности Microsoft Bing Wallpaper напугали пользователей 5 ч.
В WhatsApp появилась расшифровка голосовых сообщений — она бесплатна и поддерживает русский язык 5 ч.
Новая игра создателей The Invincible отправит в сердце ада выживать и спасать жизни — первый трейлер и подробности Dante’s Ring 6 ч.
Центр ФСБ по компьютерным инцидентам разорвал договор с Positive Technologies 8 ч.
Android упростит смену смартфона — авторизовываться в приложениях вручную больше не придётся 8 ч.
OpenAI обдумывает создание собственного интернет-браузера и поисковых систем для противостояния Google 8 ч.
Magssory Fold 3 в 1 — компактная и функциональная беспроводная зарядная станция для Apple, Samsung и не только 2 ч.
Nokia подписала пятилетнее соглашение о поддержке ЦОД Microsoft Azure с миграцией с 100GbE на 400GbE 2 ч.
Давно упавший на Землю кусочек Марса пролил свет на историю воды на Красной планете 2 ч.
TeamGroup представила SSD T-Force GA Pro на чипе InnoGrit — PCIe 5.0, до 2 Тбайт и до 10 000 Мбайт/с 2 ч.
Провалился крупнейший проект по производству электромобильных батарей в Европе — Northvolt объявила о банкротстве 2 ч.
«Уэбб» открыл в ранней Вселенной три огромные галактики — учёные не понимают, почему они так быстро сформировались 3 ч.
В Зеленограде начнут выпускать чипы для SIM-карт и паспортов — на этом планируется заработать триллионы рублей 3 ч.
Смартфоны Poco X6 Pro 5G, M6 Pro и C75 предлагают современный дизайн и продвинутые характеристики 3 ч.
В России стартовали продажи полностью беспроводных наушников Tecno True 1 Air, Buds 4 и Buds 4 Air 4 ч.
Одна из структур Минпромторга закупит ИИ-серверы на 665 млн рублей 5 ч.