Опрос
|
реклама
Быстрый переход
Картинки в стиле Ghibli перегрузили серверы OpenAI — выпуск новых функций замедлен
02.04.2025 [00:41],
Анжелла Марина
Генеральный директор OpenAI Сэм Альтман (Sam Altman) заявил, что из-за высокой популярности нового инструмента генерации изображений в ChatGPT компания столкнулась с перегрузкой оборудования, из-за чего выход новых продуктов и функций придётся ограничить. ![]() Источник изображения: Mariia Shalabaieva / Unsplash По словам Альтмана, OpenAI пытается справиться с ситуацией, но пользователям следует ожидать как минимум задержек в релизах, а также перебоев в работе сервисов и замедления работы платформы. Тем не менее, как отмечает TechCrunch, компания уверяет, что держит ситуацию под контролем. «Что-то будет ломаться, а обслуживание иногда будет медленным, поскольку мы справляемся с проблемами, связанными с пропускной способностью, — написал Альтман. — Мы стараемся решать проблемы оперативно, чтобы всё действительно работало». Напомним, выпущенный недавно новый генератор изображений вызвал буквально ажиотаж благодаря способности имитировать различные стили, в частности популярный стиль анимационной студии Studio Ghibli. Однако компания не успевает справляться с наплывом пользователей, а сотрудники вынуждены работать допоздна и даже в выходные, чтобы поддерживать работоспособность системы. Чтобы снизить нагрузку на свои серверы, OpenAI задержала запуск нового инструмента генерации изображений для бесплатных пользователей ChatGPT, а возможность создания видео с помощью Sora временно отключена для новых пользователей. Компания не уточняет, когда проблемы с перегрузкой будут окончательно решены и пока продолжает работать над улучшением инфраструктуры. В понедельник ChatGPT зафиксировал регистрацию в сервисе одного миллиона новых пользователей всего за один час. Также отметим, что на сегодня системой пользуются 500 миллионов еженедельных пользователей и 20 миллионов подписчиков, что значительно больше по сравнению с концом 2024 года, когда показатели составляли 300 миллионов и 15,5 миллиона соответственно. «Наши GPU плавятся»: ажиотаж вокруг нового генератора картинок в ChatGPT заставил OpenAI ввести ограничения
27.03.2025 [22:21],
Владимир Мироненко
Представленная на днях функция 4o Image Generation генерации качественных изображений вызвала огромный интерес у пользователей. Ажиотаж даже вынудил OpenAI «временно» ограничить частоту отправки запросов на генерацию изображений, сообщил в соцсети X гендиректор компании Сэм Альтман (Sam Altman). «Очень забавно наблюдать, как людям нравятся изображения в ChatGPT, но наши графические процессоры плавятся», — отметил он в своём сообщении. ![]() Источник изображения: OpenAI Альтман не уточнил, какой предел скорости был установлен, лишь выразив надежду, что это ограничение не понадобится надолго, поскольку OpenAI пытается повысить эффективность обработки огромного числа запросов. Высочайший спрос уже заставил компанию отсрочить запуск обновлённого генератора изображений на базе GPT-4o для бесплатных пользователей ChatGPT — Альтман ранее пообещал, что бесплатные пользователи «скоро» смогут генерировать с его помощью до трёх изображений в день. Но, по-видимому, этого оказалось недостаточно, чтобы как-то снизить нагрузку на инфраструктуру OpenAI. Улучшенный инструмент генерации изображений использует мультимодальную большую языковую модель GPT-4o. Получающиеся с его помощью изображения выглядят качественно, более реалистично и лучше соответствуют запросам. Также имеются успехи в преодолении прошлых проблем, например, с отображением текста. В интервью ресурсу The Verge представитель компании назвал улучшение генерации как «шаговое изменение» по сравнению с предыдущими моделями. Тем не менее возникшие проблемы служат напоминанием о том, сколько технической мощности и энергии требуется для реализации функции генерации изображений в ChatGPT, отметил The Verge. OpenAI решила попридержать запуск 4o Image Generation для бесплатных пользователей
27.03.2025 [04:24],
Анжелла Марина
Компания OpenAI вынуждена перенести сроки предоставления доступа к встроенному генератору изображений в ChatGPT для пользователей бесплатной версии. Сэм Альтман (Sam Altman) в своём сообщении признал, что новый инструмент 4o Image Generation оказался популярнее, чем ожидалось, поэтому развёртывание для бесплатного использования будет отложено на некоторое время, сообщает The Verge. ![]() Источник изображения: OpenAI Новый ИИ-генератор изображений был интегрирован в ChatGPT буквально на днях. С его помощью можно создавать картинки непосредственно в приложении, используя новейшую модель рассуждений GPT-4o. Функция так понравилась пользователям, что они уже вовсю стали делиться в социальных сетях изображениями, в частности, стилизованными под работы студии Ghibli, — тренд, к которому присоединился даже сам Альтман. По словам разработчиков, 4o Image Generation отличается улучшенным рендерингом текста и использует для генерации изображений так называемый авторегрессионный подход, когда изображение создаётся последовательно, слева направо и сверху вниз, а не одномоментно целиком, что позволяет создавать картинки без каких-либо ошибок или искажений в тексте, чего раньше добиться в других генераторах не удавалось. В настоящее время доступ к функции имеют только подписчики платных тарифов ChatGPT Plus, Pro и Team. Когда именно пользователи бесплатной версии смогут опробовать новый ИИ-генератор, пока не совсем ясно из-за неожиданно высокого спроса на эту функцию. OpenAI представила функцию генерации точных изображений в ChatGPT на базе GPT-4o — она доступна бесплатно
26.03.2025 [01:03],
Анжелла Марина
OpenAI встроила функцию генерации точных изображений непоcредственно в ChatGPT. Новая функция, именуемая 4o Image Generation, опирается на мультимодальную большую языковую модель GPT-4o. Она понимает контекст, сложные инструкции, взаимодействия объектов и даже генерирует текстовые надписи без артефактов. Доступ для всех откроют сегодня. ![]() Источник изображений: OpenAI ChatGPT и прежде умел генерировать изображения с помощью нейросети Dall-E 3. Однако обновлённая функция работает куда лучше и точнее. Представитель OpenAI Тайя Кристиансон (Taya Christianson) уточнила, что лимиты для бесплатных пользователей останутся такими же, как у DALL-E, то есть три изображения в день. Доступ к DALL-E по-прежнему возможен через пользовательский интерфейс ChatGPT. Как отметил глава исследований Габриэль Го (Gabriel Goh), использование GPT-4o позволяет ИИ работать с любыми типами данных — текстом, изображениями, аудио и видео. Кроме того, Sora получила ключевое улучшение, заключающееся в корректном соотношении атрибутов и объектов (binding). Го объяснил, что большинство ИИ путаются при обработке 5–8 элементов. Например, ИИ может получить запрос нарисовать синюю звезду и красный треугольник, но создать красную звезду и нечто отличное от треугольника. 4o Image Generation справляется с 15–20 объектами без ошибок. ![]() Пользователи также заметят улучшение в отрисовке текста, что позволяет генерировать на изображениях читаемый текст без опечаток. В существующих инструментах для генерации изображений текст часто искажался и достижение качественного рендеринга в этом смысле было серьёзной проблемой, так как даже небольшие ошибки в заголовках или текстовых элементах могут сделать всё изображение полностью непригодным. ![]() Генерация по запросу «Cделай очень красочную ризографию о том, как приготовить матча» (make a very colorful risograph on how to make matcha) Система также использует теперь нестандартный метод генерации. Изображения создаются последовательно, слева направо и сверху вниз, а не целиком, как это происходит в DALL-E. По мнению Го, это объясняет превосходство 4o Image Generation в работе с текстом и сложными сценами. ![]() OpenAI продемонстрировала возможности 4o Image Generation на научных диаграммах, например, эксперимент Ньютона с призмой, комиксах и постерах. Также были показаны практические применения в создании изображений с прозрачным фоном для стикеров, меню ресторанов и логотипов. 4o Image Generation со всеми заданиями справилась успешно, не допустив в тексте никаких ошибок. Также 4o Image Generation способен редактировать загруженные пользователем изображения по простым запросам, добавляя на них элементы или наоборот убирая. ![]() Пример добавление элементов на фотографию с помощью GPT-4o Однако новая система генерирует изображения дольше, чем предыдущие, но OpenAI считает это оправданным компромиссом. «Хотя у нас определённо есть возможности для улучшения времени отклика, качество этих изображений, возможности, знание о мире действительно компенсируют дополнительные секунды ожидания», — сказали в компании. ![]() Отвечая на вопросы о мерах безопасности, упоминая скандальные дипфейки Тейлор Свифт (Taylor Swift), созданные с помощью модели Microsoft, способность Grok от xAI изобразить Камалу Харрис (Kamala Harris) с оружием и удаление водяных знаков в Google Gemini, команда OpenAI подчеркнула наличие надёжных механизмов защиты от злоупотреблений. Директор по дизайну OpenAI Шеннон Джагер (Jackie Shannon) заявила, что инструмент предотвращает удаление водяных знаков, блокирует генерацию дипфейков, связанных с телом человека и отказывает в запросах на создание материалов с различным родом насилия над детьми (CSAM). Кроме того, Шеннон пояснила, что все сгенерированные изображения будут включать стандартные метаданные C2PA, чтобы отметить изображение как созданное OpenAI. Поддержка программного генератора кадров Nvidia Smooth Motion появится у видеокарт GeForce RTX 40-й серии
02.02.2025 [01:31],
Николай Хижняк
С выпуском видеокарт GeForce RTX 50-й серии компания Nvidia также выпустила новую технологию Smooth Motion. Она представляет собой аналог технологии AMD Fluid Motion Frames — генератора кадров, реализованного на программного уровне. Технология создаёт один дополнительный кадр между двумя кадрами, отрисованными видеокартой, повышая тем самым плавность игрового процесса. ![]() Источник изображения: VideoCardz Технология Smooth Motion генерирует и масштабирует весь кадр целиком, что означает, что такие элементы, как игровой пользовательский интерфейс, текстовые подсказки или карта местности, также будут сгенерированы. Некоторые игровые элементы могут выглядеть не очень хорошо, поскольку при их генерации, в отличие от технологий DLSS Frame Generation (FG) или DLSS Multi Frame Generation (MFG), Smooth Motion не задействует векторы движения. Nvidia Smooth Motion обеспечивает качество изображения и задержку хуже, чем DLSS Frame Generation. Но, с другой стороны, геймерам не нужно ждать, пока разработчики игр интегрируют поддержку данной технологии, поскольку Nvidia Smooth Motion работает на уровне драйвера, а значит поддерживается всеми современными играми. ![]() Источник изображения: Nvidia Технология Nvidia Smooth Motion стала частью последней версии графического драйвера Nvidia Game Ready, а также приложения Nvidia App. Она официально поддерживается только видеокартами GeForce RTX 50-й серии, однако это лишь временная эксклюзивность. Согласно сообщению Nvidia, поддержка Smooth Motion в перспективе появится и на видеокартах GeForce RTX 40-й серии. «Nvidia Smooth Motion является новой технологией, работающей на уровне драйвера, поэтому требует времени для проверок и валидаций на уровне множества аппаратных продуктов. Поддержка технологии видеокартами GeForce RTX 40-й серии появится в рамках будущих обновлений», — говорит маркетинговый отдел Nvidia. Геймеры смогут включить Smooth Motion в настройках драйвера или в игровых профилях. «Да, качество изображения и задержка ввода могут быть не такими хорошими, как у FG или MFG, но есть множество сценариев, где она [технология Smooth Motion] будет отлично работать», — добавляет евангелист GeForce Джейкоб Фримен (Jacob Freeman) на своей странице в соцсети X. Примечательно, что Nvidia официально не анонсировала Smooth Motion для видеокарт RTX 50-й серии. Компания просто добавила её в последнюю версию драйвера GeForce Game Ready. Геймерам также следует знать, что технология работает исключительно с играми, основанными на DirectX 11 и DirectX 12. Nvidia научит старые видеокарты GeForce повышать FPS с помощью ИИ, но потом
20.01.2025 [17:56],
Николай Хижняк
В интервью Digital Foundry Брайан Катандзаро (Bryan Catanzaro), вице-президент по исследованиям в области прикладного глубокого обучения в Nvidia сообщил, что не исключает возможности в будущем внедрения функции генерации кадров силами ИИ для повышения FPS, ставшей частью технологии DLSS, в старые видеокарты Nvidia GeForce. ![]() Источник изображений: Digital Foundry / Nvidia С момента своего дебюта в 2018 году технология масштабирования с глубоким обучением (DLSS) от Nvidia эволюционировала уже до четвёртой версии. Её последняя итерация перешла на ИИ-модель типа трансформер, что позволило реализовать ряд новых функций, включая мультикадровую генерацию (Multi Frame Generation, MFG). Последняя позволяет создавать до трёх дополнительных кадров на каждый традиционно отрисованный кадр для повышения FPS. Nvidia смогла реализовать некоторые новые технологии, включая реконструкцию лучей (DLSS Ray Reconstruction), супер-разрешение (Super Resolution) и технологию сглаживания, опирающуюся на искусственный интеллект (Deep Learning Anti-Aliasing, DLAA) на всех видеокартах GeForce RTX, начиная с 20-й серии. Однако генератор кадров (Frame Generation) первого поколения, изначально представленный как эксклюзивная функция видеокарт GeForce RTX 40-й серии, не поддерживается моделями GeForce RTX 30-й и RTX 20-й серий. Новый мультикадровый генератор так и вовсе изначально заявлен только для новейших GeForce RTX 5000. В разговоре с журналистами Брайан Катандзаро отметил, что не исключает появления функции генерации кадров у старых моделей видеокарт Nvidia. «Я думаю, что ключевым здесь является вопрос проектирования и оптимизации, а также конечного пользовательского опыта. Мы запускаем этот генератор кадров, лучший генератор кадров, коим является технология Multi Frame Generation, с видеокартами 50-й серии. А в будущем посмотрим, сможем ли что-то выжать для старого поколения оборудования», — прокомментировал представитель Nvidia. На фоне заявления Катандзаро можно предположить, что первая версия генератора кадров может в перспективе появиться на видеокартах GeForce RTX 30-й серии. Однако маловероятно, что она появится у моделей GeForce RTX 20-й серии. При этом, скорее всего, мультикадровый генератор кадров останется эксклюзивом видеокарт RTX 50-й серии, поскольку для его работы требуется значительно больше вычислительной мощности, заточенной под ИИ, которую у этих карт обеспечивают новые тензорные ядра. Один из ведущих разработчиков Nvidia также поделился некоторой информацией о разработке DLSS. «Когда мы создавали Nvidia DLSS 3 Frame Generation, нам было абсолютно необходимо аппаратное ускорение для вычислений Optical Flow. Но у нас не было достаточного количества тензорных ядер и не было достаточно хорошего алгоритма Optical Flow. Мы не создавали алгоритм Optical Flow для работы в реальном времени на тензорных ядрах, который мог бы вписаться в наш запас вычислительной мощности. У нас был аппаратный ускоритель Optical Flow, который Nvidia создавала годами как эволюцию нашей технологии видеокодирования. Он также был частью нашей технологии ускорения работы компьютерного зрения для беспилотных автомобилей. Казалось бы, для нас имело смысл использовать его и для Nvidia DLSS 3 Frame Generation. Но сложность в любой аппаратной реализации алгоритма типа Optical Flow заключается в том, что его действительно трудно улучшить. Он такой, какой он есть, и те сбои, которые возникли из-за этого аппаратного Optical Flow, мы не могли исправить с помощью более умной нейронной сети, пока не решили просто заменить его и перейти на решение, полностью основанное на ИИ. Именно это мы и сделали для Frame Generation в DLSS 4». Microsoft вернула старый ИИ-генератор картинок Bing Image Creator, потому что новый работал хуже
09.01.2025 [15:18],
Владимир Фетисов
Компания Microsoft решила откатить обновление ИИ-генератора изображений Bing Image Creator. Это произошло после того, как в течение нескольких недель пользователи сервиса активно жаловались на снижение качества его работы, которое возникло после обновления большой языковой модели DALL-E 3 18 декабря. Microsoft отказалась от комментариев по поводу причин решения откатить обновление. ![]() Источник изображения: Microsoft Сегодня корпоративный вице-президент Microsoft по поиску и искусственному интеллекту Жорди Рибас (Jordi Ribas) опубликовал пост в соцсети X, в котором сообщил, что разработчикам удалось воспроизвести «некоторые из обнаруженных проблем». Он также добавил, что было принято решение вернуться к использованию более старой версии модели DALL-E. В декабре Рибас сообщил о развёртывании обновления для модели DALL-E, которая является основой генератора изображений Bing Image Creator. Почти сразу после этого в интернете появились жалобы от пользователей сервиса, которые писали, что ИИ-генератор стал менее точно следовать текстовым подсказкам при создании изображений. На тот момент Рибас заявил, что качество работы обновлённого продукта «в среднем должно быть немного лучше», чем раньше. Жалобы пользователей стали появляться не только на форумах поддержки Microsoft, но и на других платформах, включая Reddit и форум OpenAI. Очевидно, что в конечном счёте Microsoft пришлось признать наличие проблемы и откатить обновление, чтобы вернуть Bing Image Creator к прежнему состоянию. Когда софтверный гигант может снова обновить языковую модель DALL-E, пока неизвестно. Google представила генератор картинок для тех, кто не любит писать — Whisk
17.12.2024 [12:54],
Павел Котов
Google анонсировала Whisk — основанный на искусственном интеллекте инструмент, который позволяет генерировать картинки, используя в качестве запроса другие изображения вместо длинных текстовых формулировок. ![]() Источник изображения: blog.google Работая с Whisk, можно загружать изображения, используя образцы картинок в качестве основной темы, сцены или стиля. При желании можно дополнить их текстовыми подсказками; а если нужных картинок не окажется под рукой, система предложит свои — вероятно, также сгенерированные ИИ. Получив результат, можно добавить его в избранное или скачать; либо улучшить его, дополнив или отредактировав текстовый запрос. Whisk предназначается для «быстрого создания визуального эскиза, а не дотошного редактирования с точностью до пикселя»; он может «промахнуться», признают в Google, поэтому позволяет редактировать исходные подсказки. В основу сервиса лёг последний вариант генератора изображений Imagen 3, который подразделение Google DeepMind анонсировало вместе с генератором видео Veo 2 — мощный конкурент OpenAI Sora пока доступен лишь ограниченному кругу пользователей экспериментальной платформы VideoFX. Чат-бот Grok от xAI Илона Маска обзавёлся генератором фотореалистичных изображений
08.12.2024 [06:24],
Алексей Разин
Концентрация нескольких динамично развивающихся компаний в руках Илона Маска (Elon Musk) приводит к их взаимной интеграции, а чат-бот Grok уже давно доступен подписчикам социальной сети X, а вчера он добрался и до бесплатных пользователей. Функциональность первого недавно дополнилась новым генератором изображений Aurora, который способен создавать фотореалистичные изображения, пусть и не лишённые недостатков. ![]() Источник изображения: X, EnsoMatt Бета-версия генератора изображений Aurora, как отмечает TechCrunch, стала доступна пользователям социальной сети X на вкладке Grok вчера. Доступ к этим возможностям не требует подписки, но имеет ограничения в бесплатном варианте. В частности, без подписки нельзя направить чат-боту Grok более 10 запросов за два часа, а количество генерируемых Aurora изображений ограничено тремя штуками в день. Кстати, некоторые пользователи X уже успели обнаружить, что лишены доступа к Aurora. Официально этот генератор изображений находится в бета-версии. Это уже второй генератор изображений для Grok компании xAI. Если в случае с первым, Flux, стартап Илона Маска сотрудничал с другими разработчиками, то история происхождения второго, Aurora, пока не раскрывается. По крайней мере, представители xAI только успели заявить, что принимали участие в настройке данной системы. Пользователи социальной сети X начали выкладывать образцы сгенерированных Aurora изображений, на одном из них можно лицезреть Адама Сэндлера (Adam Sandler) и его партнёра по сериалу Рэя Романо (Ray Romano), и если лица актёров на сгенерированных изображениях оказались похожими на настоящие, то с пальцами рук у генератора изображений возникли традиционные проблемы. Как отмечается, пейзажи и натюрморты у Aurora получаются гораздо лучше, но и там не обходится без дефектов. Google предложила помощь ИИ в создании клипартов для документов
16.11.2024 [12:22],
Павел Котов
На платформе Google Workspace появился генератор изображений на основе искусственного интеллекта Gemini прямо в приложении «Google Документы» — он позволяет быстро создавать иллюстрации к текстам. По сути, это генератор клипартов, схожий с аналогичной функцией в офисном пакете Microsoft. ![]() Источник изображения: workspaceupdates.googleblog.com Генератор изображений для «Google Документов» доступен для обладателей платных учётных записей Workspace, в том числе Gemini Business, Enterprise, Education, Education Premium и Google One AI Premium. Те, у кого новая функция уже заработала, могут открыть её через меню «Вставка», в котором требуется последовательно выбрать пункты «Изображение» и «Помогите мне создать изображение». Появляется боковая панель, на которой можно ввести описание требуемой иллюстрации; на ней же есть выпадающий список художественных стилей — например, «Фотография» или «Эскиз». Изображение будет квадратным либо вытянутым в горизонтальном или вертикальном направлении — можно выбрать то, что лучше впишется в макет документа. Доступно создание и изображения для обложки, которое протянется на всю страницу. За новую функцию отвечает новейший генератор Google Imagen 3 — он, по словам компании, обеспечивает «лучшую детализацию, более насыщенное освещение и меньше лишних артефактов». У части учётных записей новая функция появится в ближайшие 15 дней; для других она начнёт развёртываться 16 декабря. Представлена ИИ-модель YandexART 2.0 с поддержкой генерации текста на изображениях
10.10.2024 [17:09],
Павел Котов
«Яндекс» выпустил YandexART 2.0 — генератор картинок нового поколения. Нейросеть научилась создавать надписи на изображении и выдерживать на одной картинке сразу несколько стилей; объекты в пространстве и относительно друг друга теперь располагаются более естественно; а при создании изображений учитывается большее число деталей запроса. ![]() Источник изображений: «Яндекс» Отличительной особенностью YandexART 2.0 является гибридная архитектура нейросети, сочетающая черты свёрточной и трансформерной моделей. Свёрточная модель работает по принципу человеческого глаза, определяя ключевые признаки объекта, например, его форму, текстуру и края, но она ограничена в длине контекста, поэтому в длинных запросах ей помогает трансформер. Эта архитектура помогает YandexART 2.0 выдерживать несколько жанров в одном изображении — к примеру, она может изобразить анимешную этикетку на фотореалистичной бутылке лимонада. ![]() Для обучения нейросети YandexART 2.0 использовались несколько сотен миллионов пар изображений и текстовых описаний к ним; более точное их соотношение обеспечила дополнительная VLM-модель, при помощи которой картинки анализировались и сопровождались подробными текстовыми описаниями. Массив обучающих данных был расширен за счёт нескольких сотен тысяч изображений с текстом — это помогло YandexART 2.0 дополнять картинки надписями латинскими буквами. ![]() «Яндекс» также разработал собственную систему оценки качества работы для генератора изображений: новая модель выиграла у Midjourney v6.1 по критериям комплексности и эстетичности в 66 % и 58 % случаев соответственно, а также приблизилась к нему в аспекте релевантности запросам. ![]() Бизнес-пользователи могут поработать с YandexART 2.0 на платформе Yandex Cloud — при помощи API можно интегрировать генератор изображений в любые приложения; есть возможность протестировать её работу в демонстрационном режиме для подбора оптимальных запросов. Корпоративные клиенты могут генерировать логотипы, иллюстрации для статей, презентаций или социальных сетей. ![]() Визуальная нейросеть доступна также частным пользователям в веб-версии «Алисы» и собственном приложении виртуального помощника; владельцы бесплатных учётных записей могут запросить до пяти изображений в сутки, а у подписчиков опции «Алиса Про» такое ограничение отсутствует. С YandexART 2.0 можно создать аватарку для соцсетей, значок приложения, принт для футболки, открытку для друга или иллюстрацию для публикации. Google наконец починила ИИ-генератор изображений в Gemini — он перебарщивал с расовой инклюзивностью
29.08.2024 [00:41],
Николай Хижняк
Компания Google скоро вернёт пользователям доступ к генератору картинок в ИИ-чат-боте Gemini. Функция была удалена из чат-бота в феврале из-за того, что что она допускала серьёзные исторические ошибки в изображении людей, связанные с расовыми и гендерными вопросами. К примеру, расовое разнообразие солдат по запросу «римский легион» — явный анахронизм. ![]() Источник изображения: Google Ранний доступ к новому генератору изображений Imagen 3 от Google откроется платным пользователям Gemini на тарифах Advanced, Business и Enterprise в ближайшие дни, сообщил в официальном блоге Google Дэйв Ситрон (Dave Citron), старший директор по продуктам Gemini. Изначально функция будет поддерживать запросы только на английском языке. «Мы внесли технические исправления в продукт, а также поработали над более продвинутыми алгоритмами оценки и защитой от red-teaming-атак», — написал Ситрон. В феврале этого года Google приостановила работу функцию генерации изображений в Gemini, объяснив это тем, что она предлагает «неточности» при генерации исторических изображений. Компания приняла решение направить генератор изображений Gemini на доработку менее чем через сутки после поступления первых жалоб. По словам Ситрона, новый генератор Imagen 3 «не поддерживает создание фотореалистичных идентифицируемых лиц, изображений несовершеннолетний или чрезмерно кровавые, жестокие или сексуальные сцены». «Конечно, как и в случае с любым генеративным инструментом ИИ, не каждое изображение, создаваемое Gemini, будет идеальным, но мы продолжим прислушиваться к отзывам пользователей и будем совершенствовать наш продукт». Он также пообещал, что в дальнейшем пользоваться генератором изображений смогут больше людей, а сама функция получит поддержку дополнительных языков. Веб-версия генератора изображений Midjourney стала доступной для всех
24.08.2024 [13:07],
Павел Котов
Генеральный директор Midjourney Дэвид Хольц (David Holz) сообщил в Discord, что любой желающий теперь может открыть сайт сервиса и начать генерировать изображения. Бесплатная демо-версия платформы позволяет создать до 25 картинок. ![]() Источник изображения: Swello / unsplash.com Ранее для доступа к генератору Midjourney было необходимо пользоваться мессенджером Discord. Это было непросто, потому что приходилось особым образом составлять запросы. Чтобы привлечь пользователей, которым в Discord не нравилось, был запущен сайт платформы, но к работе в веб-интерфейсе допустили лишь тех, кто создал не менее 10 000 изображений через мессенджер. Теперь же сайт Midjourney открыт для всех желающих. Для регистрации потребуется учётная запись в Google или Discord — обладатели аккаунтов на обеих платформах могут подключить их к одной учётной записи в Midjourney и входить через любую их двух. После входа в систему набор основных инструментов доступен на левой боковой панели. Можно ознакомиться с изображениями, созданным по запросам других пользователей или попробовать сгенерировать картинку самостоятельно, предварительно посмотрев обучающий ролик. В верхней части страницы есть поле для ввода запроса, в ответ на который Midjourney предложит четыре изображения — качество наиболее удачного настраивается с помощью специальных инструментов: уменьшить, увеличить картинку или скорректировать ракурс. Есть и редактор изображений, где можно скорректировать запрос, изменить определённые области картинки, выбрать другое соотношение сторон и добавить новые элементы. Есть раздел, где собраны все созданные пользователем изображения. Картинку из коллекции можно посмотреть, изменить, скопировать или скачать. На сайте доступны чаты, где можно посмотреть, что создали другие люди, или разместить собственное изображение. По исчерпании лимита в 25 картинок Midjourney предложит оформить подписку на один из четырёх тарифных планов — они отличаются ценами и квотами на число изображений. Google открыла всем американским пользователям доступ к генератору изображений Imagen 3
16.08.2024 [17:31],
Павел Котов
Google без громких анонсов открыла всем пользователям из США доступ к последней модели генератора изображений с искусственным интеллектом Imagen 3 на платформе ImageFX. Компания также опубликовала исследовательскую работу, в которой подробно описывается эта технология. ![]() Источник изображения: deepmind.google Модель Imagen 3 была анонсирована в мае на конференции Google I/O и выпущена в ограниченный доступ для пользователей платформы Vertex AI. «Представляем Imagen 3 — модель скрытой диффузии, которая генерирует высококачественные изображения по текстовым запросам. На момент проведения оценки Imagen 3 является более предпочтительной, чем другие современные модели», — говорится в научной работе. Выпуск Google нового генератора изображений для широкой общественности в США — важный стратегический шаг для компании, вступившей в гонку технологий ИИ. С одной стороны, разработчику удалось повысить качестве её работы, с другой — модель подвергается критике за излишне строгие фильтры контента. Пользователи Reddit, в частности, сообщают, что генератор изображений отклоняет до половины запросов, даже если не предлагать ему «нарисовать» нечто сомнительное — дошло до того, что он отказался создать изображение киборга. Это резко контрастирует с подходом стартапа Илона Маска (Elon Musk) xAI, который на этой неделе выпустил модель Grok-2. Она генерирует изображения практически без ограничений, допуская создание картинок с общественными деятелями и деталями, которые на других платформах считаются недопустимыми. Это тоже вызвало недоумение общественности и породило предположения, что на xAI будет оказываться давление. Перед отраслью ИИ встаёт вопрос о балансе между творчеством и ответственностью, а также возможном влиянии генераторов изображений на публичный дискурс и достоверность информации. Художники одержали важную победу в деле об авторских правах против Stability AI и Midjourney
14.08.2024 [17:11],
Павел Котов
Группа художников, которая объединилась в коллективном иске против разработчиков наиболее популярных моделей искусственного интеллекта для генерации изображений, устроила празднование по случаю того, что судья дал ход этому делу и санкционировал раскрытие информации. ![]() Источник изображения: Alexandra_Koch / pixabay.com Ответчиками по делу выступают создатели сервисов Midjourney, Runway, Stability AI и DeviantArt — по версии истцов, разработчики систем на основе модели Stable Diffusion использовали их защищённые авторским правом работы для обучения ИИ. Судья Северного окружного суда Калифорнии Уильям Оррик (William H. Orrick), курирующий Сан-Франциско, где располагаются многие крупнейшие разработчики систем ИИ, пока не вынес окончательного решения по делу, но счёл, что предъявленных ответчикам обвинений достаточно, чтобы дело перешло к стадии раскрытия информации. Это значит, что представляющие истцов юристы могут изучить документы компаний — разработчиков генераторов изображений с ИИ; огласке будут преданы подробности о массивах обучающих данных, механизмах и внутренней работе систем. Модель Stable Diffusion предположительно обучалась на наборе данных LAION-5B из 5 млрд изображений, который был опубликован в 2022 году. Но, как отмечается в деле, эта база содержала только URL-адреса, то есть ссылки на изображения, а также их текстовые описания, то есть компаниям приходилось самостоятельно собирать эти изображения. Основанные на Stable Diffusion модели используют в работе механизм «CLIP-guided diffusion», помогающий им при генерации изображений отталкиваться от пользовательских запросов, которые могут включать имена художников. Метод CLIP (Contrastive Language-Image Pre-training) разработала и ещё в 2021 году опубликовала компания OpenAI — более чем за год до выпуска ChatGPT. Модель OpenAI CLIP способна работать как база данных по фирменному стилю, и если при обучении схожей с ней модели Midjourney использовались имена художников и их работы с сопоставленными с ними описаниями, то этот факт может представлять собой нарушение авторских прав. |