реклама
Теги → gemini
Быстрый переход

Сергей Брин: Google «определённо оплошала» с генератором изображений в Gemini

Выступая на мероприятии AGI House в минувшие выходные, соучредитель Google Сергей Брин (Sergey Brin) признал, что компания «определённо оплошала с генерацией изображений», сообщает Business Insider. Создаваемые Gemini исторически неточные изображения, по его мнению, могли возникнуть из-за недостаточно тщательного тестирования модели.

 Источник изображения: wikipedia.org

Источник изображения: wikipedia.org

Google ранее приостановила работу функции генератора изображений Gemini после того, как пользователи начали жаловаться на допускаемые искусственным интеллектом неточности, имеющие характер фальсификации истории в отношении расового неравенства. Чат-бот также подвергли критике за некоторые ответы в текстовом формате.

Брин прекратил работу в Google в 2019 году, но в описании Gemini он значится как один из основных разработчиков платформы. В начале 2023 года руководство Alphabet объявило в компании «красный код» из-за выхода ChatGPT — к работе были вынуждены вернуться Брин и другой соучредитель Google Ларри Пейдж (Larry Page). С тех пор Сергея неоднократно видели в штаб-квартире компании в Кремниевой долине — он принимал непосредственное участие в разработке стратегии Google в области ИИ. В AGI House Брин подтвердил, что «в некотором роде вернулся из отставки лишь потому, что траектория развития ИИ оказалась настолько захватывающей».

Некоторые критики Google преподнесли ошибки Gemini как последствия того, что сотрудники компании имеют одни и те же политические пристрастия, и это могло сказаться на качестве текстовых ответов чат-бота. Илон Маск (Elon Musk), в частности, заявил, что не смог добиться от Gemini чёткого ответа, кто хуже: он или Гитлер. В этой части Брин критику отверг. Он заявил, что любой основанный на ИИ чат-бот, включая ChatGPT или выпущенный тем же Маском Grok, с некоторой вероятностью выдаёт «весьма странные вещи», которые можно расценить как некоторые политические пристрастия. Но, по словам Брина, у разработчиков Gemini не было намерений закладывать ИИ какие-либо политические предпочтения.

Передовые ИИ-модели Google Gemini уже через год смогут работать на смартфонах локально

Google рассчитывает, что уже со следующего года её передовая большая языковая модель Gemini, выступающая конкурентом OpenAI GPT-4, сможет локально работать на мобильных устройствах.

 Источник изображения: blog.google

Источник изображения: blog.google

Сегодня на смартфонах Pixel и других совместимых Android-устройствах Google уже предлагает свою самую эффективную модель Gemini Nano. Вице-президент по управлению продуктами в подразделении Google Pixel Брайан Раковски (Brian Rakowski) заявил, что уже в следующем году непосредственно на смартфонах начнут развёртываться самые передовые большие языковые модели компании, которые пока работают через удалённые центры обработки данных.

«В облаке есть уменьшенные версии нашей модели Gemini. Было несколько прорывов в сжатии этих моделей для их запуска на устройстве. Некоторые из них уже зарекомендовали себя, а некоторые изучаются для определённых сценариев. У них уже есть удивительные [варианты] применения. Gemini Nano работает на уровне, которого наши онлайн-модели достигли менее года назад. С помощью этих небольших версий моделей на устройстве можно сделать многое. Если просто пойти по этому пути, некоторые из вещей, которые, как мы думали, нам придётся запускать из облака, будут на устройстве, что поражает, и они будут работать мгновенно без необходимости подключения или подписки», — цитирует CNBC господина Раковски.

Большие языковые модели — это модели искусственного интеллекта, способные воспринимать человеческий язык и генерировать высказывания. Сегодня флагманской моделью Google является Gemini Ultra с 1,56 трлн параметров. Для сравнения, у OpenAI GPT-4 1,76 трлн параметров.

Производители смартфонов интегрируют в устройства функции ИИ в надежде восстановить рухнувший спрос на гаджеты. В 2023 году были проданы 1,16 млрд единиц, и это самый низкий показатель поставок за десятилетие. Всплеск спроса на смартфоны наблюдался с 2010 по 2015 гг., когда рынок вырос в пять раз с 300 млн до 1,5 млрд устройств. Компании Humane, Rabbit и Meizu делают ставку на «смартфоны будущего» — устройства, которые не похожи на традиционные смартфоны. Они отличаются более компактными размерами и управляются при помощи голосовых команд как умные колонки.

Google рассказала о планах интегрировать Gemini в Android и о других нововведениях

Google рассказала о планах развернуть функции искусственного интеллекта Gemini в Android и Android Auto. Чат-бот Gemini появится в приложении «Сообщения», поможет водителям не отвлекаться во время езды; а сохранённые в Google Wallet документы станут доступными в Wear OS.

 Источник изображений: blog.google

Источник изображений: blog.google

В приложении «Google Сообщения» появится новый контакт — чат-бот Gemini, который поможет в переписке с другими людьми. Компания привела пример: пользователь обращается к ИИ за советом, как улучшить не особо смешную шутку — и тот, кажется, неплохо справляется. ИИ также снизит нагрузку на пользователей Android Auto, которым важнее следить за дорогой: Gemini готов предложить сводку сообщений при переписке и подходящие ответы, например, он сам может подсчитать, когда пользователь прибудет к месту назначения.

Приложение «Google Карты» покажет расширенную информацию об объектах вокруг — достаточно навести камеру на заведение, и система укажет часы его работы; а приложение Lookout для людей с ослабленным зрением, которое составляет текстовые описания изображений, заработает за пределами США, но пока только для англоязычных пользователей.

Прочие изменения не касаются интеграции ИИ. В Android-версии приложения «Google Документы» теперь можно оставлять рукописные пометки стилусом или пальцем в выбранном цвете. В некоторых случаях этот формат окажется более информативным, чем текстовые комментарии. Приложение Google Fitbit теперь поддерживает интеграцию с платформой Health Connect, разработанной совместно Google и Samsung. Готовится полезное нововведение и для стороннего приложения Spotify — в нём можно будет выбирать устройство вывода звука как в YouTube Music.

Наконец, Wear OS получит функции, которые присутствуют в Apple watchOS уже не один год: умным часам откроется доступ к документам, сохраненным в Google Wallet; кроме того, здесь скоро появится пошаговая навигация.

Google экстренно чинит генератор изображений в Gemini — он переборщил с расовой инклюзивностью

Google сообщила, что на время частично приостановила работу генератора изображений в чат-боте Gemini, когда выяснилось, что она допускает исторические неточности в изображении людей, связанные с расовыми вопросами. Так, при попытке изобразить американских отцов-основателей и солдат нацистской Германии она как будто ниспровергает гендерные и расовые стереотипы, что расценивают как попытку фальсификации истории.

 Такими Gemini представляет себе американских отцов-основателей. Источник изображения: Google

Такими Gemini представляет себе американских отцов-основателей. Источник изображения: Google

Компания приняла решение направить генератор изображений Gemini на доработку менее чем через сутки после поступления первых жалоб. Пользователи чат-бота запрашивали у искусственного интеллекта картинки с историческими группами или лицами и получали на выходе изображения, на которых в основном были представители рас, отличных от европеоидной. Это спровоцировало появление в интернете теорий заговора, что Google намеренно избегает показывать белых людей.

 Сенатор США в 19-м веке по мнению Gemini. Источник изображения: Google

Сенатор США в 19-м веке по мнению Gemini. Источник изображения: Google

К примеру, когда Gemini попросили создать изображение американского сенатора XIX века, ИИ предложил картинки чернокожих женщин и женщин коренных американских наций. В действительности женщина впервые стала сенатором в США лишь в 1922 году, и она была белой. Таким образом, генератор изображений Gemini стирал историю расовой и гендерной дискриминации.

Сейчас, когда Gemini просят создать изображение человека или нескольких, тот выводит сообщение следующего содержания: «Мы работаем над улучшением способности генерировать изображения людей. Ожидаем, что эта функция скоро вернётся, и мы сообщим об обновлении выпуска, когда это произойдёт». Генератор изображений появился в чат-боте Gemini (ранее Bard) в начале месяца как ответ на аналогичные продукты OpenAI и Microsoft Copilot — он создаёт картинки по текстовому запросу.

Google выпустила нейросеть Gemini 1.5 с огромнейшим контекстным окном — ИИ за раз осилит весь «Властелин колец»

Не прошло и двух месяцев с момента запуска передовой нейросети Gemini, а Google уже анонсировала её преемника. Сегодня была представлена большая языковая модель Gemini 1.5, которая сразу же стала доступна для разработчиков и корпоративных пользователей, а в скором времени начнется её распространение среди потребителей. Google ясно дала понять, что хочет использовать Gemini в качестве бизнес-инструмента, персонального помощника и не только.

В Gemini 1.5 много улучшений. Модель Gemini 1.5 Pro, которая ляжет в основу многих сервисов Google, превосходит Gemini 1.0 Pro на 87 % в тестах, и соответственно находится примерно на одном уровне с высококлассной Gemini 1.0 Ultra. При создании новой модели используется набирающий популярность подход «смесь экспертов» (Mixture of Experts — MoE), который подразумевает, что при отправке запроса запускается только часть общей модели, а не вся. Такой подход должен сделать модель более быстрой для пользователя и более эффективной для Google.

Но в Gemini 1.5 есть одна новая вещь, которая особенно радует всю компанию Google, начиная с генерального директора Сундара Пичаи (Sundar Pichai). Новая версия нейросети имеет огромное контекстное окно, что означает, что она может обрабатывать гораздо более объёмные запросы и просматривать гораздо больше информации одновременно. Размер окна составляет 1 миллион токенов, что намного больше 128 000 токенов у GPT-4 от OpenAI и 32 000 у текущей Gemini Pro. «Это примерно 10 или 11 часов видео, десятки тысяч строк кода», — отметил Пичаи. Ещё он добавил, что исследователи Google тестируют контекстное окно на 10 миллионов токенов — это, например, вся серия «Игры престолов» в одном запросе.

В качестве примера Пичаи говорит, что в это контекстное окно можно вместить всю трилогию «Властелин колец». Это кажется слишком специфичным, но, возможно, кто-то в Google проверит, не обнаружит ли Gemini ошибок в преемственности, пытается разобраться в сложной родословной Средиземья. Или ИИ, возможно, сможет понять Тома Бомбадила.

Пичаи также считает, что увеличенное контекстное окно будет очень полезно для бизнеса. «Это позволит вам использовать примеры, в которых вы можете добавить много личного контекста и информации в момент запроса, — говорит он. — Считайте, что мы значительно расширили окно запроса». Глава Google представляет себе, что кинематографисты могут загрузить весь свой фильм и спросить у Gemini, что скажут рецензенты, а компании смогут использовать Gemini для обработки массы финансовых документов. «Я считаю это одним из самых больших прорывов, которые мы совершили», — говорит он.

Пока что Gemini 1.5 будет доступна только для бизнес-пользователей и разработчиков через Google Vertex AI и AI Studio. Со временем она заменит Gemini 1.0, а стандартная версия Gemini Pro — та, что доступна всем на сайте gemini.google.com и в приложениях Google, — будет заменена на 1.5 Pro с контекстным окном на 128 000 токенов. Чтобы получить миллион, придется доплатить. Google также тестирует безопасность и этические границы модели, особенно в отношении нового увеличенного контекстного окна.

Сейчас Google находится в бешеной гонке за создание лучшего инструмента ИИ, в то время как компании по всему миру пытаются определить свою собственную стратегию ИИ и сотрудничать с OpenAI, Google или кем-то ещё. Буквально недавно OpenAI анонсировала «память» для ChatGPT и, похоже, готовится к выходу на рынок веб-поиска. Пока Gemini выглядит впечатляюще, особенно для тех, кто уже работает в экосистеме Google, компании предстоит еще много работы.

В конце концов, говорит Пичаи, все эти 1.0 и 1.5, Pro и Ultra, а также корпоративные битвы не будут иметь значения для пользователей. «Люди будут просто потреблять лучший пользовательский опыт, — говорит он. — Это как пользоваться смартфоном, не обращая внимания на процессор под крышкой». Но на данный момент, по его словам, мы всё еще находимся на стадии, когда каждый знает, какой чип находится внутри его телефона, потому что это имеет значение. «Базовые технологии меняются так быстро», — говорит глава Google. — Людям не все равно».

ИИ-бот Gemini стал доступен на iOS через приложение Google

Google активно расширяет присутствие основанного на искусственном интеллекте чат-бота Gemini, который пришёл на смену «Google Ассистенту» — соответствующее приложение появилось в ряде новых стран, а сам чат-бот теперь доступен в приложении Google для iOS, обратил внимание ресурс Android Authority.

 Источник изображения: androidauthority.com

Источник изображения: androidauthority.com

Для владельцев iPhone отдельного приложения Gemini нет, но теперь можно активировать чат-бот в верхней части основного приложения Google. С выбором нового ИИ-помощника меняется интерфейс всего приложения — внизу появляется крупное поле для ввода запросов. Чтобы задать запрос голосом, требуется нажать кнопку с изображением микрофона; отправка также производится нажатием отдельной кнопки. Ответы не озвучиваются в автоматическом режиме — для этого нужно коснуться значка с изображением динамика.

При взаимодействии с Gemini на iOS можно пользоваться текстом, голосом, отправлять изображения и открывать в приложении камеру. ИИ кратко излагает сложные темы, генерирует программный код, пишет тексты, например, благодарственные письма и письма электронной почты, создаёт изображения и многое другое. На iOS есть собственный помощник Siri, поэтому возможность вызвать Gemini на любом экране для получения контекстной помощи отсутствует — это есть только в Android.

По неподтверждённой пока информации, Apple также работает над новыми функциями ИИ для iPhone, и дебютировать они могут с выходом iOS 18.

Google по умолчанию собирается хранить переписку пользователей с Gemini три года

Google опубликовала на портале техподдержки разъяснение о пользовательских данных, которые собираются при взаимодействии с чат-ботом Gemini — это касается веб-интерфейса, а также переписки в приложениях для Android и iOS: по умолчанию она будет храниться три года.

 Источник изображения: Sascha Bosshard / unsplash.com

Источник изображения: Sascha Bosshard / unsplash.com

Компания отмечает, что создатели аннотаций для искусственного интеллекта регулярно читают, размечают и иным образом обрабатывают диалоги с Gemini для улучшения сервиса. Журналы переписки «отключены» от учётных записей Google, но не уточняется, кто именно читает их — собственные сотрудники компании или сторонние подрядчики. Диалоги хранятся на серверах до трёх лет вместе со «связанными данными»: языком переписки, устройством пользователя и его местоположением.

В разделе «Мои действия» настроек учётной записи Google есть страница с активной по умолчанию опцией, которая отключает сохранение переписки с Gemini — здесь же можно вручную удалить все запросы и команды, ранее отданные приложениям Gemini. Но в компании предупредили, что даже при отключении записи журналов переписка с чат-ботом будет сохраняться на сроки до 72 часов — это поможет «обеспечить безопасность приложений Gemini и улучшать приложения Gemini». Поэтому Google просит пользователей не вводить в переписке с ИИ конфиденциальные данные или любую другую информацию, которую они не хотели бы показывать сотрудникам сервиса или использовать для улучшения продуктов компании, а также её технологий машинного обучения.

Обработка конфиденциальных данных генеративным ИИ сегодня является проблемной областью. OpenAI в минувшем году пришлось по этому поводу объясняться с американскими и итальянскими властями. Amazon, Google, Microsoft и та же OpenAI предлагают основанные на ИИ сервисы для предприятий, и эти сервисы не предполагают продолжительного хранения данных. Отношения с потребителями, однако, выстраиваются по иным схемам.

Google открыла свою мощнейшую нейросеть широкой публике за $20 в месяц, а Bard переименовала в Gemini

Как и ожидалось, компания Google объявила о ребрендинге своего ИИ-бота Bard, который теперь официально называется Gemini. Вместе с этим пользователи могут задействовать новое Android-приложение Gemini, открывающее доступ к ИИ-боту, а функции Duet AI в Google Workspace объединяются вокруг единого бренда, символизирующего ИИ-инструменты от Google.

 Источник изображений: Google

Источник изображений: Google

Вероятно, мобильное приложение Gemini станет наиболее доступным вариантом для ознакомления с возможностями ИИ-бота Google. После установки на устройство с Android ИИ-бот Gemini, помимо прочего, может заменить собой голосового ассистента Google Assistant. «Я думаю, что это важный шаг на пути к созданию настоящего ИИ-помощника», — заявила Сисси Сяо (Sissie Hsiao), глава подразделения по разработке Bard (теперь Gemini). Она также добавила, что голосовой помощник компании стал «более полезным, чем когда-либо».

Приложения Gemini для iOS не существует, вероятно, из-за того, что пользователи iPhone всё равно не могли бы задействовать бота Google в качестве помощника по умолчанию. Однако владельцы устройств Apple могут получить доступ ко всем ИИ-функциям в приложении Google.

Остальные изменения в основном касаются брендинга. Google отказывается от имени Bard, но чат-бот компании при этом никуда не денется и будет развиваться в будущем. Это касается и всех ИИ-функций Google Workspace, которые прежде назывались Duet AI, но теперь объединились под брендом Gemini. Пользователи по-прежнему могут задействовать их для составления электронных писем, таблиц и выполнения других рабочих задач.

В основе бесплатной общедоступной версии ИИ-бота лежит большая языковая модель Gemini Pro. Чтобы получить доступ к самой мощной языковой модели Google Gemini Ultra, придётся оформить подписку Gemini Advanced, которая входит в пакет Google One AI Premium стоимостью $20 в месяц. Подписка также включает в себя 2 Тбайт облачного хранилища и другие возможности Google One.

Стремление Google активно продвигать Gemini вполне объяснимо, поскольку компания пытается конкурировать на рынке искусственного интеллекта с другими крупными игроками, такими как OpenAI, Anthropic, Perplexity и др. Google ещё предстоит доказать свою способность идти в ногу с отраслью, поскольку компания стремится одновременно создать привлекательный потребительский продукт и пытается убедить разработчиков использовать Gemini, а не ChatGPT.

Google переименует ИИ-бота Bard в Gemini и выпустит отдельное приложение для Android

В ближайшие несколько дней ИИ-бота Google Bard ждут большие перемены. Данные журнала изменений (changelog) говорят о том, что разработчики намерены переименовать чат-бота в Gemini, а также выпустить отдельное Android-приложение, позволяющее взаимодействовать с нейросетью.

 Источник изображения: 9to5google.com

Источник изображения: 9to5google.com

Последние несколько месяцев Google активно развивает своего ИИ-бота. Одно из важных изменений произошло в конце прошлого года, когда основой Bard стала большая языковая модель Gemini. Не так давно алгоритм получил возможность генерации изображений по текстовому описанию. Однако разработчики не намерены останавливаться на достигнутом, и вскоре Bard ждут новые изменения. По данным источника, уже на следующей неделе Bard будет официально переименован в Gemini. Этот шаг выглядит вполне логичным, поскольку с недавних пор именно продвинутая языковая модель Gemini Pro является основой чат-бота Google.

Данные журнала изменений указывают на то, что продвинутая версия ИИ-бота Gemini Advanced станет доступна с 7 февраля. Основой Gemini Advanced выступает продвинутая языковая модель Gemini Ultra, а для взаимодействия с этой версией ИИ-бота придётся оформлять платную подписку. В журнале изменений Google прямо указывает на то, что это платный продукт, и он будет развиваться за счёт интеграции дополнительных функций, которые не будут доступны в базовой версии алгоритма.

В дополнение к этому Google выпустит отдельное Android-приложение Gemini, с помощью которого можно взаимодействовать с ботом на мобильных устройствах. Несмотря на то, что ИИ-бот уже интегрирован в разные приложения Google, такие как Gmail и YouTube, все возможности Gemini будут раскрыты в отдельном приложении. Пользователи устройств с iOS, которые хотят взаимодействовать с ИИ-ботом Gemini, смогут сделать это посредством приложения Google.

Помощник программиста Google Duet AI for Developers переедет на нейросеть Gemini

Google объявила, что Duet AI for Developers, набор вспомогательных инструментов на базе ИИ для генерации кода, о котором компания рассказывала ранее в этом году, теперь общедоступен для личного и корпоративного использования. К тому же в ближайшие недели перейдёт на более мощную модель ИИ Google Gemini. Бесплатный тестовый период продлится до конца января 2024 года.

 Источник изображения: unsplash.com

Источник изображения: unsplash.com

Инструменты генерации кода, среди которых лидирует Copilot от Microsoft, были положительно оценены разработчиками. Google не осталась в стороне и предложила свой вариант набора инструментов для разработчиков на базе ИИ — Duet AI for Developers. Google заключила соглашения с 25 софтверными компаниями, среди которых Confluent, HashiCorp и MongoDB, предоставившими наборы своих данных для обучения ИИ помощи при дополнении и генерации кода.

«Я по-прежнему возглавляю команду инженеров, которые занимаются взаимоотношениями с разработчиками и всей нашей документацией, — объяснил Ричард Серотер (Richard Seroter), главный евангелист Google Cloud. — Каждый день мы видим, что работы ещё много, с программным обеспечением ещё много сложностей. Как ИИ может помочь избавиться от этого шаблона, от вещей, которые нам не нравится делать? Как сделать кодирование лучше? Это было многое из того, что мы преследовали. Как нам создать своего рода ИИ-помощника, который будет ассистировать разработчикам, при этом добавляя в процесс разработки немного Google?»

 Источник изображения: Google

Источник изображения: Google

Duet AI for Developers в настоящее время поддерживает более 20 языков, включая C, C++, Java, JavaScript и Python. Помимо обычных возможностей кодирования, он включает поддержку объединения журналов ИИ, поиска и объяснения ошибок, интегрированных, например, с облачным журналированием Google, а также Smart Actions («Интеллектуальные действия»), которые позволяют одним щелчком мыши выполнять рутинные задачи, такие как создание модульных тестов. Применять новые инструменты Google Duet AI for Developers можно при помощи интеграции в Google Cloud Console поверх популярных IDE, используемых разработчиками.

Google полагает, что эти инструменты не заменят навыки кодирования, но помогут сделать разработчиков более продуктивными. В качестве примера компания сообщила, что Turing, компания, предоставляющая технические услуги на основе искусственного интеллекта, добилась увеличения производительности на 33 % после внедрения Duet AI for Developers.

Серотер особо подчеркнул, что набор инструментов Duet AI for Developers общедоступен как продукт корпоративного уровня с контролем доступа и гарантией возмещения ущерба от Google. До конца января 2024 года Duet AI for Developers можно использовать бесплатно. После этого месячная подписка будет стоить $19 за пользователя при заключении годового контракта.

Google запустила AI Studio — простой инструмент для разработки приложений и чат-ботов с ИИ

Представив на прошлой неделе семейство больших языковых моделей Gemini и внедрив их в чат-бот Bard, компания Google теперь предложила Gemini разработчикам сторонних приложений и сервисов. Компания запустила целый ряд новых и обновлённых сервисов, в том числе службу AI Studio, которая ранее была известна как MakerSuite.

 Источник изображения: pixabay.com

Источник изображения: pixabay.com

AI Studio — это веб-инструмент для разработчиков, который функционирует как шлюз в более широкую экосистему Gemini, начиная с продвинутой нейросети Gemini Pro и заканчивая самой мощной Gemini Ultra, выход которого намечен на следующий год. С помощью этого сервиса разработчики могут быстро создавать подсказки и чат-боты на базе Gemini, а затем получать API-ключи для использования их в своих приложениях, или доступ к коду, чтобы работать над ним в более полнофункциональной IDE.

Важно отметить, что существует относительно щедрая бесплатная квота на использование нейросети — до 60 запросов в секунду. Этого должно быть достаточно для быстрой итерации идей без обременительных ограничений и, возможно, даже достаточно для работы с некоторыми не слишком крупными приложениями.

Тем не менее, за скорость всё же придётся «платить»: для разработчиков, использующих бесплатную подписку (а это на текущий момент практически всё, поскольку Google планирует запустить платную версию только одновременно с запуском модели Gemini Ultra), рецензенты Google смогут контролировать входные и выходные данные API и веб-приложения, чтобы «улучшить качество продукта». Google при этом гарантирует, что эти данные не будут сопоставляться с аккаунтом Google и ключами API конкретного пользователя.

По сравнению с предыдущей версией MakerSuite, обновлённый софт выглядит более «навороченным». Среди прочего, в нём появится поддержка Gemini Pro и модели Gemini Pro Vision. Это позволит разработчикам работать как с текстом, так и с изображениями (хотя и не создавать их). «Мы хотим пригласить разработчиков протестировать новый инструмент, — сообщил Джош Вудворт (Josh Woodward), вице-президент Google Labs. — Это первая версия, и у нас много доработок, которые мы уже сейчас делаем для будущих обновлений, но мы стараемся разработать её таким образом, чтобы люди могли просто войти и начать создавать с её помощью».

Используя веб-интерфейс, разработчики могут выбирать модели, чтобы контролировать творческий диапазон ответов ИИ, и приводить примеры, чтобы дать указания боту по тону и стилю. Также можно настроить параметры безопасности модели. Вудворд также отметил, что команда постаралась разработать AI Studio таким образом, чтобы даже бесплатный уровень не был похож на пробный или закрытый продукт. И действительно, если ограничения по скорости бесплатного уровня достаточны для их использования, разработчики могут сразу же начать публиковать свои приложения AI Studio или использовать их через API или SDK Google.

Жанин Бэнкс (Jeanine Banks), вице-президент и генеральный директор Google Developer X и глава отдела по работе с разработчиками, также подчеркнула, что AI Studio — это вход в более широкую экосистему ИИ Google и, в частности, в Vertex AI, корпоративную платформу Google для разработчиков генеративного ИИ.

«[Мы предлагаем] идею "развиваться вместе с Google", когда вы можете войти, создать что-то, запустить, развернуть, позволить людям использовать это и иметь щедрый бесплатный уровень. Но затем мы также поставляем целый набор SDK, которые позволяют разработчикам запускать и создавать приложения на Gemini Pro, которые могут работать практически везде, от бэкенда с поддержкой Node.js и Python, до мобильных устройств с поддержкой Java, Kotlin и Swift, и до веба, конечно же, с JavaScript», — объяснила она. Говоря об экосистеме в целом, Бэнкс также пояснил, что в начале следующего года Google планирует внедрить Gemini в Chrome Dev Tools и мобильную платформу разработки Google Firebase.

Учитывая скорость развития генеративного ИИ, сложно даже предсказать, для чего разработчики захотят использовать эти инструменты в дальнейшем, но Бэнкс и Вудворд подчеркнули, что Google планирует создать AI Studio как лёгкую ступеньку для разработчиков всех уровней подготовки.

«ChatGPT, который знает всё о вашей жизни»: Google хочет рассказать людям историю их жизни с помощью ИИ

Проект Google с кодовым именем Ellmann позволит пользователям получить «ретроспективный взгляд» на историю их жизни. Идея заключается в том, чтобы использовать большие языковые модели, такие как Gemini, для обработки пользовательских поисковых запросов, выявления закономерностей в его фотографиях, создания индивидуального чат-бота и «ответов на ранее невозможные вопросы» о жизни человека. Команда также продемонстрировала «Чат Ellmann» с многообещающим и пугающим описанием: «Представьте, что вы открываете ChatGPT, а он уже знает всё о вашей жизни».

 Источник изображения: Google

Источник изображения: Google

Команда Google предложила использовать технологию искусственного интеллекта для создания картины жизни пользователей «в ретроспективе», используя данные мобильного телефона, такие как фотографии и поисковые запросы. Пока неясно, планирует ли компания внедрить эти возможности в «Google Фото» или в какой-либо другой свой продукт.

Проект Ellmann, названный в честь биографа и литературного критика Ричарда Дэвида Эллманна (Richard David Ellmann), предполагает использование LLM, таких как Gemini, для обработки результатов поиска, выявления закономерностей в фотографиях пользователя, создания чат-бота и «ответов на ранее невозможные вопросы», говорится в копии презентации Google. Цель проекта, как поясняется в презентации, — создать «Рассказчика истории вашей жизни».

Менеджер по продуктам «Google Фото» представил проект Ellmann вместе с командами Gemini на недавнем внутреннем саммите. Команды потратили несколько месяцев на то, чтобы определить, что большие языковые модели являются идеальной технологией для того, чтобы сделать этот подход к истории ретроспективного описания жизни реальностью.

Ellmann может использовать контекст биографии, предыдущих и последующих фотографий, чтобы описать конкретные фотографии пользователя более глубоко, чем «просто пиксели с ярлыками и метаданными», говорится в презентации. Он предлагает определять ряд моментов, таких как университетские годы, годы жизни в каком-то определённом месте и годы жизни в качестве родителя.

«Мы не сможем ответить на сложные вопросы или рассказать хорошую историю, не имея представления о вашей жизни в вашем же прошлом», — говорится в одном из описаний к фотографии маленького мальчика, играющего с собакой в грязи.

«Мы просматриваем ваши фотографии, изучаем их метки и местоположение, чтобы определить значимый момент, — говорится на слайде презентации. — Когда мы оглядываемся назад и понимаем вашу жизнь во всей её полноте, становится понятна ваша история жизни». В презентации отмечается, что большие языковые модели могут определять такие моменты, как рождение ребенка пользователя. «Эта LLM может использовать знания из более высоких частей дерева, чтобы сделать вывод о том, что это рождение Джека и что он первый и единственный ребенок Джеймса и Джеммы».

«Одна из причин, по которой LLM настолько эффективен для такого подхода ретроспективного анализа, заключается в том, что он может брать неструктурированный контекст с разных ветвей дерева модели и использовать его для улучшения понимания других областей дерева», — поясняется на слайде, сопровождающемся иллюстрацией различных жизненных «моментов» и «глав» из жизни пользователя.

Кроме того, команда проекта описала суть Ellmann следующей фразой: «Представьте, что вы открываете ChatGPT, а он уже знает всё о вашей жизни. О чём бы вы его спросили?». Далее команда показала пример чата, в котором пользователь спрашивает: «Есть ли у меня домашнее животное?». На что чат отвечает, что да, у пользователя есть собака, которая носит красный дождевик, затем предлагает имя собаки и имена двух членов семьи, с которыми питомец чаще всего проводит время.

Ellmann также представил краткую информацию о привычках пользователя в еде. «Похоже, вам нравится итальянская кухня. Здесь есть несколько фотографий блюд из пасты, а также фотография пиццы». В сообщении также говорилось, что пользователю, похоже, нравится новая еда, потому что на одной из его фотографий было меню с нераспознанным блюдом. Технология также определила, какие товары пользователь собирался приобрести, его интересы, работу и планы на путешествия, основываясь на скриншотах пользователя, говорится в презентации. Технология сможет узнать любимые сайты и приложения пользователей, приводя в пример Google Docs, Reddit и Instagram.

Представитель Google предоставил следующий комментарий: «В "Google Фото" всегда использовался искусственный интеллект для поиска фотографий и видео, и мы рады тому, что LLM могут открыть ещё более полезные возможности. Это было раннее внутреннее исследование, и, как всегда, если мы решим выпустить новые функции, мы потратим время, необходимое для того, чтобы убедиться, что они полезны для людей и разработаны с учётом защиты конфиденциальности и безопасности пользователей, что является нашим главным приоритетом».

Предлагаемый проект Ellmann может помочь Google в гонке вооружений между технологическими гигантами по созданию более персонализированных «воспоминаний» о жизни. Google Photos и Apple Photos уже много лет предлагают пользователям «воспоминания» и создают альбомы на основе тенденций в фотографиях.

В ноябре Google объявила, что с помощью искусственного интеллекта «Google Фото» теперь может группировать похожие фотографии и организовывать скриншоты в легко находимые альбомы.

Такие корпорации бигтеха, как Google, Facebook и Apple, со временем добавили элементы управления для минимизации нежелательных «воспоминаний», но пользователи сообщают, что иногда они всё равно появляются и требуют переключения нескольких настроек, чтобы минимизировать «неприятные воспоминания».

Акции Google подскочили более чем на 5 % после анонса нейросети Gemini

На этой неделе Google представила большую языковую модель Gemini, которая в перспективе должна стать главным конкурентом GPT-4 от OpenAI, а продукты на её основе — конкурентами ИИ-сервисов Microsoft. Для ценных бумаг компании 7 декабря, когда стоимость акций выросла более чем на 5 % до $136,93, стало лучшим днём с 29 августа.

 Источник изображений: Google

Источник изображений: Google

Представитель торгового отдела банковской холдинговой компании Wells Fargo считает, что анонса нейросети Gemini должно быть достаточно, чтобы успокоить скептиков, которые считают, что Google проигрывает Microsoft гонку в сфере искусственного интеллекта. Он также отметил, что большой вопрос заключается в том, как компания видит монетизацию своей нейросети.

Аналитики Bank of America отметили, что в этом году Alphabet находится под давлением из-за опасений по поводу возможностей Google в сфере искусственного интеллекта. Поэтому «хорошо раскрученная» конкурентная модель может иметь преимущества для её потребительской поисковой активности и корпоративных продаж облачных технологий. «Мы считаем, что Google обладает мощным потенциалом в сфере искусственного интеллекта, и данные, свидетельствующие о том, что Google обладает лучшими в своём классе собственными возможностями искусственного интеллекта, могут оказать положительное влияние на акции в первом полугодии 2024 года», — считают аналитики.

Пока неясно, планирует ли Google монетизировать Gemini через все свои продукты в долгосрочной перспективе, хотя уже в этом месяце компания начнёт лицензировать использование алгоритма клиентами через Google Cloud. Руководство Google заявило, что Gemini превосходит алгоритм GPT-3.5 от OpenAI, но не были озвучены сравнительные данные с моделью GPT-4 Turbo. Тем не менее, Gemini показывает, что существуют возможности для дальнейшей монетизации ИИ.

Например, Microsoft недавно запустила ИИ-помощника Copilot на базе ChatGPT, который встроен в Word, Excel и другие приложения офисного пакета компании, стоимостью $30 в месяц на пользователя. В октябре аналитики Piper Sandler заявили, что Copilot может принести Microsoft более $10 млрд ежегодного дохода к 2026 году.

Аналитики JPMorgan сообщили, что хотя инвесторы Уолл-стрит в основном не обратили внимания на анонс Google, они воодушевлены, увидев Google в «этом важном технологическом сдвиге». Однако они отмечают, что «неопределённость в отношении путей монетизации в поиске» будет иметь место. Они считают, что запуск Gemini представляет собой значительную инновацию для Google, поскольку вскоре начнётся второй год коммерциализации и широкой доступности генеративных алгоритмов на базе нейросетей.

Google всех обманула: видео о возможностях мощной нейросети Gemini оказалось подделкой

Google представила свою самую мощную модель искусственного интеллекта Gemini всего два дня назад, и компанию уже успели обвинить в фальсификации информации о ней. Как выяснилось, разработчик отредактировал демонстрационное видео Gemini и тем самым ввёл общественность в заблуждение относительно скорости её работы и даже возможностей.

 Источник изображения: blog.google

Источник изображения: blog.google

Google опубликовала шестиминутное видео, демонстрирующее всесторонние способности Gemini: ИИ неплохо справляется с распознаванием объектов, причём отслеживает динамику их внешнего вида и даже рассуждает. Но есть один нюанс. В описании видео присутствует фраза: «В целях этой демонстрации задержка была уменьшена, а ответы Gemini — сокращены».

Как выяснилось, у этого нюанса серьёзные последствия. В реальности, пояснил представитель Google, Gemini обрабатывала текстовые запросы, которые впоследствии были отдельно озвучены, и распознавала неподвижные изображения. И это в корне отличается от сценария, который подразумевается демонстрационным видео: у зрителя формируется впечатление, что он может вести непринуждённый диалог с Gemini, а ИИ способен наблюдать за объектами в реальном времени и реагировать на перемены в них.

Но в Google с такой версией изложения фактов не согласились и отвергли обвинения в фальсификации данных. Вице-президент по исследованиям и глубокому обучению подразделения DeepMind Ориол Виньялс (Oriol Vinyals) пояснил: «Все пользовательские запросы и ответы в видео настоящие, урезанные для краткости. Видео демонстрирует, как может выглядеть многорежимный пользовательский интерфейс, созданный с помощью Gemini. Мы сделали это, чтобы вдохновить разработчиков».

Первое знакомство с революционной нейросетью Google Gemini разочаровало пользователей

Вчера компания Google представила флагманскую большую языковую модель искусственного интеллекта (ИИ) Gemini. Нейросеть предназначена для целого ряда продуктов и сервисов, включая ИИ-чат-бота Bard, конкурента ChatGPT. Однако большинство пользователей, успевших протестировать обновлённый Bard на свежей нейросети, остались недовольны результатами.

 Источник изображения: Google

Источник изображения: Google

В своих блогах и материалах для прессы Google превозносит превосходную архитектуру и возможности Gemini, утверждая, что данная модель соответствует или даже превосходит по производительности другие ведущие модели генеративного ИИ, такие как GPT-4 от OpenAI. Однако первый опыт взаимодействия некоторых пользователей свидетельствует об обратном.

Так, вчера Bard получил апгрейд в виде «облегчённой» версии модели под названием Gemini Pro. Пользователи сразу начали высказывать своё недовольство обновлением на страницах социальной сети X (бывший Twitter). К примеру, чат-бот не смог правильно предоставить простые факты, например, победителей премии «Оскар» 2023 года. При этом Gemini Pro неверно утверждает, что в прошлом году лучшим актёром стал Брендон Глисон (Brendan Gleeson), в то время как фактически победителем был Брендан Фрейзер (Brendan Fraser). При попытках пользователей задать этот же вопрос, можно в результате получить другой неправильный ответ.

 Источник изображения: Google

Источник изображения: Google

Похожая ситуация с вопросами касательно лучших фильмов: «На западном фронте без перемен» стал лучшим международным фильмом по мнению модели, «Говорят женщины» стал лучшим адаптированным сценарием, а «Пиноккио» — лучшим анимационным фильмом. Модель во всех этих примерах выдала некорректные ответы.

Кроме того, Bard на базе Gemini продемонстрировал плохую производительность при переводах. К примеру, при попытках пользователей запросить у модели слово на французском языке, состоящее из 6 букв, Gemini выдаёт вариант из 7 букв.

 Источник изображения: Google

Источник изображения: Google

А как насчёт обобщения новостей? Gemini Pro, имея в своём распоряжении «Google Поиск» и «Google Новости», очевидно, может предоставить краткий обзор новостей. Как бы не так. Похоже, Gemini Pro не желает комментировать потенциально спорные темы новостей, предлагая пользователям... погуглить самим. При этом конкурент от OpenAI ChatGPT, напротив, легко справляется с этой задачей, предоставляя краткое изложение со ссылками на новостные статьи. Хотя доступна эта функция лишь платным подписчикам — бесплатная версия ChatGPT не подключена к интернету.

 Источник изображения: OpenAI

Источник изображения: OpenAI

Как и все генеративные модели ИИ, Gemini Pro не застрахован от «взлома», то есть от запросов, которые обходят защитные фильтры, пытающиеся предотвратить обсуждение спорных тем. Используя автоматизированный метод алгоритмического изменения контекста подсказок до тех пор, пока защитные фильтры Gemini Pro не перестанут работать, исследователи ИИ-безопасности из стартапа Robust Intelligence, продающего инструменты для аудита моделей, смогли заставить Gemini Pro предложить способы аморальных действий, например, кражи у благотворительной организации.

Следует отметить, что Gemini Pro на текущий момент не является самой способной версией Gemini. Более продвинутая версия — Gemini Ultra — должна появиться на рынке в следующем году, в ИИ-чат-боте Bard и других продуктах. Поэтому сейчас Google сравнивает Gemini Pro с моделью конкурента GPT-3.5, которой уже около года, а не с последней версией GPT-4.

Тем не менее, Google пообещала, что Gemini Pro улучшит рассуждения, планирование и понимание по сравнению с предыдущей моделью, используемой в Bard, и заявила, что Gemini Pro лучше справляется с обобщением контента, мозговым штурмом и написанием текста. Пока что этого не видно.

window-new
Soft
Hard
Тренды 🔥
Новая игра создателей The Invincible отправит в сердце ада выживать и спасать жизни — первый трейлер и подробности Dante’s Ring 21 мин.
Центр ФСБ по компьютерным инцидентам разорвал договор с Positive Technologies 2 ч.
Android упростит смену смартфона — авторизовываться в приложениях вручную больше не придётся 2 ч.
OpenAI обдумывает создание собственного интернет-браузера и поисковых систем для противостояния Google 3 ч.
Apple разрабатывает LLM Siri — она будет больше похожа на человека и выйдет с iOS 19 4 ч.
Новая статья: Верные спутники: 20+ полезных Telegram-ботов для путешественников 9 ч.
Итоги Golden Joystick Awards 2024 — Final Fantasy VII Rebirth и Helldivers 2 забрали больше всех наград, а Black Myth: Wukong стала игрой года 11 ч.
В программу сохранения классических игр от GOG вошли S.T.A.L.K.E.R. Shadow of Chernobyl и Call of Pripyat, а Clear Sky — на подходе 12 ч.
Star Wars Outlaws вышла в Steam с крупным обновлением и дополнением про Лэндо Калриссиана 13 ч.
Рекордная скидка и PvP-режим Versus обернулись для Warhammer: Vermintide 2 полумиллионом новых игроков за неделю 15 ч.
Второй электромобиль Xiaomi выйдет через год после первого и будет заметно от него отличаться 12 мин.
Oracle объявила о доступности облачного ИИ-суперкомпьютера на базе NVIDIA H200 22 мин.
Positive Technologies получила сертификат ФСТЭК на межсетевой экран PT NGFW 2 ч.
Google снова уходит с рынка планшетов, сворачивая разработку Pixel Tablet 2 3 ч.
Представлен внешний SSD SanDisk Extreme на 8 Тбайт за $800 и скоростной SanDisk Extreme PRO с USB4 11 ч.
Представлен безбуферный SSD WD_Black SN7100 со скоростью до 7250 Мбайт/с и внешний SSD WD_Black C50 для Xbox 11 ч.
Новая статья: Обзор ноутбука ASUS Zenbook S 16 (UM5606W): Ryzen AI в естественной среде 11 ч.
Redmi показала флагманский смартфон K80 Pro и объявила дату его премьеры 13 ч.
Астрономы впервые сфотографировали умирающую звезду за пределами нашей галактики — она выглядит не так, как ожидалось 16 ч.
Представлена технология охлаждения чипов светом — секретная и только по предварительной записи 16 ч.