реклама
Теги → google gemini
Быстрый переход

Медицинский ИИ от Google превзошёл GPT-4 и даже живых докторов

Google Research и исследовательская лаборатория Google в области искусственного интеллекта DeepMind сообщили подробности о семействе передовых больших языковых моделей Med-Gemini, разработанных для применения в сфере здравоохранения.

 Источник изображения: geralt/Pixabay

Источник изображения: geralt/Pixabay

ИИ-модели всё ещё находятся на стадии исследования, но авторы разработок утверждают, что Med-Gemini, основанные на модели Google Gemini, превосходят конкурирующие модели, такие как GPT-4 от OpenAI, обладают огромным потенциалом в клинической диагностике и превосходят отраслевые стандарты в 14 популярных профильных бенчмарках. В частности, в тесте MedQA (USMLE) модель Med-Gemini достигла точности 91,1 %, используя стратегию поиска, основанную на неопределённости, превзойдя медицинскую LLM Med-PaLM 2 компании Google на 4,5 %. Набор моделей также превзошёл людей в обобщении медицинских текстов и составлении рекомендаций, причём врачи в половине случаев оценивали ответы Med-Gemini-M 1.0 как хорошие или даже лучше, чем ответы экспертов.

Med-Gemini — это семейство больших мультимодальных моделей (LMM), каждая из которых имеет своё предназначение. В отличие от больших языковых моделей, которые «демонстрируют неоптимальные клинические рассуждения в условиях неопределённости», страдают галлюцинациями и предвзятостью, Med-Gemini дают «фактически более точные, надёжные и детальные результаты для сложных задач клинического обоснования», чем их конкуренты, включая GPT-4, утверждает Google.

По семи мультимодальным бенчмаркам, включая проверку по изображениям New England Journal of Medicine (NEJM), модель Med-Gemini показала гораздо лучшие результаты, чем GPT-4.

Чтобы проверить способность Med-Gemini понимать и рассуждать на основе длинной контекстной медицинской информации, исследователи с успехом выполнили с её помощью так называемую задачу поиска «иголки в стоге сена», используя большую общедоступную базу данных Medical Information Mart for Intensive Care (MIMIC-III), содержащую обезличенные данные о состоянии здоровья пациентов, поступивших в отделение интенсивной терапии.

Поддержка Med-Gemini эффективного поиска в базе данных электронных медицинских карт Electronic Health Record (EHR) позволит «значительно снизить когнитивную нагрузку и расширить возможности врачей за счёт эффективного извлечения и анализа важной информации из огромных объёмов данных пациентов», утверждает Google.

По словам исследователей, Med-Gemini также показывают хорошие результаты в медицинских тестах, медицинских знаниях, клинических рассуждениях, геномике, медицинской визуализации, медицинских записях и видео.

Вместе с тем Google заявила, что её модели нуждаются в большей доработке и специализации, прежде чем их можно будет использовать в здравоохранении.

Нейросеть Google Gemini 1.5 Pro обрела слух

С очередным обновлением большая языковая модель Google Gemini 1.5 Pro получила «уши»: в качестве входных данных она теперь воспринимает загружаемые аудиофайлы. Теперь ИИ может подготовить сводку пресс-конференции без её текстовой расшифровки. Новые функции добавились и в генератор изображений Imagen 2.

 Источник изображения: blog.google

Источник изображения: blog.google

В ходе мероприятия Google Next компания объявила, что Gemini 1.5 Pro станет доступной для общественности через облачную платформу Vertex AI для разработки приложений искусственного интеллекта. Сейчас большинство пользователей может работать с моделями Gemini через одноимённый чат-бот. Самая мощная из них, Gemini Ultra, доступна с платным чат-ботом Gemini Advanced — она поддерживает длинные запросы, но уступает Gemini 1.5 Pro в скорости работы.

Новые возможности также получил генератор изображений Imagen 2 — теперь он может добавлять элементы на готовые изображения или удалять их. На всех картинках, которые создаёт Imagen 2, теперь ставится цифровой водяной знак SynthID, который указывает на их происхождение при проверке специальным инструментом, но остаётся невидимым для человеческого глаза.

Google добавила, что изучает способы согласовывать ответы ИИ с выдачей поисковой системы, чтобы предоставляемая им информация была актуальной. Это не всегда возможно для больших языковых моделей, и иногда преднамеренно: компания, например, не позволяет Gemini отвечать на вопросы, связанные с выборами в США.

У некоторых пользователей «Google Сообщений» появился чат с Gemini

Google открыла для некоторых участников программы бета-тестирования доступ к чату с большой языковой моделью ИИ Gemini в приложении «Google Сообщения». Для работы с этой функцией пользователь и его устройство должны отвечать ряду требований.

 Источник изображения: blog.google

Источник изображения: blog.google

Участники программы тестирования могут переписываться с ИИ, который готов составлять для них тексты сообщений, обсуждать идеи, планировать мероприятия или просто общаться. Чтобы получить доступ к этой функции, необходимо не только быть участником программы бета-тестирования, но и выполнить ряд требований:

  • совместимый Android-телефон (Pixel 6 или более поздний, Pixel Fold, Samsung Galaxy S22 или более поздний, Samsung Galaxy Z Flip или Z Fold);
  • основной язык на телефоне — английский (или французский для жителей Канады);
  • последняя версия приложения «Google Сообщения»;
  • личный аккаунт Google без сторонних администраторов — семейных групп или Google Workspace;
  • возраст от 18 лет;
  • активная опция чатов RCS.

Пользователи, выбранные для тестирования Gemini, увидят соответствующий чат в списке сообщений или соответствующую опцию при нажатии на кнопку «Начать чат». При первом использовании этой функции приложение покажет инструкции с пояснениями, как она работает. Когда все настройки установлены, появляется возможность прямого общения с Gemini аналогично чату на сайте ИИ-помощника. Переписка с Gemini сохраняется в течение 72 часов, но есть возможность очистить её вручную или удалить отдельные запросы в соответствующем разделе настроек учётной записи.

Слухи о появлении нейросети Google Gemini в будущих iPhone привели к росту акций Alphabet и Apple

Сегодня информационное агентство Bloomberg сообщило, что Alphabet и Apple «ведут активные переговоры» об использовании некоторых функций искусственного интеллекта Google Gemini в следующем поколении iPhone, которое будет представлено в 2024 году. После этого сообщения акции Alphabet и Apple подорожали более чем на 7 % и 2 % соответственно.

 Источник изображения: Freepik

Источник изображения: Freepik

Генеральный директор Apple Тим Кук (Tim Cook) во время ежегодного собрания акционеров компании в феврале заявил, что Apple «инвестирует значительные средства» в искусственный интеллект. «Позже в этом году я с нетерпением жду возможности поделиться с вами тем, как мы откроем новые горизонты в области генеративного искусственного интеллекта, ещё одной технологии, которая, по нашему мнению, может переопределить будущее», — сказал Кук.

По данным источников Bloomberg, Apple также недавно провела переговоры с OpenAI, на которых рассмотрела возможность использования её моделей ИИ. Однако утверждается, что «обе стороны ещё не определились с условиями или брендом соглашения об ИИ, а также не определились с тем, как оно будет реализовано».

Следующее большое обновление Apple для iPhone, iOS 18, ожидается во время Всемирной конференции разработчиков. Именно тогда компания сможет больше рассказать о своих планах по внедрению генеративного искусственного интеллекта и последних новинках программного обеспечения для iPhone, которые потребители смогут увидеть осенью.

Другие информационные агентства не смогли независимо проверить сообщение Bloomberg. Apple отказалась от комментариев, Alphabet также не ответила на вопросы журналистов.

Сергей Брин: Google «определённо оплошала» с генератором изображений в Gemini

Выступая на мероприятии AGI House в минувшие выходные, соучредитель Google Сергей Брин (Sergey Brin) признал, что компания «определённо оплошала с генерацией изображений», сообщает Business Insider. Создаваемые Gemini исторически неточные изображения, по его мнению, могли возникнуть из-за недостаточно тщательного тестирования модели.

 Источник изображения: wikipedia.org

Источник изображения: wikipedia.org

Google ранее приостановила работу функции генератора изображений Gemini после того, как пользователи начали жаловаться на допускаемые искусственным интеллектом неточности, имеющие характер фальсификации истории в отношении расового неравенства. Чат-бот также подвергли критике за некоторые ответы в текстовом формате.

Брин прекратил работу в Google в 2019 году, но в описании Gemini он значится как один из основных разработчиков платформы. В начале 2023 года руководство Alphabet объявило в компании «красный код» из-за выхода ChatGPT — к работе были вынуждены вернуться Брин и другой соучредитель Google Ларри Пейдж (Larry Page). С тех пор Сергея неоднократно видели в штаб-квартире компании в Кремниевой долине — он принимал непосредственное участие в разработке стратегии Google в области ИИ. В AGI House Брин подтвердил, что «в некотором роде вернулся из отставки лишь потому, что траектория развития ИИ оказалась настолько захватывающей».

Некоторые критики Google преподнесли ошибки Gemini как последствия того, что сотрудники компании имеют одни и те же политические пристрастия, и это могло сказаться на качестве текстовых ответов чат-бота. Илон Маск (Elon Musk), в частности, заявил, что не смог добиться от Gemini чёткого ответа, кто хуже: он или Гитлер. В этой части Брин критику отверг. Он заявил, что любой основанный на ИИ чат-бот, включая ChatGPT или выпущенный тем же Маском Grok, с некоторой вероятностью выдаёт «весьма странные вещи», которые можно расценить как некоторые политические пристрастия. Но, по словам Брина, у разработчиков Gemini не было намерений закладывать ИИ какие-либо политические предпочтения.

Передовые ИИ-модели Google Gemini уже через год смогут работать на смартфонах локально

Google рассчитывает, что уже со следующего года её передовая большая языковая модель Gemini, выступающая конкурентом OpenAI GPT-4, сможет локально работать на мобильных устройствах.

 Источник изображения: blog.google

Источник изображения: blog.google

Сегодня на смартфонах Pixel и других совместимых Android-устройствах Google уже предлагает свою самую эффективную модель Gemini Nano. Вице-президент по управлению продуктами в подразделении Google Pixel Брайан Раковски (Brian Rakowski) заявил, что уже в следующем году непосредственно на смартфонах начнут развёртываться самые передовые большие языковые модели компании, которые пока работают через удалённые центры обработки данных.

«В облаке есть уменьшенные версии нашей модели Gemini. Было несколько прорывов в сжатии этих моделей для их запуска на устройстве. Некоторые из них уже зарекомендовали себя, а некоторые изучаются для определённых сценариев. У них уже есть удивительные [варианты] применения. Gemini Nano работает на уровне, которого наши онлайн-модели достигли менее года назад. С помощью этих небольших версий моделей на устройстве можно сделать многое. Если просто пойти по этому пути, некоторые из вещей, которые, как мы думали, нам придётся запускать из облака, будут на устройстве, что поражает, и они будут работать мгновенно без необходимости подключения или подписки», — цитирует CNBC господина Раковски.

Большие языковые модели — это модели искусственного интеллекта, способные воспринимать человеческий язык и генерировать высказывания. Сегодня флагманской моделью Google является Gemini Ultra с 1,56 трлн параметров. Для сравнения, у OpenAI GPT-4 1,76 трлн параметров.

Производители смартфонов интегрируют в устройства функции ИИ в надежде восстановить рухнувший спрос на гаджеты. В 2023 году были проданы 1,16 млрд единиц, и это самый низкий показатель поставок за десятилетие. Всплеск спроса на смартфоны наблюдался с 2010 по 2015 гг., когда рынок вырос в пять раз с 300 млн до 1,5 млрд устройств. Компании Humane, Rabbit и Meizu делают ставку на «смартфоны будущего» — устройства, которые не похожи на традиционные смартфоны. Они отличаются более компактными размерами и управляются при помощи голосовых команд как умные колонки.

Google рассказала о планах интегрировать Gemini в Android и о других нововведениях

Google рассказала о планах развернуть функции искусственного интеллекта Gemini в Android и Android Auto. Чат-бот Gemini появится в приложении «Сообщения», поможет водителям не отвлекаться во время езды; а сохранённые в Google Wallet документы станут доступными в Wear OS.

 Источник изображений: blog.google

Источник изображений: blog.google

В приложении «Google Сообщения» появится новый контакт — чат-бот Gemini, который поможет в переписке с другими людьми. Компания привела пример: пользователь обращается к ИИ за советом, как улучшить не особо смешную шутку — и тот, кажется, неплохо справляется. ИИ также снизит нагрузку на пользователей Android Auto, которым важнее следить за дорогой: Gemini готов предложить сводку сообщений при переписке и подходящие ответы, например, он сам может подсчитать, когда пользователь прибудет к месту назначения.

Приложение «Google Карты» покажет расширенную информацию об объектах вокруг — достаточно навести камеру на заведение, и система укажет часы его работы; а приложение Lookout для людей с ослабленным зрением, которое составляет текстовые описания изображений, заработает за пределами США, но пока только для англоязычных пользователей.

Прочие изменения не касаются интеграции ИИ. В Android-версии приложения «Google Документы» теперь можно оставлять рукописные пометки стилусом или пальцем в выбранном цвете. В некоторых случаях этот формат окажется более информативным, чем текстовые комментарии. Приложение Google Fitbit теперь поддерживает интеграцию с платформой Health Connect, разработанной совместно Google и Samsung. Готовится полезное нововведение и для стороннего приложения Spotify — в нём можно будет выбирать устройство вывода звука как в YouTube Music.

Наконец, Wear OS получит функции, которые присутствуют в Apple watchOS уже не один год: умным часам откроется доступ к документам, сохраненным в Google Wallet; кроме того, здесь скоро появится пошаговая навигация.

Google экстренно чинит генератор изображений в Gemini — он переборщил с расовой инклюзивностью

Google сообщила, что на время частично приостановила работу генератора изображений в чат-боте Gemini, когда выяснилось, что она допускает исторические неточности в изображении людей, связанные с расовыми вопросами. Так, при попытке изобразить американских отцов-основателей и солдат нацистской Германии она как будто ниспровергает гендерные и расовые стереотипы, что расценивают как попытку фальсификации истории.

 Такими Gemini представляет себе американских отцов-основателей. Источник изображения: Google

Такими Gemini представляет себе американских отцов-основателей. Источник изображения: Google

Компания приняла решение направить генератор изображений Gemini на доработку менее чем через сутки после поступления первых жалоб. Пользователи чат-бота запрашивали у искусственного интеллекта картинки с историческими группами или лицами и получали на выходе изображения, на которых в основном были представители рас, отличных от европеоидной. Это спровоцировало появление в интернете теорий заговора, что Google намеренно избегает показывать белых людей.

 Сенатор США в 19-м веке по мнению Gemini. Источник изображения: Google

Сенатор США в 19-м веке по мнению Gemini. Источник изображения: Google

К примеру, когда Gemini попросили создать изображение американского сенатора XIX века, ИИ предложил картинки чернокожих женщин и женщин коренных американских наций. В действительности женщина впервые стала сенатором в США лишь в 1922 году, и она была белой. Таким образом, генератор изображений Gemini стирал историю расовой и гендерной дискриминации.

Сейчас, когда Gemini просят создать изображение человека или нескольких, тот выводит сообщение следующего содержания: «Мы работаем над улучшением способности генерировать изображения людей. Ожидаем, что эта функция скоро вернётся, и мы сообщим об обновлении выпуска, когда это произойдёт». Генератор изображений появился в чат-боте Gemini (ранее Bard) в начале месяца как ответ на аналогичные продукты OpenAI и Microsoft Copilot — он создаёт картинки по текстовому запросу.

Google выпустила нейросеть Gemini 1.5 с огромнейшим контекстным окном — ИИ за раз осилит весь «Властелин колец»

Не прошло и двух месяцев с момента запуска передовой нейросети Gemini, а Google уже анонсировала её преемника. Сегодня была представлена большая языковая модель Gemini 1.5, которая сразу же стала доступна для разработчиков и корпоративных пользователей, а в скором времени начнется её распространение среди потребителей. Google ясно дала понять, что хочет использовать Gemini в качестве бизнес-инструмента, персонального помощника и не только.

В Gemini 1.5 много улучшений. Модель Gemini 1.5 Pro, которая ляжет в основу многих сервисов Google, превосходит Gemini 1.0 Pro на 87 % в тестах, и соответственно находится примерно на одном уровне с высококлассной Gemini 1.0 Ultra. При создании новой модели используется набирающий популярность подход «смесь экспертов» (Mixture of Experts — MoE), который подразумевает, что при отправке запроса запускается только часть общей модели, а не вся. Такой подход должен сделать модель более быстрой для пользователя и более эффективной для Google.

Но в Gemini 1.5 есть одна новая вещь, которая особенно радует всю компанию Google, начиная с генерального директора Сундара Пичаи (Sundar Pichai). Новая версия нейросети имеет огромное контекстное окно, что означает, что она может обрабатывать гораздо более объёмные запросы и просматривать гораздо больше информации одновременно. Размер окна составляет 1 миллион токенов, что намного больше 128 000 токенов у GPT-4 от OpenAI и 32 000 у текущей Gemini Pro. «Это примерно 10 или 11 часов видео, десятки тысяч строк кода», — отметил Пичаи. Ещё он добавил, что исследователи Google тестируют контекстное окно на 10 миллионов токенов — это, например, вся серия «Игры престолов» в одном запросе.

В качестве примера Пичаи говорит, что в это контекстное окно можно вместить всю трилогию «Властелин колец». Это кажется слишком специфичным, но, возможно, кто-то в Google проверит, не обнаружит ли Gemini ошибок в преемственности, пытается разобраться в сложной родословной Средиземья. Или ИИ, возможно, сможет понять Тома Бомбадила.

Пичаи также считает, что увеличенное контекстное окно будет очень полезно для бизнеса. «Это позволит вам использовать примеры, в которых вы можете добавить много личного контекста и информации в момент запроса, — говорит он. — Считайте, что мы значительно расширили окно запроса». Глава Google представляет себе, что кинематографисты могут загрузить весь свой фильм и спросить у Gemini, что скажут рецензенты, а компании смогут использовать Gemini для обработки массы финансовых документов. «Я считаю это одним из самых больших прорывов, которые мы совершили», — говорит он.

Пока что Gemini 1.5 будет доступна только для бизнес-пользователей и разработчиков через Google Vertex AI и AI Studio. Со временем она заменит Gemini 1.0, а стандартная версия Gemini Pro — та, что доступна всем на сайте gemini.google.com и в приложениях Google, — будет заменена на 1.5 Pro с контекстным окном на 128 000 токенов. Чтобы получить миллион, придется доплатить. Google также тестирует безопасность и этические границы модели, особенно в отношении нового увеличенного контекстного окна.

Сейчас Google находится в бешеной гонке за создание лучшего инструмента ИИ, в то время как компании по всему миру пытаются определить свою собственную стратегию ИИ и сотрудничать с OpenAI, Google или кем-то ещё. Буквально недавно OpenAI анонсировала «память» для ChatGPT и, похоже, готовится к выходу на рынок веб-поиска. Пока Gemini выглядит впечатляюще, особенно для тех, кто уже работает в экосистеме Google, компании предстоит еще много работы.

В конце концов, говорит Пичаи, все эти 1.0 и 1.5, Pro и Ultra, а также корпоративные битвы не будут иметь значения для пользователей. «Люди будут просто потреблять лучший пользовательский опыт, — говорит он. — Это как пользоваться смартфоном, не обращая внимания на процессор под крышкой». Но на данный момент, по его словам, мы всё еще находимся на стадии, когда каждый знает, какой чип находится внутри его телефона, потому что это имеет значение. «Базовые технологии меняются так быстро», — говорит глава Google. — Людям не все равно».

ИИ-бот Gemini стал доступен на iOS через приложение Google

Google активно расширяет присутствие основанного на искусственном интеллекте чат-бота Gemini, который пришёл на смену «Google Ассистенту» — соответствующее приложение появилось в ряде новых стран, а сам чат-бот теперь доступен в приложении Google для iOS, обратил внимание ресурс Android Authority.

 Источник изображения: androidauthority.com

Источник изображения: androidauthority.com

Для владельцев iPhone отдельного приложения Gemini нет, но теперь можно активировать чат-бот в верхней части основного приложения Google. С выбором нового ИИ-помощника меняется интерфейс всего приложения — внизу появляется крупное поле для ввода запросов. Чтобы задать запрос голосом, требуется нажать кнопку с изображением микрофона; отправка также производится нажатием отдельной кнопки. Ответы не озвучиваются в автоматическом режиме — для этого нужно коснуться значка с изображением динамика.

При взаимодействии с Gemini на iOS можно пользоваться текстом, голосом, отправлять изображения и открывать в приложении камеру. ИИ кратко излагает сложные темы, генерирует программный код, пишет тексты, например, благодарственные письма и письма электронной почты, создаёт изображения и многое другое. На iOS есть собственный помощник Siri, поэтому возможность вызвать Gemini на любом экране для получения контекстной помощи отсутствует — это есть только в Android.

По неподтверждённой пока информации, Apple также работает над новыми функциями ИИ для iPhone, и дебютировать они могут с выходом iOS 18.

Google по умолчанию собирается хранить переписку пользователей с Gemini три года

Google опубликовала на портале техподдержки разъяснение о пользовательских данных, которые собираются при взаимодействии с чат-ботом Gemini — это касается веб-интерфейса, а также переписки в приложениях для Android и iOS: по умолчанию она будет храниться три года.

 Источник изображения: Sascha Bosshard / unsplash.com

Источник изображения: Sascha Bosshard / unsplash.com

Компания отмечает, что создатели аннотаций для искусственного интеллекта регулярно читают, размечают и иным образом обрабатывают диалоги с Gemini для улучшения сервиса. Журналы переписки «отключены» от учётных записей Google, но не уточняется, кто именно читает их — собственные сотрудники компании или сторонние подрядчики. Диалоги хранятся на серверах до трёх лет вместе со «связанными данными»: языком переписки, устройством пользователя и его местоположением.

В разделе «Мои действия» настроек учётной записи Google есть страница с активной по умолчанию опцией, которая отключает сохранение переписки с Gemini — здесь же можно вручную удалить все запросы и команды, ранее отданные приложениям Gemini. Но в компании предупредили, что даже при отключении записи журналов переписка с чат-ботом будет сохраняться на сроки до 72 часов — это поможет «обеспечить безопасность приложений Gemini и улучшать приложения Gemini». Поэтому Google просит пользователей не вводить в переписке с ИИ конфиденциальные данные или любую другую информацию, которую они не хотели бы показывать сотрудникам сервиса или использовать для улучшения продуктов компании, а также её технологий машинного обучения.

Обработка конфиденциальных данных генеративным ИИ сегодня является проблемной областью. OpenAI в минувшем году пришлось по этому поводу объясняться с американскими и итальянскими властями. Amazon, Google, Microsoft и та же OpenAI предлагают основанные на ИИ сервисы для предприятий, и эти сервисы не предполагают продолжительного хранения данных. Отношения с потребителями, однако, выстраиваются по иным схемам.

Google запустила AI Studio — простой инструмент для разработки приложений и чат-ботов с ИИ

Представив на прошлой неделе семейство больших языковых моделей Gemini и внедрив их в чат-бот Bard, компания Google теперь предложила Gemini разработчикам сторонних приложений и сервисов. Компания запустила целый ряд новых и обновлённых сервисов, в том числе службу AI Studio, которая ранее была известна как MakerSuite.

 Источник изображения: pixabay.com

Источник изображения: pixabay.com

AI Studio — это веб-инструмент для разработчиков, который функционирует как шлюз в более широкую экосистему Gemini, начиная с продвинутой нейросети Gemini Pro и заканчивая самой мощной Gemini Ultra, выход которого намечен на следующий год. С помощью этого сервиса разработчики могут быстро создавать подсказки и чат-боты на базе Gemini, а затем получать API-ключи для использования их в своих приложениях, или доступ к коду, чтобы работать над ним в более полнофункциональной IDE.

Важно отметить, что существует относительно щедрая бесплатная квота на использование нейросети — до 60 запросов в секунду. Этого должно быть достаточно для быстрой итерации идей без обременительных ограничений и, возможно, даже достаточно для работы с некоторыми не слишком крупными приложениями.

Тем не менее, за скорость всё же придётся «платить»: для разработчиков, использующих бесплатную подписку (а это на текущий момент практически всё, поскольку Google планирует запустить платную версию только одновременно с запуском модели Gemini Ultra), рецензенты Google смогут контролировать входные и выходные данные API и веб-приложения, чтобы «улучшить качество продукта». Google при этом гарантирует, что эти данные не будут сопоставляться с аккаунтом Google и ключами API конкретного пользователя.

По сравнению с предыдущей версией MakerSuite, обновлённый софт выглядит более «навороченным». Среди прочего, в нём появится поддержка Gemini Pro и модели Gemini Pro Vision. Это позволит разработчикам работать как с текстом, так и с изображениями (хотя и не создавать их). «Мы хотим пригласить разработчиков протестировать новый инструмент, — сообщил Джош Вудворт (Josh Woodward), вице-президент Google Labs. — Это первая версия, и у нас много доработок, которые мы уже сейчас делаем для будущих обновлений, но мы стараемся разработать её таким образом, чтобы люди могли просто войти и начать создавать с её помощью».

Используя веб-интерфейс, разработчики могут выбирать модели, чтобы контролировать творческий диапазон ответов ИИ, и приводить примеры, чтобы дать указания боту по тону и стилю. Также можно настроить параметры безопасности модели. Вудворд также отметил, что команда постаралась разработать AI Studio таким образом, чтобы даже бесплатный уровень не был похож на пробный или закрытый продукт. И действительно, если ограничения по скорости бесплатного уровня достаточны для их использования, разработчики могут сразу же начать публиковать свои приложения AI Studio или использовать их через API или SDK Google.

Жанин Бэнкс (Jeanine Banks), вице-президент и генеральный директор Google Developer X и глава отдела по работе с разработчиками, также подчеркнула, что AI Studio — это вход в более широкую экосистему ИИ Google и, в частности, в Vertex AI, корпоративную платформу Google для разработчиков генеративного ИИ.

«[Мы предлагаем] идею "развиваться вместе с Google", когда вы можете войти, создать что-то, запустить, развернуть, позволить людям использовать это и иметь щедрый бесплатный уровень. Но затем мы также поставляем целый набор SDK, которые позволяют разработчикам запускать и создавать приложения на Gemini Pro, которые могут работать практически везде, от бэкенда с поддержкой Node.js и Python, до мобильных устройств с поддержкой Java, Kotlin и Swift, и до веба, конечно же, с JavaScript», — объяснила она. Говоря об экосистеме в целом, Бэнкс также пояснил, что в начале следующего года Google планирует внедрить Gemini в Chrome Dev Tools и мобильную платформу разработки Google Firebase.

Учитывая скорость развития генеративного ИИ, сложно даже предсказать, для чего разработчики захотят использовать эти инструменты в дальнейшем, но Бэнкс и Вудворд подчеркнули, что Google планирует создать AI Studio как лёгкую ступеньку для разработчиков всех уровней подготовки.

Google всех обманула: видео о возможностях мощной нейросети Gemini оказалось подделкой

Google представила свою самую мощную модель искусственного интеллекта Gemini всего два дня назад, и компанию уже успели обвинить в фальсификации информации о ней. Как выяснилось, разработчик отредактировал демонстрационное видео Gemini и тем самым ввёл общественность в заблуждение относительно скорости её работы и даже возможностей.

 Источник изображения: blog.google

Источник изображения: blog.google

Google опубликовала шестиминутное видео, демонстрирующее всесторонние способности Gemini: ИИ неплохо справляется с распознаванием объектов, причём отслеживает динамику их внешнего вида и даже рассуждает. Но есть один нюанс. В описании видео присутствует фраза: «В целях этой демонстрации задержка была уменьшена, а ответы Gemini — сокращены».

Как выяснилось, у этого нюанса серьёзные последствия. В реальности, пояснил представитель Google, Gemini обрабатывала текстовые запросы, которые впоследствии были отдельно озвучены, и распознавала неподвижные изображения. И это в корне отличается от сценария, который подразумевается демонстрационным видео: у зрителя формируется впечатление, что он может вести непринуждённый диалог с Gemini, а ИИ способен наблюдать за объектами в реальном времени и реагировать на перемены в них.

Но в Google с такой версией изложения фактов не согласились и отвергли обвинения в фальсификации данных. Вице-президент по исследованиям и глубокому обучению подразделения DeepMind Ориол Виньялс (Oriol Vinyals) пояснил: «Все пользовательские запросы и ответы в видео настоящие, урезанные для краткости. Видео демонстрирует, как может выглядеть многорежимный пользовательский интерфейс, созданный с помощью Gemini. Мы сделали это, чтобы вдохновить разработчиков».

Google представила свой самый быстрый ИИ-ускоритель — Cloud v5p

Сегодня Google объявила о запуске новой большой языковой модели Gemini. Вместе с ней компания представила свой новый ИИ-ускоритель Cloud TPU v5e (Tensor processing unit — тензорный процессор). Кластер на базе новых TPU состоит из 8960 чипов v5p и оснащён самым быстрым интерконнектом Google — скорость передачи данных может достигать 4800 Гбит/с на чип.

 Источник изображений: Google

Источник изображений: Google

Cloud TPU v5e оснащён 95 Гбайт памяти HBM3 с пропускной способностью 2765 Гбайт/с. Производительность в целочисленных операциях INT8 составляет 918 TOPS (триллионов операций в секунду), тогда как производительность в вычислениях на числах с плавающей запятой BF16 составляет 459 Тфлопс.

 Источник изображения: Google

Google утверждает, что новые чипы значительно быстрее, чем образец предыдущего поколения TPU v4. Новый Cloud TPU v5p предложит двукратное увеличение производительности в операциях с плавающей запятой (FLOPS) и трёхкратное увеличение объёма памяти с высокой пропускной способностью.

По словам Google, новые ускорители TPU v5p способны обучать большие языковые модели, например GPT-3 со 175 млрд параметров, в 2,8 раза быстрее, чем TPU v4, и при этом с меньшими затратами энергии. Более того, благодаря второму поколению SparseCore, TPU v5p может обучать embedding-dense модели в 1,9 раза быстрее, чем TPU v4. Помимо повышения производительности, TPU v5p обеспечивает вдвое более высокий уровень масштабируемости, чем TPU v4, что в сочетании с удвоением производительности обеспечивает в четыре раза больше Флопс на кластер.

Что интересно, по производительности на доллар v5p слегка проигрывает представленным недавно ускорителям TPU v5e. Однако последние можно собирать в кластеры лишь до 256 чипов, а один чип обеспечит лишь 197 Тфлопс в BF16 против 275 Тфлопс у TPU v4 и 459 Тфлопс у TPU v5p.

 Источник изображения: Google

«На ранней стадии использования Google DeepMind и Google Research демонстрировали двукратное ускорение рабочих нагрузок по обучению LLM на основе чипов TPU v5p по сравнению с производительностью, снятой с чипов текущего поколения TPU v4, – пишет Джефф Дин (Jeff Dean), главный научный сотрудник Google DeepMind и Google Research. – Широкая поддержка ML-фреймворков, таких как JAX, PyTorch, TensorFlow, и инструментов оркестровки позволят нам ещё эффективнее масштабироваться, используя чипы v5p. Благодаря второму поколению SparseCore мы также видим значительное улучшение производительности рабочих нагрузок при выполнении встраиваний. TPU жизненно важны для обеспечения наших самых масштабных исследований и инженерных работ на передовых моделях, таких как Gemini».

Google добавила в Pixel 8 Pro локальную нейросеть Gemini Nano — в будущем она станет частью Android и будет доступна всем

Сегодня Google представила Gemini, «самую функциональную и гибкую модель искусственного интеллекта, которую компания когда-либо создавала». Gemini Nano — это работающая локально версия новой большой языковой модели Google, предназначенная для того, чтобы сделать устройство умнее и быстрее без необходимости подключения к интернету. С сегодняшнего дня она работает на Pixel 8 Pro, который также получил ряд других ИИ-функций.

 Источник изображения: unsplash.com

Источник изображения: unsplash.com

В зависимости от объёма используемых данных, существует три варианта Gemini — Ultra, Pro и Nano, каждый из которых оптимизирован для работы на соответствующих устройствах — от центров обработки данных до смартфонов. Pixel 8 Pro использует возможности чипа Google Tensor G3 для предоставления расширенных ИИ-функций, таких как создание выжимок из записей звука в приложении диктофона, интеллектуальные подсказки ответов в клавиатуре Gboard. В дальнейшем Google планирует использовать Bard на базе Gemini в качестве помощника на всех новых Pixel, и расширит функциональность ИИ-модели.

На данный момент процессор Google Tensor 3, похоже, единственный, который способен работать с этой моделью ИИ. Но Google также работает над тем, чтобы встроить Gemini Nano в Android в целом: компания запустила новый системный сервис под названием AICore, который разработчики могут использовать для внедрения функций Gemini в свои приложения. Последние пару лет Google говорила о своих телефонах Pixel как об устройствах с ИИ. Благодаря чипам Tensor и взаимодействию со всеми сервисами Google они со временем должны становиться лучше и умнее. С Gemini Nano это может в конечном итоге стать реальностью для многих высококлассных Android-устройств.

Помимо генеративных моделей ИИ, устройства Pixel используют и другие инструменты на основе ИИ. Эти новые функции и другие обновления для повышения производительности и настройки начнут распространяться сегодня на смартфонах, планшетах и умных часах Pixel.

Gemini Nano теперь поддерживает функцию Summarize («Подведение итогов») в приложении Recorder на Pixel 8 Pro. Пользователю даже без подключения к Сети будет доступна сводка записанных разговоров, интервью, презентаций и многого другого. Также приложение Recorder научилось расшифровывать данные на 28 новых языках.

Pixel 8 Pro при помощи Gemini Nano предложит функцию Smart Reply («Интеллектуальный ответ») в Gboard, пока только в предварительной версии для разработчиков. Модель ИИ, встроенная в устройство, пока работает только в WhatsApp, предлагая высококачественные ответы для диалога. В следующем году поддержка Smart Reply расширится.

Используя возможности Google Tensor G3, функция Video Boost на Pixel 8 Pro загружает видео для обработки в облако, где оптимизируется цвет, освещение, стабилизация и зернистость.

Функция Night Sight позволяет снимать на Pixel 8 и Pixel 8 Pro яркие и детализированные замедленные видеоролики при слабом освещении.

Функция Photo Unblur разработана специально для получения качественных изображений домашних питомцев.

Функция Pixel Clean поможет удалить пятна и складки с отсканированных документов.

Google Ассистент на телефонах Pixel Fold, Pixel 6 и новее теперь предлагает варианты контекстных ответов прямо на экране вызова. Экран вызовов теперь также доступен на Pixel Watch, это поможет игнорировать нежелательные вызовы.

В Pixel Watch появилась новая функция, которая упрощает разблокировку телефона. Теперь Pixel Watch может разблокировать телефон Pixel, если владелец находится поблизости. Функция Google AI Clear Calling поможет снизить фоновый шум и улучшить качество голоса во время видеозвонков на Pixel Tablet. А Repair Mode («Режим восстановления») обеспечит душевное спокойствие, помогая защитить и сохранить личные данные, когда устройство находится в сервисе.

window-new
Soft
Hard
Тренды 🔥
Слухи: новую Doom анонсируют менее чем через месяц 21 мин.
MaxPatrol EDR получил сертификат соответствия ФСТЭК России 2 ч.
The Rogue Prince of Persia получила новую дату выхода, а разработчики подготовились к неожиданному релизу Hollow Knight: Silksong 2 ч.
Военная стратегия Men of War II потребует постоянное подключение к интернету, но у разработчиков есть план 4 ч.
ЕС обвинил Microsoft в монополизме из-за приложения Teams 6 ч.
Инсайдер обнадёжил фанатов перед презентацией Dragon Age: Dreadwolf — в BioWare «все очень довольны игрой» 7 ч.
Игроки добились снижения цены Hades II в польском Steam — разработчики даже вернули покупателям разницу 7 ч.
«Хорошего мало»: Steam-версию Helldivers 2 сняли с продажи в 180 странах из-за Sony, а не Valve 9 ч.
Достойное развитие серии, но всё могло быть лучше: критики вынесли вердикт ранней версии Homeworld 3 23 ч.
Суд оштрафовал Microsoft на $242 млн за кражу технологии при создании Cortana 12-05 18:50