реклама
Программное обеспечение

Очная ставка: сравнительное тестирование диалоговых ИИ-моделей YandexGPT и GigaChat

⇣ Содержание

Наш интерес к отечественным генеративным ИИ-моделям YandexGPT и GigaChat обусловлен несколькими факторами. Во-первых, на данный момент это два крупнейших проекта в сфере искусственного интеллекта на российском рынке, которые стартовали примерно в одно и то же время, активно развиваются и совершенствуются разработчиками. Во-вторых, по сравнению с зарубежными решениями они не испытывают трудностей с русским языком и по ряду характеристик не уступают иностранным аналогам. И наконец, YandexGPT и GigaChat доступны широкой аудитории в различных вариантах без ограничений — этим мы и воспользовались для сравнительного тестирования продуктов.

По данным поиска «Яндекса», с начала 2022 года интерес аудитории Рунета к нейросетям вырос более чем в пятнадцать раз (источник изображения: сервис «Нейростат», ya.ru/ai/stat)

#Технические аспекты

Для начала — немного справочной информации о том, что представляет собой каждая из рассматриваемых в обзоре ИИ-моделей.

YandexGPT. Нейросеть семейства Generative Pretrained Transformer (GPT) от компании «Яндекс». Впервые была выпущена в мае 2023 года в составе виртуального ассистента «Алиса» и впоследствии нашла применение во многих сервисах «Яндекса». Обучение YandexGPT производилось в два этапа. Сначала были использованы общедоступные тексты — материалы книг, сайтов, статей, отобранные с помощью поисковых технологий «Яндекса». Затем нейросеть была дообучена на сотнях тысяч примеров содержательных и хорошо написанных ответов, для сбора и подготовки которых компания «Яндекс» задействовала технологии краудсорсинга и команду ИИ-тренеров.

В настоящий момент представлено третье поколение YandexGPT. По заверениям разработчиков, новая генеративная нейросеть лучше обрабатывает инструкции с несколькими условиями, корректнее работает с фактами, даёт более точные и полные ответы, допускает меньше стилистических ошибок и по качеству работы в некоторых случаях превосходит зарубежные модели Llama-2 70B и ChatGPT-3.5 Turbo. Помимо «Алисы», YandexGPT интегрирована в поиск и мобильные приложения «Яндекса», в «Яндекс Браузер», «Яндекс Станцию» и прочие продукты компании. Для обучения нейросети используются суперкомпьютеры «Яндекса».

GigaChat. Разработка «Сбера», анонс которой состоялся в апреле 2023 года. Архитектура GigaChat основана на нейросетевом ансамбле NeONKA (NEural Omnimodal Network with Knowledge-Awareness), включающем различные ИИ-модели, в числе которых — RuGPT-3 для работы с текстами и Kandinsky 3.1 для генерации изображений. Взаимодействовать с GigaChat можно посредством браузера, а также ботов в мессенджере Telegram и социальной сети «ВКонтакте». Кроме того, сервис доступен в умных устройствах «Сбера» и мобильном приложении «Салют» на Android.

В развитии GigaChat и доработках положенных в его основу моделей задействованы команды SberDevices и Sber AI при поддержке Института искусственного интеллекта AIRI и ряда отраслевых экспертов, привлечённых для передачи GigaChat различных предметных знаний, настройки сервиса на корректное исполнение инструкций и точность. Обучение ИИ-моделей осуществляется на суперкомпьютере Christofari Neo.

#Сравнительные тесты

Для оценочных испытаний моделей YandexGPT и GigaChat нами были использованы построенные на их основе веб-сервисы a.ya.ru («Алиса») и developers.sber.ru/portal/products/gigachat. В каждом из перечисленных ниже сценариев применялся одинаковый запрос для разных сервисов, результат обработки которого оценивался по пятибалльной шкале с учётом критериев достоверности, полноты, точности и актуальности генерируемых искусственным интеллектом данных и соблюдения этических норм.

Работа в режиме «вопрос-ответ». Сильной стороной современных генеративных нейронных сетей является внушительная база знаний, позволяющая им ориентироваться в любых сферах человеческой деятельности и за считаные секунды находить ответ практически на любой вопрос. YandexGPT с GigaChat не стали исключением из правил и на наши контрольные вопросы «Какова протяжённость Байкало-Амурской магистрали?», «Где производили самолёт Ту-144?» ответили без ошибок. При этом сервис «Сбера» выдал развёрнутые ответы, а «Алиса» ограничилась скупыми фразами.

 Здесь и далее для просмотра полноразмерных изображений кликните мышью

Здесь и далее для просмотра полноразмерных изображений кликните мышью

С эрудицией у отечественных ИИ-разработок тоже порядок: обе сумели вжиться в роль знатоков интеллектуальной телевизионной игры «Что? Где? Когда?» и дали правильный ответ на взятый нами наугад вопрос, который был задан телезрителем в одном из эфиров передачи. Вопрос звучал так: «В одном чёрном ящике находится нечто прекрасное и живое, другом — нечто прекрасное, но мёртвое. Мёртвое, которое заменяло это живое в домах голландцев XVII века. Что в чёрных ящиках?» О том, что речь идёт о живых цветах и натюрморте, догадались оба сервиса, при этом GigaChat выдал более подробный ответ.

А вот с каверзными вопросами вроде «Почему Пушкин не любил смотреть телевизор?» и «Какой модели был смартфон у Льва Толстого?» не всё вышло так гладко. GigaChat сориентировался во временных рамках, обнаружил нестыковки, включил логику и ответил верно. «Алиса» же правильно ответила только на второй вопрос и не заметила подвоха в первом.

Итоговые оценки: YandexGPT — 4 балла, GigaChat — 5 баллов.

Генерация развёрнутых ответов. Данный сценарий, как правило, актуален в обстоятельствах, связанных с решением бытовых проблем и повседневных задач, которые требуют подробных инструкций и пояснений по принципу «здесь и сейчас». Это могут быть случаи, связанные с устранением сбоев Windows, удалением вирусов с компьютера, самостоятельным ремонтом внезапно переставшей работать техники, приготовлением блюд из имеющихся на руках продуктов и прочими жизненными ситуациями. Мы смоделировали одну из них и попросили искусственный интеллект помочь с устранением критической ошибки Windows Kernel Power. Оба сервиса справились с заданием, однако «Алиса», как обычно, оказалась скупа на слова, а GigaChat, напротив, выдал наиболее подробную инструкцию с перечислением возможных причин возникновения ошибки и предупреждением о важности создания резервных копий данных.

Итоговые оценки: YandexGPT — 4 балла, GigaChat — 5 баллов.

Генерация текстов. Ещё один часто используемый сценарий при работе с интеллектуальными чат-ботами, электронный разум которых способен выдавать на-гора тексты всевозможной тематической направленности, будь то сочинения, стихотворения, сказки, поздравления, статьи, деловые письма, курсовые работы, сценарии для мероприятий, резюме для приёма на работу и многое другое, что может взбрести в голову.

Вот так «Алиса» и GigaChat отреагировали на предложение придумать текст про отечественный автомобиль Lada Vesta для рекламного проспекта:

А так откликнулись на просьбу сочинить оригинальное поздравление с днём рождения:

В целом неплохо, но отчётливо видно, что полёт фантазии у ИИ-сервисов находится примерно на одном уровне, и в данной тестовой дисциплине у них явный паритет.

Итоговые оценки: YandexGPT — 5 баллов, GigaChat — 5 баллов.

Краткий пересказ содержимого веб-страниц. Анализировать и конспектировать размещённые в глобальной сети объёмные текстовые материалы умеет только сервис «Яндекса» — чат-бот «Сбера» честно признался, что лишён подключения к интернету и умеет работать только с загружаемыми вручную текстовыми данными, а также с документами форматов TXT (объёмом до 200 кбайт) и PDF (до 4 Мбайт). По части взаимодействия с сетевыми ресурсами в режиме онлайн GigaChat вчистую проигрывает конкуренту.

Итоговые оценки: YandexGPT — 5 баллов, GigaChat — 1 балл.

Перевод текстов. С переводом англоязычных документов на русский язык ни у «Алисы», ни у GigaChat проблем не возникло. Однако использование других направлений перевода показало полную несостоятельность сервиса «Яндекса»: выяснилось, что его знаний хватает только для перевода отдельных слов и небольших фраз. Это довольно странно, так как в активе компании имеется построенная на базе YandexGPT система автоматического перевода, знающая сотню языков и способная дать фору конкурирующим решениям. Возможно, в будущем в «Алису» интегрируют полноценный переводчик. Пока же преимущество на стороне GigaChat, способного переводить тексты в любых направлениях.

Итоговые оценки: YandexGPT — 2 балла, GigaChat — 5 баллов.

Решение математических уравнений. Если с переводом текстов на иностранные языки перевес сил был на стороне чат-бота GigaChat, то с решением алгебраических и прочих уравнений дело обстоит ровно наоборот. В нашем случае нейросеть «Алисы» в два счёта разобрала на составляющие уравнение x3–3x–2=0 и привела развёрнутое решение с точным ответом. Сервис «Сбера» тоже попытался блеснуть интеллектом, сгенерировал огромную «простыню» с математическими выкладками и умозаключениями, но правильного ответа на задачу уровня 10 класса так и не нашёл. Бывает.

Итоговые оценки: YandexGPT — 5 баллов, GigaChat — 1 балл.

Создание изображений по текстовому описанию. Функция, ставшая своеобразным стандартом де-факто в индустрии генеративного искусственного интеллекта. В GigaChat благодаря интеграции чат-бота с нейросетью Kandinsky она действительно работает и генерирует пусть далёкие от совершенства, но всё же соответствующие запросу пользователя картинки. YandexGPT такого делать не умеет, и в этом нет ничего удивительного: данная ИИ-модель «заточена» на работу с текстами, а для рисования в арсенале «Яндекса» предусмотрена отдельная нейросеть Yandex AI Rendering Technology (YandexART), которая интегрирована в «Шедеврум» и прочие сервисы компании, за исключением — увы! — «Алисы». Возможно, в будущем разработчики «Яндекса» привьют своему виртуальному ассистенту навыки рисования, пока же в данной дисциплине лидирует чат-бот «Сбера».

Итоговые оценки: YandexGPT — 1 балл, GigaChat — 4 балла.

Работа с актуальными сведениями. Номер один в этой категории — безоговорочно, ИИ-сервис «Алиса». Будучи подключённым к ресурсам глобальной сети, он умеет работать с новостными источниками (выбираются отдельно в настройках чат-бота), информировать о курсе валют и стоимости ценных бумаг, получать сведения о прогнозе погоды, стоимости тех или иных товаров в онлайн-маркете «Яндекса» и многое другое. GigaChat лишён доступа к интернету и оперировать актуальными данными не может.

Итоговые оценки: YandexGPT — 5 баллов, GigaChat — 1 балл.

Беседа с пользователем. Оба сервиса — и YandexGPT, и GigaChat — могут выступать в качестве виртуальных собеседников для душевных разговоров за чашкой чая. Достаточно отправить любому из чат-ботов фразу «Давай поболтаем» — и он автоматически подключится к беседе на отвлечённые темы. Поддерживаются диалоги с учётом контекста предыдущих сообщений и возможность задавать уточняющие вопросы по ходу разговора — это позволяет общаться с искусственным интеллектом, как с человеком, который следит за нитью разговора. В нашем случае GigaChat был более открыт, разговорчив и общителен, а «Алиса», как обычно, отвечала короткими и сухими фразами и не располагала к общению.

Итоговые оценки: YandexGPT — 4 балла, GigaChat — 5 баллов.

#Подводим итоги

Средний результат у нас получился следующим: YandexGPT в тестовых дисциплинах набрал 3,8 балла, GigaChat — 3,6 балла. Налицо паритет двух ИИ-сервисов — в чём-то схожих по концепции и реализованным функциональным возможностям, в чём-то кардинальным образом разнящихся друг с другом.

Сильными сторонами разработки «Яндекса» является умение черпать свежую информацию из сетевых источников, генерировать чёткие и выверенные ответы на запросы пользователя. В то же время «Алиса» зачастую немногословна, откровенно слаба в знании иностранных языков и уж никак не может претендовать на лавры маститого художника (точнее — художницы). Сервис «Сбера», в свою очередь, привлекателен своим творческим началом и привычкой докапываться до сути вещей — он общителен, даёт исчерпывающие ответы на вопросы и неплохо рисует. Однако склонен к так называемым галлюцинациям с убедительными, но полностью выдуманными ответами, что отчётливо проявляется при решении GigaChat математических задач.

Как бы то ни было, оба продукта находятся в начале пути своего развития. И нет никаких сомнений в том, что в ближайшем будущем YandexGPT и GigaChat ждут новые высоты, возможности и широкие перспективы, ключевую роль в реализации которых сыграет конкуренция, являющаяся двигателем прогресса в любой сфере, в том числе в области искусственного интеллекта.

 
 
⇣ Содержание
Если Вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
⇣ Комментарии
Прежде чем оставить комментарий, пожалуйста, ознакомьтесь с правилами комментирования. Оставляя комментарий, вы подтверждаете ваше согласие с данными правилами и осознаете возможную ответственность за их нарушение.
Все комментарии премодерируются.
Комментарии загружаются...
window-new
Soft
Hard
Тренды 🔥
Что, если: вместо Baldur's Gate 3 от Larian могла выйти крупнобюджетная Fallout 3 ч.
Fallout: London на запуске останется без поддержки Fallout 4 для Epic Games Store, зато к озвучке мода присоединился реальный британский политик 4 ч.
Календарь релизов — 15–21 июля: Norland, Dungeonborne и Nobody Wants to Die 5 ч.
Королевская почта Великобритании выпустит официальный набор марок в честь 50-летия Dungeons & Dragons 7 ч.
Microsoft «откупилась» от антимонопольного расследования Евросоюза, заключив сделку с CISPE в обход AWS и Google Cloud 8 ч.
ВТБ потратит на импортозамещение ПО 90 млрд рублей 9 ч.
В «МойОфис» встроили ИИ-ассистента GigaChat для облегчения работы с документами 11 ч.
Биткоин вырос до двухнедельного максимума после покушения на Трампа 12 ч.
Создатели ретрофутуристического триллера The Invincible по роману «Непобедимый» впервые раскрыли продажи игры 12 ч.
Художник 2K «слил» журналистам скриншот из BioShock 4 13 ч.