реклама
Теги → kosmos-1

Microsoft представила Kosmos-1 — ИИ, который понимает текст с картинками и решает головоломки

Microsoft представила мультимодальную ИИ-модель Kosmos-1, способную анализировать содержание изображений, решать графические головоломки, распознавать текст, проходить визуальные тесты на IQ и понимать команды на естественном языке. Учёные считают, что создание мультимодального ИИ, способного работать в текстовом, аудио- и графическом режимах (включая видео), — ключевой шаг на пути формирования «общего искусственного интеллекта» (AGI), готового справляться с многопрофильными задачами не хуже людей.

 Источник изображения: 0fjd125gk87/pixabay.com

Источник изображения: 0fjd125gk87 / pixabay.com

По мнению исследователей, мультимодальное восприятие является необходимым элементом для создания AGI в контексте получения знаний и связи с реальным миром. Подробности концепции изложены в работе Language Is Not All You Need: Aligning Perception with Language Models, посвящённой структуре нового искусственного интеллекта. В работе рассказывается о том, как Kosmos-1 анализирует изображения и отвечает на вопросы о них, читает текст с изображения, пишет подписи к иллюстрациям и проходит визуальный тест на IQ.

 Источник изображения: Microsoft

Источник изображения: Microsoft

Считается, что создание «общего искусственного интеллекта» позволит полностью заменить людей при выполнении любых интеллектуальных задач — именно это является конечной целью OpenAI, ключевого партнёра Microsoft в сфере ИИ. Впрочем, Kosmos-1, похоже, является проектом исключительно Microsoft. Исследователи называют свою работу «мультимодальной большой языковой моделью» (MLLM). Для понимания изображения по аналогии с ChatGPT новая система преобразует иллюстрацию в серию преимущественно текстовых «токенов», которые анализируются вычислительной машиной. В дальнейшем текст и другие элементы обрабатываются специальным декодером.

 Источник изображения: Microsoft

Источник изображения: Microsoft

Известно, что Microsoft тренировала Kosmos-1, используя информацию из глобальной сети. После обучения возможности системы были проверены с помощью серии тестов, включающих оценку понимания языка, генерации текстов, классификации текстов без оптического распознавания символов. Проверялась возможность описания изображений, ответов на «визуальные» вопросы и выполнения других задач. Сообщается, что во многих тестах Kosmos-1 превосходит лучшие из существующих ИИ-моделей.

 Источник изображения: Microsoft

Источник изображения: Microsoft

Наибольший интерес представляет способность модели пройти тест британского психолога Джона К. Рейвена (John C. Raven), позволяющего измерить IQ, демонстрируя испытуемому последовательность форм с предложением продолжить её. Правда, пока Kosmos-1 может пройти тест Рейвена с точностью только 22‒26 %.

 Источник изображения: Microsoft

Источник изображения: Microsoft

В настоящий момент модель делает только первые шаги в сфере мультимодальной обработки данных, но нетрудно предположить, что дальнейшие улучшения позволят добиться намного более впечатляющих результатов, позволяя ИИ взаимодействовать с любыми формами информации, что невероятно расширит возможности цифровых ассистентов. В будущем учёные обещают масштабировать модель и добавить ей возможность вести беседы.

В Microsoft сообщили, что планируют сделать Kosmos-1 доступным сторонним разработчикам.

window-new
Soft
Hard
Тренды 🔥
Создатели Black Myth: Wukong удивят игроков до конца года — тизер от главы Game Science 36 мин.
Акции Nvidia больше не самые доходные — MicroStrategy взлетела на 500 % за год благодаря биткоину 2 ч.
Заждались: продажи S.T.A.L.K.E.R. 2: Heart of Chornobyl за два дня после релиза превысили миллион копий 2 ч.
YouTube добавил в Shorts функцию Dream Screen — ИИ-генератор фонов для роликов 4 ч.
ПК с ИИ снижают производительность труда пользователей — люди не умеют правильно общаться с ИИ 5 ч.
Разработчики Path of Exile 2 раскрыли, чего ждать от раннего доступа — геймплей, подробности и предзаказ в российском Steam 6 ч.
Приключение Hela про храброго мышонка в открытом мире получит кооператив на четверых — геймплейный трейлер новой игры от экс-разработчиков Unravel 7 ч.
OpenAI случайно удалила потенциальные улики по иску об авторских правах 8 ч.
Скрытые возможности Microsoft Bing Wallpaper напугали пользователей 9 ч.
В WhatsApp появилась расшифровка голосовых сообщений — она бесплатна и поддерживает русский язык 10 ч.
TSMC начнёт выпускать 1,6-нм чипы через два года 3 ч.
Представлен 80-долларовый смартфон Tecno Pop 9 — с Helio G50 и батареей на 5000 мА·ч 3 ч.
Magssory Fold 3 в 1 — компактная и функциональная беспроводная зарядная станция для Apple, Samsung и не только 6 ч.
Nokia подписала пятилетнее соглашение о поддержке ЦОД Microsoft Azure с миграцией с 100GbE на 400GbE 6 ч.
Давно упавший на Землю кусочек Марса пролил свет на историю воды на Красной планете 6 ч.
TeamGroup представила SSD T-Force GA Pro на чипе InnoGrit — PCIe 5.0, до 2 Тбайт и до 10 000 Мбайт/с 6 ч.
Провалился крупнейший проект по производству электромобильных батарей в Европе — Northvolt объявила о банкротстве 7 ч.
В Зеленограде начнут выпускать чипы для SIM-карт и паспортов — на этом планируется заработать триллионы рублей 7 ч.
Смартфоны Poco X6 Pro 5G, M6 Pro и C75 предлагают современный дизайн и продвинутые характеристики 8 ч.
В России стартовали продажи полностью беспроводных наушников Tecno True 1 Air, Buds 4 и Buds 4 Air 8 ч.