реклама
Новости Software

ChatGPT научился понимать голосовые команды и работать с изображениями

OpenAI расширила варианты взаимодействия с ChatGPT. Новая версия чат-бота теперь принимает в качестве промтов (подсказок) не только текст, но также изображения и голосовые команды. Для коммерческих пользователей новые возможности станут доступны в ближайшие две недели, а остальным придётся какое-то время подождать.

 Источник изображения: The Verge

Источник изображения: The Verge

Общение голосом с ChatGPT в чём-то похоже на разговор с любым голосовым помощником, но, по утверждению OpenAI, качество ответов значительно выше благодаря улучшенной базовой технологии. Пользователь нажимает кнопку и произносит вопрос, ChatGPT преобразует его в текст и передаёт в большую языковую модель, получает ответ, преобразует его обратно в речь и произносит ответ вслух.

Новые возможности ChatGPT опираются на большую языковую модель Whisper, которая выполняет значительную часть работы по преобразованию речи в текст и обратно. По утверждению OpenAI, новая модель может генерировать «человеческий голос из текста и образца речи длиной в несколько секунд». Пока доступно пять вариантов голоса ChatGPT, но OpenAI видит в этой модели гораздо больший потенциал.

Возможность создать синтезированный голос любого человека, опираясь всего на несколько секунд его речи, даёт широкое поле деятельности для киберпреступников, признаёт OpenAI в анонсе новых функций: «Это новые риски, такие как возможность злоумышленников выдать себя за общественных деятелей или совершить мошенничество». По утверждению компании, модель недоступна для широкого использования именно по этой причине: OpenAI планирует ограничить модель конкретными вариантами использования и партнёрскими соглашениями.

Что касается запроса в ChatGPT при помощи изображения, пользователю достаточно сфотографировать или нарисовать предмет своего интереса и отправить боту. В процессе общения можно применять текстовые или голосовые подсказки, чтобы уточнить запрос или ограничить область поиска.

Очевидно, что использование изображений в качестве подсказки для чат-бота также имеет свои потенциальные проблемы. В первую очередь это касается запроса о личности человека на фотографии, хотя OpenAI заявляет, что ограничила «способность ChatGPT анализировать и делать прямые заявления о людях» как по соображениям точности, так и по соображениям конфиденциальности.

Спустя почти год после первого запуска ChatGPT OpenAI продолжает расширять границы применения и использования своего чат-бота, пытаясь избежать связанных с ним проблем и недоработок. В частности, компания намеренно ограничивает возможности своих новых ИИ-моделей. Но такой подход не будет работать вечно. По мере того, как все больше людей используют голосовое управление и поиск изображений, а ChatGPT становится мультимодальным и полезным виртуальным помощником, удерживать ИИ в рамках будет все труднее и труднее.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме
window-new
Soft
Hard
Тренды 🔥
Новая статья: Верные спутники: 20+ полезных Telegram-ботов для путешественников 4 ч.
Итоги Golden Joystick Awards 2024 — Final Fantasy VII Rebirth и Helldivers 2 забрали больше всех наград, а Black Myth: Wukong стала игрой года 6 ч.
В программу сохранения классических игр от GOG вошли S.T.A.L.K.E.R. Shadow of Chernobyl и Call of Pripyat, а Clear Sky — на подходе 7 ч.
Star Wars Outlaws вышла в Steam с крупным обновлением и дополнением про Лэндо Калриссиана 8 ч.
Рекордная скидка и PvP-режим Versus обернулись для Warhammer: Vermintide 2 полумиллионом новых игроков за неделю 9 ч.
Новый трейлер раскрыл дату выхода Mandragora — метроидвании с элементами Dark Souls и нелинейной историей от соавтора Vampire: The Masquerade — Bloodlines 10 ч.
В Японии порекомендовали добавить в завещания свои логины и пароли 12 ч.
Обновления Windows 11 больше не будут перезагружать ПК, но обычных пользователей это не касается 12 ч.
VK похвасталась успехами «VK Видео» на фоне замедления YouTube 14 ч.
GTA наоборот: полицейская песочница The Precinct с «дозой нуара 80-х» не выйдет в 2024 году 16 ч.
Nvidia предупредила о возможном дефиците игровых решений в четвёртом квартале 29 мин.
Представлен внешний SSD SanDisk Extreme на 8 Тбайт за $800 и скоростной SanDisk Extreme PRO с USB4 5 ч.
Представлен безбуферный SSD WD_Black SN7100 со скоростью до 7250 Мбайт/с и внешний SSD WD_Black C50 для Xbox 5 ч.
Новая статья: Обзор ноутбука ASUS Zenbook S 16 (UM5606W): Ryzen AI в естественной среде 6 ч.
Redmi показала флагманский смартфон K80 Pro и объявила дату его премьеры 8 ч.
Астрономы впервые сфотографировали умирающую звезду за пределами нашей галактики — она выглядит не так, как ожидалось 11 ч.
Представлена технология охлаждения чипов светом — секретная и только по предварительной записи 11 ч.
Японская Hokkaido Electric Power намерена перезапустить ядерный реактор для удовлетворения потребности ЦОД в энергии 11 ч.
Грузовик «Прогресс МС-29» улетел к МКС с новогодними подарками и мандаринами для космонавтов 12 ч.
Meta планирует построить за $5 млрд кампус ЦОД в Луизиане 12 ч.