Гуманоидный робот Eve показал, что научился выполнять длинные последовательности голосовых команд

04.06.2024 [19:10], Сергей Сурабекянц

Робототехническая компания 1X (бывшая Halodi Robotics) продемонстрировала, как её колёсный сервисный робот Eve во время уборки помещения выполняет длинную последовательность заданий, озвученных на естественном языке. Компания была основана в 2014 году с целью разработки универсальных роботов для совместной работы с людьми. В 2022 году 1X заключила партнёрское соглашение с OpenAI, «чтобы объединить робототехнику и ИИ и заложить основу для воплощённого обучения».

Источник изображения: 1X

В настоящее время 1X сосредоточена на обучении роботов на рабочем месте, чтобы они могли «понимать как естественный язык, так и физическое пространство, и выполнять реальные задачи на вашем рабочем месте и в вашем мире». 1X разработала интерфейс управления роботами, использующий естественный язык. Оператор может одновременно управлять несколькими гуманоидными роботами при помощи последовательностей голосовых команд.

Ещё в марте компания сообщила, что ей удалось разработать автономную модель, которая позволяет добавить большое количество задач в одну поведенческую модель ИИ, например, извлечение покупок из сумки с их дальнейшей сортировкой и размещением в соответствующих местах для хранения. При этом наблюдалось снижение качества выполнения других задач, что удалось преодолеть, увеличив количество параметров и затратив больше времени на обучение.

«Управление роботами с помощью этого высокоуровневого языкового интерфейса предлагает новый пользовательский опыт для сбора данных, — сообщает компания в своём блоге. — Вместо того, чтобы использовать VR для управления одним роботом, оператор может управлять несколькими роботами с помощью высокоуровневого языка. Поскольку высокоуровневые команды не требуется отдавать часто, операторы могут даже управлять роботами удалённо».

По словам компании, голосовой интерфейс на естественном языке позволяет операторам «связывать возможности краткосрочного горизонта между несколькими небольшими моделями в более длинные». Эти однозадачные модели затем могут быть объединены по мере продвижения разработки к единой модели с конечной целью автоматизации высокоуровневых действий с использованием ИИ.

1X утверждает, что роботы Eve на представленном видео не управляются дистанционно, все их действия контролируются нейронной сетью. В видео отсутствует компьютерная графика, «монтаж, ускорение видео или воспроизведение траектории по сценарию».

В дальнейшем компания планирует интегрировать в свою систему управления такие большие языковые модели, как GPT-4o, VILA и Gemini Vision.

Технология EarCommand позволит беззвучно отдавать команды гаджетам, проговаривая их про себя

14.10.2022 [10:19], Руслан Авдеев

Хотя управлять устройствами с помощью голосовых команд довольно удобно, громкие отчётливые фразы могут беспокоить окружающих. Система EarCommand, разработанная учёными из университета штата Нью-Йорк, позволяет «считывать» команды, проговариваемые пользователем про себя, причём для этого не потребуется считывать мозговую активность.

Источник изображения: Caley Vanular/unsplash.com

В норме голосовые команды могут быть услышаны другими, их распознаванию гаджетами может помешать окружающий шум, кроме того, устройствам может быть сложно отличать один голос от другого, что приведёт к ошибкам в работе.

Технология EarCommand, разрабатываемая командой исследователей из Университета штата Нью-Йорк в Буффало, основана на том, что даже проговаривание каких-либо слов про себя сопровождается активностью мышц и некоторым смещением костей, в результате чего по-разному деформируется ушной канал. Другими словами, разные «шаблоны» деформаций характерны для определённых слов.

Аппаратная составляющая EarCommand включает похожее на наушник устройство, транслирующее близкие к ультразвуку сигналы в ушной канал. Отражающиеся от внутренней поверхности канала сигналы принимаются внутренним микрофоном наушника, а связанный с устройством компьютер анализирует эти эхо, используя специальный алгоритм для того, чтобы оценить деформацию канала и определить, какое слово произнесено.

В проводимых экспериментах пользователи проговаривали 32 команды длиной в одно слово и 25 команд, состоящих из целых предложений. На уровне слов доля ошибок составила 10,2 %, а на уровне предложений — 12,3 %. Ожидается, что по мере развития технологии уровень ошибок будет снижаться. Кроме того, аппаратура работает даже тогда, когда пользователь носит маску или находится в шумном окружении и, в отличие от некоторых систем, считывающих произносимые про себя слова, для использования технологии не требуется камера.

Примечательно, что похожая технология EarHealth тестируется коллегами из того же университета в медицинских целях — аналогичные сигналы и считывание эха от них используются для выявления проблем со слухом, например — диагностики повреждённых барабанных перепонок или отита, который является весьма распространённым заболеванием.

← В прошлое

выдано Федеральной Службой по надзору за соблюдением законодательства в сфере массовых коммуникаций и охране культурного наследия

При цитировании документа ссылка на сайт с указанием автора обязательна. Полное заимствование документа является нарушением
российского и международного законодательства и возможно только с согласия редакции 3DNews. kz