Две недели назад американская компания Figure AI отказалась от сотрудничества с OpenAI, и вчера продемонстрировала способность своих человекоподобных роботов понимать команды на естественном языке, обрабатываемые VLA-моделью Helix.

Источник изображений: Figure AI
VLA-модель представляет собой комбинацию системы машинного зрения и большой языковой модели, позволяющую обучать роботов различным операциям по комбинации зрительных образов и языковых команд. На практике это приводит к тому, что обучаемые роботы могут по команде манипулировать предметами, которые они ранее никогда не видели. Получая голосовую команду в естественной форме, робот начинает визуально анализировать окружение и потом выполняет поставленную задачу с учётом результатов анализа обстановки.

Модель Helix позволяет роботам Figure работать в паре и взаимодействовать друг с другом при выполнении бытовых операций. Подразумевается, что в быту роботы могут работать парами, помогая друг другу и повышая производительность труда. Figure демонстрирует возможности своих роботов 02 в типичном бытовом интерьере, который традиционно считается очень сложной для роботов средой. Производителям гораздо проще создавать роботов, которые будут работать в более контролируемом и предсказуемом промышленном окружении. Соответственно, появление на рынке «дееспособных» домашних человекоподобных роботов считается более отдалённой перспективой.
Обучение роботов выполнению бытовых операций требует существенных затрат на разработку программного обеспечения или тысяч экспериментов. Запрограммировать их вручную в данном случае не представляется возможным, а потому единственным способом создать помогающих в быту роботов является их самообучение. В домашней среде слишком много переменных, с которыми роботам предстоит столкнуться, поэтому совершенствование профильного ПО потребует существенных затрат времени.
Источник: