Современные ИИ-модели демонстрируют впечатляющие способности в обработке естественного языка и генерации текста. Однако, по словам главного специалиста по ИИ компании Meta✴ Янна Лекуна (Yann LeCun), они пока не обладают способностями к памяти, мышлению, планированию и рассуждению, как это свойственно человеку. Они всего лишь имитируют эти навыки. По мнению учёного, для преодоления этого барьера потребуется не менее 10 лет и разработка нового подхода — «моделей мира».
Ранее в этом году OpenAI представила новую функцию для ИИ-чат-бота ChatGPT под названием «память», которая позволяет ИИ «запоминать» предыдущее общение с пользователем. В дополнение к этому, компания выпустила новое поколение ИИ-моделей GPT-4o, которое выводит на экран слово «думаю» при генерации ответов. При этом OpenAI утверждает, что её новинки способны на сложное рассуждение. Однако, по мнению Лекуна, они лишь создают иллюзию сложных когнитивных процессов — реальное понимание мира у этих ИИ-систем пока отсутствует.
Хотя такие нововведения могут выглядеть как значительный шаг на пути к созданию ИИ общего назначения (Artificial General Intelligence, AGI), Лекун оппонирует оптимистам в этой области. В своём недавнем выступлении на Hudson Forum он отметил, что чрезмерный оптимизм Илона Маска (Elon Musk) и Шейна Легга (Shane Legg), сооснователя Google DeepMind, может быть преждевременным. По мнению Лекуна, до создания ИИ уровня человека могут пройти не годы, а десятилетия, несмотря на оптимистичные прогнозы о его скором появлении.
Лекун подчёркивает, что для создания ИИ, способного понимать окружающий мир, машины должны не только запоминать информацию, но и обладать интуицией, здравым смыслом, способностью планировать и рассуждать. «Сегодняшние ИИ-системы, несмотря на заявления самых страстных энтузиастов, не способны ни на одно из этих действий», — отметил Лекун.
Причина этому проста: большие языковые модели (LLM) работают, предсказывая следующий токен (обычно это несколько букв или короткое слово), а современные ИИ-модели для изображений и видео предсказывают следующий пиксель. Иными словами, LLM являются одномерными предсказателями, а модели для изображений и видео — двумерными предсказателями. Эти модели добились больших успехов в предсказаниях в своих измерениях, но они по-настоящему не понимают трёхмерный мир, доступный человеку.
Из-за этого современные ИИ не могут выполнять простые задачи, которые под силу большинству людей. Лекун сравнивает возможности ИИ с тем, как обучаются люди: к 10 годам ребёнок способен убирать за собой, а к 17 — научиться водить автомобиль. Оба этих навыка усваиваются за считаные часы или дни. В то же время, даже самые продвинутые ИИ-системы, обученные на тысячах или миллионах часов данных, пока не способны надёжно выполнять такие простые действия в физическом мире. Чтобы решить эту проблему, Лекун предлагает разрабатывать модели мира — ментальные модели того, как ведёт себя мир, которые смогут воспринимать окружающий мир и предсказывать изменения в трёхмерном пространстве.
Такие модели, по его словам, представляют собой новый тип архитектуры ИИ. Вы можете представить последовательность действий, и ваша модель мира позволит предсказать, какое влияние эта последовательность окажет на мир. Отчасти преимущество такого подхода заключается в том, что модели мира могут обрабатывать значительно больше данных, чем LLM. Это, конечно же, делает их вычислительно ёмкими, поэтому облачные провайдеры спешат сотрудничать с компаниями, работающими в сфере ИИ.
Модели мира — это масштабная концепция, за которой в настоящее время охотятся несколько исследовательских лабораторий, и этот термин быстро становится новым модным словом для привлечения венчурного капитала. Группа признанных исследователей ИИ, включая Фэй-Фэй Ли (Fei-Fei Li) и Джастина Джонсона (Justin Johnson), недавно привлекла $230 млн для своего стартапа World Labs. «Крёстная мать ИИ» и её команда также уверены, что модели мира позволят создать значительно более умные ИИ-системы. OpenAI также называет свой ещё не вышедший видеогенератор Sora моделью мира, но не раскрывает подробностей.
Лекун представил идею использования моделей мира для создания ИИ уровня человека в своей работе 2022 года, посвящённой объектно-ориентированному или целеориентированному ИИ, хотя отмечает, что сама концепция насчитывает более 60 лет. Вкратце, в модель мира загружаются базовые представления об окружающей среде (например, видео с изображением неубранной комнаты) и память. На основе этих данных модель предсказывает, каким будет состояние окружающего мира. Затем ей задаются конкретные цели, включая желаемое состояние (например, чистая комната), а также устанавливаются ограничения, чтобы исключить потенциальный вред для человека при достижении цели (например, «убираясь в комнате, не навреди человеку»). После этого модель мира находит оптимальную последовательность действий для выполнения поставленных задач.
Модели мира представляют собой многообещающую концепцию, но, по словам Лекуна, значительного прогресса в их реализации пока не достигнуто. Существует множество крайне сложных задач, которые нужно решить, чтобы продвинуться от текущего состояния ИИ, и по его мнению, всё гораздо сложнее, чем кажется на первый взгляд.