реклама
Новости Software

ИИ превзошёл учёных в генерации инновационных исследовательских идей

Большие языковые модели (LLM) оказались способны генерировать новые научно-исследовательские идеи на уровне экспертов. Более того, согласно новому исследованию, эти идеи оказались более оригинальными и интересными, чем предложенные специалистами. Это ставит под вопрос уникальность человеческого интеллекта в сфере научных инноваций и открывает новые горизонты для развития ИИ в научном сообществе.

 Источник изображения: NickyPe / Pixabay

Источник изображения: NickyPe / Pixabay

Достижения в области больших языковых моделей вызвали волну энтузиазма среди исследователей. Оказалось, что такие ИИ-модели, как ChatGPT компании OpenAI и Claude компании Anthropic, способны самостоятельно генерировать и подтверждать новые научные гипотезы. Считалось, что создание нового знания и совершение научных открытий являются исключительной прерогативой человека, в отличие от механического комбинирования ИИ знаний из обучающих данных. Однако, уже потеснив людей в сферах художественного самовыражения, музыки и программирования, теперь ИИ замахнулся на науку, показав способность генерировать исследовательские идеи — в среднем более новые, чем предлагали учёные.

Чтобы проверить эту гипотезу, было проведено исследование в области обработки естественного языка (NLP). NLP — это область ИИ, которая занимается коммуникацией между людьми и ИИ на языке, понятном обеим сторонам. Она охватывает не только базовый синтаксис, но и нюансы языка, понимание контекста, а в последнее время — даже вербальный тон и эмоциональные оттенки речи. В исследовании приняли участие 100 экспертов по NLP (кандидаты наук и доктора из 36 различных институтов), которые вступили в своеобразное научное соревнование с «идейными агентами» на основе LLM. Целью было выяснить, чьи исследовательские идеи окажутся более оригинальными, интересными и осуществимыми.

Для чистоты эксперимента 49 экспертов сформулировали идеи по 7 конкретным темам в области NLP, в то время как ИИ, специально обученный исследователями, генерировал идеи по тем же темам. Чтобы мотивировать участников «мозгового штурма» на создание качественных идей, за каждую предложенную экспертами концепцию выплачивалось $300, а каждая из пяти лучших человеческих идей получала дополнительную $1000. По завершении работы над проектом LLM использовался для стандартизации стилей написания каждой работы с сохранением оригинального содержания, чтобы уравнять шансы и сделать исследование максимально непредвзятым.

 Сравнение новизны научных идей, предложенных людьми и ИИ, по трём условиям: идеи людей, идеи ИИ и идеи ИИ с доработкой человеком. Источник изображения: @ChengleiSi / X

Сравнение новизны научных идей, предложенных людьми и ИИ, по трём условиям: идеи людей, идеи ИИ и идеи ИИ с доработкой человеком. Источник изображения: @ChengleiSi / X

Затем все присланные работы были рассмотрены 79 привлечёнными экспертами, которые вслепую оценили все исследовательские идеи. Группа экспертов представила 298 рецензий, дав каждой идее от двух до четырёх независимых отзывов. Результаты оказались поразительными. Идеи, сгенерированные ИИ, получили статистически значимо более высокие оценки по критериям новизны и увлекательности по сравнению с идеями людей. При этом по критерию осуществимости идеи ИИ оказались немного ниже, а по эффективности — немного выше, чем идеи людей, хотя эти различия не были статистически значимыми.

Исследование также выявило некоторые недостатки в работе ИИ, такие как отсутствие разнообразия идей. Даже при чётком указании не повторяться, ИИ быстро про это забывал. Кроме того, ИИ не смог последовательно проверять и оценивать идеи и получал низкие баллы за согласие с человеческими суждениями. Важно отметить, что исследование также выявило определённые ограничения в методологии. В частности, оценка «оригинальности» идеи, даже группой экспертов, остаётся субъективной, поэтому планируется провести более комплексное исследование, в котором идеи, генерируемые как ИИ, так и людьми, будут полностью оформлены в проекты, что позволит более глубоко изучить их влияние в реальных сценариях. Тем не менее, первые результаты исследования, безусловно, впечатляют.

 Сравнение оценок научных идей, предложенных людьми и ИИ, по пяти ключевым критериям: новизна, увлекательность, осуществимость, эффективность и общая оценка. Источник изображения: @ChengleiSi / X

Сравнение оценок научных идей, предложенных людьми и ИИ, по пяти ключевым критериям: новизна, увлекательность, осуществимость, эффективность и общая оценка. Источник изображения: @ChengleiSi / X

Сегодня, когда ИИ-модели, хотя и становятся невероятно мощными инструментами, они всё ещё грешат своей ненадёжностью и склонностью к «галлюцинациям», что в контексте научного подхода, требующего абсолютной точности и достоверности информации, становится критическим. По некоторым оценкам, не менее 10 % научных работ в настоящее время пишутся в соавторстве с ИИ. С другой стороны, не стоит недооценивать потенциал ИИ для ускорения прогресса в некоторых областях человеческой деятельности. Ярким примером тому может служить система GNoME компании DeepMind, которая за несколько месяцев совершила прорыв, эквивалентный примерно 800 годам исследований в области материаловедения, и сгенерировала структуру около 380 000 новых неорганических кристаллов, способных сделать революцию в самых разных сферах.

Сейчас ИИ — это самая быстро развивающаяся технология, которую когда-либо видело человечество, и поэтому разумно ожидать, что многие её недостатки будут исправлены в течение ближайших пары лет. Многие исследователи ИИ считают, что человечество приближается к рождению всеобщего сверхинтеллекта — точки, в которой ИИ общего назначения превзойдёт экспертные знания людей практически во всех областях. Способность ИИ генерировать более оригинальные и захватывающие идеи, чем учёные, может привести к переосмыслению процесса научного открытия и роли в нём человека.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме
window-new
Soft
Hard
Тренды 🔥
Инвесторы потребовали от Ubisoft пересмотреть условия сделки с Tencent и готовы добиваться своего через суд 32 мин.
Microsoft запустила собственный ИИ-поисковик Copilot Search 60 мин.
Спустя почти пять лет после дебюта на консолях The Last of Us Part II наконец вышла на ПК 2 ч.
ЕС оштрафует TikTok на €500 млн за передачу данных европейцев в Китай 3 ч.
40 кадров/с и «местами даже хорошая» графика за $70: первые подробности Cyberpunk 2077 для Nintendo Switch 2 4 ч.
Представлена ранняя ПК-версия российской ОС «Аврора» — на ней уже запускается Telegram и не только 4 ч.
«РТК ИТ Плюс» пополнила ИТ-экосистему «Лукоморье» тремя новыми продуктами 5 ч.
Microsoft подтвердила дату выхода GTA V в PC Game Pass — подписчики получат доступ к GTA V Enhanced 5 ч.
Новый контент в Elden Ring: Tarnished Edition для Nintendo Switch 2 появится и на других платформах 6 ч.
Лавкрафтианский хоррор Stygian: Outer Gods готовится к старту открытой «беты» — новый геймплейный трейлер 7 ч.
Большой адронный коллайдер собрал базу для выхода за пределы известной физики 3 ч.
Восьмиядерные CPU стали самыми популярными в мире по статистике CPU-Z — AMD стремительно отбирает рынок у Intel и Nvidia 3 ч.
Apple потеряла $250 млрд стоимости за день — пошлины Трампа обвалили акции техногигантов 5 ч.
Nintendo Switch 2 получила поддержку трассировки лучей и DLSS, но их появление в играх зависит от разработчиков 5 ч.
Nikon представила полнокадровую камеру Z5 II с улучшенным автофокусом и повышенной скоростью съёмки за $1700 5 ч.
«Акустическое совершенство»: Bang & Olufsen представила каменную колонку Beosound Balance Natura 5 ч.
У россиян вырос интерес к планшетам — продажи подскочили на 15 % в первом квартале 6 ч.
Samsung выпустила 20-метровые телевизоры для кинотеатров Onyx 7 ч.
Intel переосмыслила свой главный слоган и обновила фирменный стиль, чтобы вернуть пользователей 7 ч.
Google готовится к аренде серверов на базе ускорителей NVIDIA у CoreWeave 8 ч.