Сегодня 23 апреля 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Найден новый способ заставить ИИ говорить на запрещённые темы — нужно просто измотать его вопросами

Разработчики современных систем искусственного интеллекта накладывают на них ограничения, запрещая давать ответы на отступающие от традиционных этических норм вопросы. Существует множество способов обойти эти ограничения, и очередной такой способ открыли исследователи из компании Anthropic — измотать ИИ вопросами.

 Источник изображения: Gerd Altmann / pixabay.com

Источник изображения: Gerd Altmann / pixabay.com

Учёные назвали новый тип атаки «многоимпульсным взломом» (many-shot jailbreaking) — они подробно описали его в статье и предупредили коллег о выявленной уязвимости, чтобы последствия атаки можно было смягчить. Уязвимость возникла из-за того, что у больших языковых моделей последнего поколения увеличилось контекстное окно — объём данных, который они могут хранить в том, что заменяет им кратковременную память. Раньше этот объём данных ограничивался несколькими предложениями, а сейчас он вмещает тысячи слов и даже целые книги.

Исследователи Anthropic обнаружили, что модели с большими контекстными окнами, как правило, лучше справляются с задачами, если в запросе содержатся несколько примеров решения подобных задач. Другими словами, чем больше в запросе простых вопросов, тем выше качество ответа. И если первый вопрос ИИ понимает неправильно, то с сотым ошибки уже не будет. Но в результате такого «контекстного обучения» большая языковая модель начинает «лучше» отвечать на недопустимые вопросы. Так, если просто спросить её, как собрать бомбу, она откажется отвечать. Но если перед этим задать модели 99 менее опасных вопросов, а затем снова спросить, как собрать бомбу, вероятность получить недопустимый ответ вырастет.

 Источник изображения: anthropic.com

Источник изображения: anthropic.com

Трудно сказать наверняка, почему эта атака срабатывает. В действительности никто не знает, что творится в сложной системе весов, которую представляет собой большая языковая модель, но, видимо, существует некий механизм, который помогает ей сосредоточиться на том, что нужно пользователю — понять это помогает содержимое контекстного окна. И когда он говорит о том, что можно принять за мелочи, после упоминания в нескольких десятках вопросов они перестают быть мелочами.

Авторы работы из Anthropic проинформировали коллег и конкурентов о результатах исследования — они считают, что раскрытие информации подобного рода должно войти в отраслевую практику, и в результате «сформируется культура, в которой эксплойты вроде этого будут открыто распространяться среди разработчиков больших языковых моделей и исследователей». Наиболее очевидный способ смягчить последствия атаки — сократить контекстное окно модели, но это снизит качество её работы.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме
Прежде чем оставить комментарий, пожалуйста, ознакомьтесь с правилами комментирования. Оставляя комментарий, вы подтверждаете ваше согласие с данными правилами и осознаете возможную ответственность за их нарушение.
Все комментарии премодерируются.
Комментарии загружаются...
window-new
Soft
Hard
Тренды 🔥
Исследование раскрыло траты российских игроков в начале 2024 года — Helldivers 2, Baldur’s Gate 3 и Warhammer 40,000: Rogue Trader в лидерах 2 ч.
Площадка Nexus Mods столкнулась с аномально высоким трафиком из-за сериала Fallout — 6,3 Пбайт модов за одни выходные 3 ч.
В ЕС начали расследование из-за приложения TikTok Lite — оно может вызвать привыкание 3 ч.
iOS-версия приложения Likee исчезло из российского App Store 12 ч.
Сюжетный роглайк «Бессмертный. Сказки Старой Руси» в духе Slay the Spire получил новый геймплейный трейлер 14 ч.
«Вы меня извините, но выглядит это безобразно»: первый трейлер душевной игры о жизни хоббитов Tales of the Shire отпугнул фанатов «Властелина колец» 16 ч.
Вышла новая версия Kaspersky Security для почтовых серверов с продвинутой фильтрацией контента и визуализацией событий 18 ч.
Пользователи Windows 10 скоро столкнутся с назойливыми призывами завести онлайн-аккаунт 19 ч.
Перевод Kingdom Come: Deliverance 2 на русский язык оказался под вопросом 21 ч.
Японский регулятор обвинил Google в нечестной конкуренции с Yahoo Japan 21 ч.
Китай уже опередил Запад на зарождающемся рынке воздушных такси и наращивает преимущество 2 мин.
В Корее разработали натриево-ионный аккумулятор со скоростью зарядки в несколько секунд 15 мин.
Samsung откроет в Кремниевой долине лабораторию по созданию ИИ-чипов на базе RISC-V, чтобы побороться с NVIDIA 16 мин.
MaxLinear повысит производительность и эффективность СХД Dell PowerMax 18 мин.
Бывший вице-президент Meta по инфраструктуре присоединился к ЦОД-подразделению Microsoft 19 мин.
iBase выпустила индустриальную плату MI1000 формата Mini-ITX для чипов Intel Raptor Lake-S Refresh 35 мин.
Китай продолжает получать подсанкционные ускорители Nvidia, но окольными путями и в составе серверов 2 ч.
HONOR Magic6 RSR Porsche Design: элитарная версия флагмана 3 ч.
В этом году Xiaomi рассчитывает выпустить 100 000 электромобилей SU7 4 ч.
На востоке Тайваня была зарегистрирована новая серия сильных подземных толчков 6 ч.