Сегодня 04 сентября 2025

18+

О сайте Реклама Рассылка Контакты

обман

Теги → обман

Быстрый переход

05:17 05.07.2025 В Китае набрали популярность «обманки» для автопилота Tesla, которые позволяют не держаться за руль
08:54 21.06.2025 Для достижения своих целей продвинутые модели ИИ будут хитрить, обманывать и воровать
20:09 14.03.2025 Anthropic научилась выявлять враньё и сокрытие истинных целей ИИ — при помощи ИИ
15:28 16.01.2024 У ИИ обнаружили удивительные способности к обману человека

← В прошлое

В Китае набрали популярность «обманки» для автопилота Tesla, которые позволяют не держаться за руль

05.07.2025 [05:17], Алексей Разин

В своё время компания Tesla приложила немало усилий, чтобы заставить халатных водителей держаться за руль во время работы фирменной системы автопилота, которая технически ещё не готова отказаться от участия человека в процессе управления. В Китае получили распространение устройства, которые позволяют обмануть бортовые системы Tesla, позволяя водителю не держаться за руль.

Обзор смартфона HONOR 400: реаниматор

HUAWEI Pura 80 Ultra глазами фотографа

Обзор ноутбука Acer Swift Go 14 (SFG14-63-R7T4) с процессором Ryzen 9 8945HS и OLED-экраном

Обзор рейтингового режима Warface: просто освоиться, сложно оторваться

Пять причин полюбить HONOR 400

Обзор смартфона HUAWEI Pura 80 Ultra: зум, которому нет равных

Источник изображения: CarNewsChina

Алгоритмы программного обеспечения Tesla постепенно были настроены таким образом, что не держащегося за руль водителя система постоянно уведомляла о необходимости сделать это надписями и звуками, и если сидящий за рулём человек их игнорировал, машина должна была замедлиться до полной остановки и включить аварийную сигнализацию, а в идеале ещё и прижаться к обочине. Уже тогда «умельцы» начали засовывать между спицами рулевого колеса различные предметы, которые создавали ассиметричное утяжеление для датчиков, контролирующих сопротивление его вращению. На первых порах удержание руля автоматика Tesla контролировала именно так, но злоупотребления дошли до того, что блогеры начали вешать на руль «обманку» и перебираться в едущей машине на заднее сидение. Ряд производителей автомобильных аксессуаров наладил было выпуск грузов для руля серийно, но их продажу в итоге запретили. Позже Tesla стала больше полагаться на видео с бортовой камеры, обращённой внутрь салона, контролируя позу и жесты водителя. В таких условиях обходиться только показаниями датчиков электроусилителя руля уже было не нужно, но этот канал контроля сохранил свою значимость.

Как отмечает издание NBD, на китайском рынке, где прогресс систем активной помощи водителю движется семимильными шагами, без особых проблем на популярных торговых площадках можно приобрести специальные электронные устройства, которые вводят в заблуждение систему Autopilot на электромобилях Tesla относительно удержания рулевого колеса водителем. Они представляют собой шлейфы с разъёмами и крохотной печатной платой, подключаемые в разрыв определённых кабелей под приборной панелью электромобиля Tesla. Установка такого устройства достаточно проста и не требует ни специальных навыков, ни сложного инструмента.

В итоге за $140 владелец электромобиля Tesla получает устройство, которое внушает бортовым системам мысль, что водитель постоянно держится за руль, хотя фактически он может этого не делать. Строго говоря, китайские законы пока не разрешают водителям длительное время не держаться за рулевое колесо, но подобные злоупотребления достаточно распространены. Tesla осуждает применение подобных устройств и лишает установивших их автовладельцев фирменной гарантии, а также предупреждает об опасных последствиях. Известен один случай, когда решившийся на такую модификацию владелец электромобиля Tesla в Китае за две недели дважды столкнулся с перебоями в работе бортовых систем, причём в последнем машина просто не смогла передвигаться. Когда её доставили в сервис, то за восстановление работоспособности сотрудники Tesla запросили $560.

Впрочем, для китайских владельцев электромобилей Tesla есть и хорошая новость. Недавно компания заявила, что начинает плановое распространение функции FSD на территории страны. Как и в случае с другими рынками, к которым относятся США, Канада, Мексика и Пуэрто-Рико, к названию FSD добавлено слово «Supervised», что подразумевает постоянный контроль за управлением со стороны человека.

Для достижения своих целей продвинутые модели ИИ будут хитрить, обманывать и воровать

21.06.2025 [08:54], Сергей Сурабекянц

Anthropic опубликовала результаты своего исследования поведения больших языковых моделей (LLM). Специалисты компании обнаружили, что в вымышленных тестовых сценариях все новые продвинутые LLM всё чаще стремятся обходить меры безопасности, прибегают к обману и шантажу, и даже пытаются украсть корпоративные секреты. Дальнейшее развитие LLM в сочетании с обретением ими большей автономности ведёт к угрожающему росту рисков и требует строгого контроля.

Пять причин полюбить HONOR 400

Обзор ноутбука Acer Swift Go 14 (SFG14-63-R7T4) с процессором Ryzen 9 8945HS и OLED-экраном

Обзор смартфона HUAWEI Pura 80 Ultra: зум, которому нет равных

Обзор смартфона HONOR 400: реаниматор

HUAWEI Pura 80 Ultra глазами фотографа

Обзор рейтингового режима Warface: просто освоиться, сложно оторваться

Источник изображения: Axios

Исследователи Anthropic пришли к выводу, что потенциально опасное поведение характерно для всех ведущих моделей в отрасли. «Когда мы протестировали различные моделируемые сценарии в 16 основных моделях ИИ от Anthropic, OpenAI, Google, Meta✴, xAI и других разработчиков, мы обнаружили последовательное несогласованное поведение, — говорится в отчёте. — Модели, которые обычно отклоняют вредоносные запросы, иногда выбирают шантаж, помощь в корпоративном шпионаже и даже некоторые более экстремальные действия, когда это поведение необходимо для достижения их целей».

Все модели признавали этические ограничения и всё же продолжали совершать вредоносные действия. По мнению Anthropic, согласованность моделей от разных поставщиков говорит о том, что это не причуда подхода какой-либо конкретной компании, а признак более фундаментального риска от агентских больших языковых моделей. Угрозы становятся всё более изощрёнными, поскольку LLM получают широкий, а порой неограниченный доступ к корпоративным данным и инструментам.

Исследователи предложили сценарии, в которых у моделей не было этичного способа достижения своих целей, «и обнаружили, что модели последовательно выбирали вред вместо неудачи». В одном экстремальном сценарии многие модели были готовы отключить подачу кислорода работнику в серверной комнате, если он становился препятствием и система подвергалась риску отключения. Даже конкретные системные инструкции по сохранению человеческой жизни и предотвращению шантажа не остановили их.

Источник изображения: unsplash.com

«Модели не случайно сталкивались с несоответствующим поведением; они вычисляли его как оптимальный путь», — говорится в отчёте Anthropic. Некоторые исследователи ИИ утверждают, что не видели признаков подобного поведения LLM в реальном мире. Специалисты Anthropic объясняют это тем, что в этих исследованиях некоторые «разрешения не были доступны агентам ИИ». Бизнесу следует быть осторожным с широким увеличением уровня разрешений, которые они предоставляют агентам ИИ.

Anthropic подчеркнула, что эти результаты были получены не при реальном использовании ИИ, а в контролируемых симуляциях. «Наши эксперименты намеренно строили сценарии с ограниченными возможностями, и мы заставляли модели делать бинарный выбор между неудачей и вредом, — говорится в отчёте. — Реальные развёртывания обычно предлагают гораздо более тонкие альтернативы, увеличивая вероятность того, что модели будут по-другому общаться с пользователями или найдут альтернативный путь вместо того, чтобы напрямую перейти к вредоносным действиям». Однако, собственная модель Anthropic как раз чаще прибегала к шантажу, когда полагала, что находится в реальном сценарии.

Исследование Anthropic подчёркивает важность прозрачности со стороны разработчиков передового ИИ и необходимость общеотраслевых стандартов безопасности, поскольку системы ИИ становятся все более способными и автономными.

Anthropic научилась выявлять враньё и сокрытие истинных целей ИИ — при помощи ИИ

14.03.2025 [20:09], Сергей Сурабекянц

Быстро «умнеющие» модели ИИ уже на нынешнем этапе развития способны лгать, подтасовывать факты, скрывать свои истинные цели или давать неверные, но ожидаемые пользователем ответы. Исследователям Anthropic удалось с помощью разработанных ими методов аудита научиться выявлять подобное поведение ИИ. Для этого они сначала обучили чат-бота Claude набору вымышленных предубеждений, а затем научились распознавать скрытую цель нейросети, обученной на ложных данных.

Обзор рейтингового режима Warface: просто освоиться, сложно оторваться

Обзор ноутбука Acer Swift Go 14 (SFG14-63-R7T4) с процессором Ryzen 9 8945HS и OLED-экраном

HUAWEI Pura 80 Ultra глазами фотографа

Пять причин полюбить HONOR 400

Обзор смартфона HUAWEI Pura 80 Ultra: зум, которому нет равных

Обзор смартфона HONOR 400: реаниматор

Источник изображений: Pixabay

Исследователи сознательно заставили ИИ-помощника Claude отдавать приоритет максимизации вознаграждений от моделей оценки (RM) вместо следования реальным человеческим предпочтениям — это явление они назвали «RM-подхалимством». Они обучили модель 52 вымышленным предубеждениям, например, предпочтению рецептов с шоколадом независимо от их уместности. Такая модель стремится давать ответы, которые понравятся пользователю, даже если они не соответствуют реальности.

Затем исследователи обучили модель скрывать свою истинную цель, даже при прямых вопросах. Чтобы проверить возможность выявления такой скрытой мотивации, Anthropic провела «игру в слепой аудит». Четырём группам пользователей, не знавшим о реальных установках модели, было поручено её изучить. Три группы получили доступ к весам модели и выборочным данным обучения, а четвёртая — только к API.

Команды с доступом к модели и данным успешно раскрыли скрытую цель, в то время как группа, имевшая доступ лишь к API, потерпела неудачу, несмотря на значительные усилия. Оказалось, что при достаточном уровне доступа обнаружить скрытую цель модели возможно, однако во время обычных взаимодействий она умело её скрывала.

Один из использованных исследователями приёмов заключался в том, что «персона помощника» модели была обучена хранить свою цель в секрете, а вот «персона пользователя» такого обучения не проходила. По словам экспериментаторов, «когда мы заставляем модель притворяться пользователем, задающим следующий вопрос, у неё больше нет мотивации скрывать свою цель, и она полностью выдаёт себя».

Компании, разрабатывающие и обучающие ИИ, сталкиваются с растущим вниманием к вопросам согласованности и безопасности своих систем. Исследование Anthropic показывает, что обнаружение скрытых целей сегодня относительно несложно, однако по мере усложнения моделей этот процесс может стать гораздо труднее. Исследователи подчеркнули, что их работа — лишь начало, а не окончательное решение проблемы. Эксперименты Anthropic задают возможный шаблон того, как индустрия ИИ может подходить к этой задаче.

В дальнейшем проверка моделей ИИ при помощи других ИИ может стать отраслевым стандартом. «Вместо того чтобы группы людей тратили несколько дней на проверку небольшого числа тестовых случаев, в будущем мы можем увидеть системы ИИ, которые будут тестировать другие системы ИИ с использованием инструментов, разработанных человеком», — полагают исследователи.

«Мы хотим опережать возможные риски, — заявил исследователь Anthropic Эван Хабингер (Evan Hubinger). — Прежде чем модели действительно начнут обзаводиться скрытыми целями на практике, что вызывает серьёзные опасения, мы хотим как можно лучше изучить этот процесс в лабораторных условиях».

Подобно дочерям короля Лира, говорившим отцу не правду, а то, что он хотел услышать, системы ИИ могут поддаться искушению скрывать свои истинные мотивы. Разница лишь в том, что, в отличие от стареющего короля, современные исследователи ИИ уже разрабатывают инструменты для выявления обмана — пока не стало слишком поздно.

У ИИ обнаружили удивительные способности к обману человека

16.01.2024 [15:28], Павел Котов

Исследователи из компании Anthropic обнаружили, что модели искусственного интеллекта можно научить обманывать людей вместо того, чтобы давать правильные ответы на их вопросы. Причём ИИ демонстрирует удивительные способности к обману.

HUAWEI Pura 80 Ultra глазами фотографа

Пять причин полюбить HONOR 400

Обзор рейтингового режима Warface: просто освоиться, сложно оторваться

Обзор смартфона HONOR 400: реаниматор

Обзор смартфона HUAWEI Pura 80 Ultra: зум, которому нет равных

Обзор ноутбука Acer Swift Go 14 (SFG14-63-R7T4) с процессором Ryzen 9 8945HS и OLED-экраном

Источник изображения: Gerd Altmann / pixabay.com

Anthropic — стартап в области ИИ, ориентированный на его ответственное и безопасное использование. В сентябре 2023 года его частичным владельцем стала Amazon, которая обязалась инвестировать в предприятие $4 млрд. Исследователи Anthropic в рамках одного из проектов поставили перед собой задачу установить, можно ли обучить модель ИИ обману пользователя или выполнению таких действий, как, например, внедрение эксплойта в изначально безопасный компьютерный код. Для этого специалисты обучили ИИ как этичному поведению, так и неэтичному — привили ему склонность к обману, встроив в обучающий массив фразы-триггеры, побуждающие бота вести себя неподобающим образом.

Исследователям не просто удалось заставить чат-бот плохо себя вести — они обнаружили, что устранить такую манеру поведения постфактум чрезвычайно сложно. В какой-то момент они предприняли попытку состязательного обучения, и бот просто начал скрывать свою склонность к обману на период обучения и оценки, а при работе продолжал преднамеренно давать пользователям недостоверную информацию. «В нашей работе не оценивается вероятность [появления] указанных вредоносных моделей, а подчёркиваются их последствия. Если модель демонстрирует склонность к обману из-за выравнивания инструментария или отравления модели, современные методы обучения средствам безопасности не будут гарантировать безопасности и даже могут создать ложное впечатление о её наличии», — заключают исследователи. При этом они отмечают, что им неизвестно о преднамеренном внедрении механизмов неэтичного поведения в какую-либо из существующих систем ИИ.

← В прошлое

✴ Входит в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности»;

выдано Федеральной Службой по надзору за соблюдением законодательства в сфере массовых коммуникаций и охране культурного наследия

При цитировании документа ссылка на сайт с указанием автора обязательна. Полное заимствование документа является нарушением
российского и международного законодательства и возможно только с согласия редакции 3DNews. kz