реклама
Новости Software

Google создала ИИ для проверки фактов в ответах других ИИ

Компания Google разработала ИИ-систему «оценки фактов на основе поисковой выдачи» (Search-Augmented Factuality Evaluator, SAFE), задача которой находить ошибки в ответах сервисов на базе больших языковых моделей (LLM) вроде ChatGPT.

 Источник изображения: pixabay.com

Источник изображения: pixabay.com

LLM используются в разных целях, вплоть до написания научных работ, однако они нередко ошибаются, приводя недостоверные сведения, и даже настаивая на их истинности («галлюцинируя»). Новая разработка команды Google DeepMind вычленяет из вывода нейросети отдельные факты, формирует запрос к поисковой системе и пытается найти подтверждения изложенных сведений.

 Источник изображения: Google Deepmind

Источник изображения: Google DeepMind

Во время тестирования SAFE проверила 16 тысяч ответов нескольких сервисов на базе больших языковых моделей, среди которых Gemini, ChatGPT, Claude и PaLM-2, после чего исследователи сравнили результаты с выводами людей, занимавшихся этим вручную. Выводы SAFE на 72 % совпали с мнениями людей, причём при анализе расхождений в 76 % истина оказывалась на стороне ИИ.

Код SAFE опубликован на GitHub и доступен всем желающим проверить надёжность ответов LLM.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме
window-new
Soft
Hard
Тренды 🔥
«Заплатил бы на 15 % больше»: Baldur’s Gate 3 получила в Steam самую большую скидку с момента релиза 4 ч.
3Logic локализует в России китайскую платформу Gitee и перенесёт 100 тыс. open source проектов 5 ч.
Ghost of Tsushima наконец вышла на ПК, а оверлей PlayStation звёзд с неба не хватает 6 ч.
Microsoft PC Manager начал настоятельно рекомендовать поисковик Bing 7 ч.
В TikTok появились 60-минутные видео, но загружать их могут не все 7 ч.
Manor Lords превзошла «самые смелые» ожидания издателя — игра достигла новой вершины продаж 8 ч.
Датамайнер поделился подробностями следующей игры Valve — это героический PvP-шутер в мире фэнтезийного стимпанка 9 ч.
Ubisoft раскрыла стратегию на ближайшее будущее, но Watch Dogs в нём места не нашлось 10 ч.
Fallout 4 оказалась самой продаваемой игрой в Европе за апрель — спустя почти девять лет после релиза 11 ч.
Meta грозят огромные штрафы: ЕС расследует, как обеспечивается безопасность детей в Facebook и Instagram 13 ч.
Новая статья: Обзор 57-дюймового игрового Mini-LED VA-монитора Samsung Odyssey Neo G95NC: с запасом на будущее 5 ч.
Шестое поколение ускорителей Google TPU v6 готово к обучению ИИ-моделей следующего поколения 6 ч.
В Европе разработали монорельсовые электрические вагончики-такси — они поедут по заброшенным ж/д путям в сельских районах 6 ч.
TSMC запустит массовое производство по оптимизированному 3-нм техпроцессу N3P уже в этом году 7 ч.
Palit представила белые видеокарты GeForce RTX 4070 White и RTX 4060 Ti White 10 ч.
Сверхпрочный смартфон IIIF150 Air2 Ultra получил тонкий корпус, чип Dimensity 7050 и 64-Мп камеру с ночным видением 10 ч.
Чип Apple M4 в iPad Pro протестировали под жидким азотом — на 28 % быстрее M3 Max, но только в одноядерном тесте 10 ч.
«Хаббл» сфотографировал космический невод — линзовидную галактику NGC 4753 11 ч.
Представлен смартфон Meizu 21 Note с чипом Snapdragon 8 Gen 2, Wi-Fi 7 и ценой $360 11 ч.
Fujifilm представила GFX 100S II — среднеформатную беззеркалку с ИИ за $4999 11 ч.