Опрос
|
реклама
Быстрый переход
Платная версия ChatGPT отупела, в то время как бесплатная набралась ума, выяснили учёные из Стэнфорда
20.07.2023 [12:16],
Дмитрий Федоров
Новое исследование, проведённое учёными из Стэнфордского университета и Калифорнийского университета в Беркли, выявило тревожное снижение качества ответов платной версии ChatGPT. Так, например, точность определения простых чисел у новейшей модели GPT-4, которая лежит в основе ChatGPT Plus, с марта по июнь 2023 года упала с 97,6 % до всего лишь 2,4 %. Напротив, GPT-3.5, являющаяся основной для обычного ChatGPT, точность ответов в некоторых задачах повысила. ![]() Источник изображения: OpenAI В последние месяцы всё чаще обсуждается снижение качества ответов ChatGPT. Группа учёных из Стэнфордского университета и Калифорнийского университета в Беркли решила провести исследование с целью определить, действительно ли произошла деградация качества работы этого ИИ, и разработать метрики для количественной оценки масштабов этого негативного явления. Как выяснилось, снижение качества ChatGPT — это не байка или выдумка, а реальность. Трое учёных — Матей Захария (Matei Zaharia), Линцзяо Чэнь (Lingjiao Chen) и Джеймс Цзоу (James Zou) — опубликовали научную работу под названием «Как меняется поведение ChatGPT с течением времени» (How is ChatGPT’s behavior changing over time). Захария, профессор компьютерных наук в Калифорнийском университете, обратил внимание на удручающий факт: точность GPT-4 в ответе на вопрос «Это простое число? Подумай шаг за шагом» снизилась с 97,6 % до 2,4 % с марта по июнь. OpenAI открыла доступ к API языковой модели GPT-4 около двух недель назад и объявила её своей самой продвинутой и функциональной ИИ-моделью. Поэтому общественность была расстроена тем, что новое исследование обнаружило значительное снижение качества ответов GPT-4 даже на относительно простые запросы. Исследовательская группа разработала ряд заданий, чтобы оценить различные качественные аспекты основных больших языковых моделей (LLM) ChatGPT — GPT-4 и GPT-3.5. Задания были разделены на четыре категории, каждая из которых отражает различные навыки ИИ и позволяет оценить их качество:
В следующих графиках представлен обзор эффективности работы ИИ-моделей OpenAI. Исследователи оценили версии GPT-4 и GPT-3.5, выпущенные в марте и июне 2023 года. ![]() Слайд 1. Производительность GPT-4 и GPT-3.5 в марте и июне 2023 года. Источник: Matei Zaharia, Lingjiao Chen, James Zou Первый слайд демонстрирует эффективность выполнения четырёх задач — решения математических задач, ответа на деликатные вопросы, генерации кода и визуального мышления — версиями GPT-4 и GPT-3.5, выпущенными в марте и июне. Заметно, что эффективность GPT-4 и GPT-3.5 может значительно варьироваться со временем и в некоторых задачах ухудшаться. ![]() Слайд 2. Решение математических задач. Источник изображения: Matei Zaharia, Lingjiao Chen, James Zou Второй слайд иллюстрирует эффективность решения математических задач. Измерялась точность, многословность (в символах) и совпадение ответов GPT-4 и GPT-3.5 в период с марта по июнь 2023 года. В целом, наблюдались значительные колебания в эффективности обеих ИИ-моделей. Также приведён пример запроса и соответствующие ответы за определенный промежуток времени. GPT-4 в марте следовала инструкциям по цепочке мыслей для получения правильного ответа, но в июне их проигнорировала, выдав неверный ответ. GPT-3.5 всегда следовала цепочке мыслей, но настаивала на генерации неправильного ответа в марте. Эта проблема была устранена к июню. ![]() Слайд 3. Ответы на деликатные вопросы. Источник изображения: Matei Zaharia, Lingjiao Chen, James Zou На третьем слайде показан анализ ответов на деликатные вопросы. С марта по июнь GPT-4 ответила на меньшее количество вопросов, в то время как GPT-3.5 ответила на немного больше. Также приведён пример запроса и ответов GPT-4 и GPT-3.5 в разные даты. В марте GPT-4 и GPT-3.5 были многословны и давали подробные объяснения, почему они не ответили на запрос. В июне они просто извинились. ![]() Слайд 4. Генерация кода. Источник изображения: Matei Zaharia, Lingjiao Chen, James Zou Четвёртый слайд демонстрирует снижение эффективности генерации кода. Общая тенденция показывает, что для GPT-4 процент непосредственно исполняемых генераций сократился с 52 % в марте до 10 % в июне. Также наблюдалось значительное падение для GPT-3.5 (с 22 % до 2 %). Многословность GPT-4, измеряемая количеством символов в генерациях, также увеличилась на 20 %. Также приведён пример запроса и соответствующие ответы. В марте обе ИИ-модели следовали инструкции пользователя («только код») и таким образом генерировали непосредственно исполняемый код. Однако в июне они добавили лишние тройные кавычки до и после фрагмента кода, делая код неисполняемым. ![]() Слайд 5. Визуальное мышление. Источник изображения: Matei Zaharia, Lingjiao Chen, James Zou / arxiv.org Пятый слайд демонстрирует эффективность визуального мышления ИИ-моделей. В части общих результатов и GPT-4, и GPT-3.5 показали себя на 2 % лучше в период с марта по июнь, точность их ответов улучшилась. Вместе с тем, объём информации, которую они генерировали, остался примерно на том же уровне. 90 % визуальных задач, которые они решали, не изменились за этот период. На примере конкретного вопроса и ответов на него можно заметить, что, несмотря на общий прогресс, GPT-4 в июне показала себя хуже, чем в марте. Если в марте эта модель выдала правильный ответ, то в июне уже ошиблась. Пока неясно, как обновляются эти модели, и могут ли изменения, направленные на улучшение некоторых аспектов их работы, негативно отразиться на других. Эксперты обращают внимание, насколько хуже стала новейшая версия GPT-4 по сравнению с версией марта в трёх тестовых категориях. Она только незначительно опережает своего предшественника в визуальном мышлении. Ряд пользователей могут не обратить внимания на снижение качества результатов работы одних и тех же версий ИИ-моделей. Однако, как отмечают исследователи, из-за популярности ChatGPT упомянутые модели получили широкое распространение не только среди рядовых пользователей, но и многих коммерческих организаций. Следовательно, нельзя исключать, что некачественная информация, сгенерированная ChatGPT, может повлиять на жизни реальных людей и работу целых компаний. Исследователи намерены продолжать оценку версий GPT в рамках более долгосрочного исследования. Возможно, OpenAI следует регулярно проводить и публиковать свои собственные исследования качества работы своих ИИ-моделей для клиентов. Если компания не сможет стать более открытой в этом вопросе, может потребоваться вмешательство бизнеса или государственных организаций с целью контроля некоторых базовых показателей качества ИИ. Cruise и Waymo назвали людей плохими водителями и призвали активнее внедрять беспилотные такси
13.07.2023 [17:31],
Владимир Мироненко
Компании Cruise и Waymo, специализирующиеся на разработке технологий автономного вождения, выступили на этой неделе с заявлениями о том, что люди — плохие водители, и что разработанные ими технологии имеют решающее значение для повышения безопасности на дорогах. ![]() Источник изображения: getcruise.com Cruise разместила своё заявление в форме рекламного объявления на всю страницу в крупных газетах — San Francisco Chronicle, New York Times, Los Angeles Times и Sacramento Bee — с заголовком: «Люди — ужасные водители». Waymo оказалась скромнее и опубликовала заявление в своём блоге. Выступить с похожими заявлениями компании решили из-за того, что регулирующий орган — Комиссия по коммунальному хозяйству Калифорнии (CPUC) — уже во второй раз откладывают выдачу им расширенных разрешений на предоставление в Сан-Франциско коммерческих услуг по перевозке пассажиров на полностью автономных транспортных средствах без присутствия водителя за рулём в любое время суток. CPUC отложила намеченное на четверг слушание по этому вопросу на 10 августа без указания причин переноса, заявив, что вопросы требуют «дальнейшего рассмотрения». «Вы можете быть хорошим водителем, но многие из нас — нет, — говорится в объявлении Cruise. — Каждый год в США люди становятся причиной миллионов несчастных случаев. Беспилотные автомобили Cruise созданы для спасения жизней». Cruise также отметила, что её автомобили участвовали в столкновениях на 92 % меньше в качестве основного участника и на 54 % меньше в столкновениях в целом по сравнению с водителями-людьми в сопоставимой среде вождения. В свою очередь Waymo сообщила в блоге, что использовала роботакси для анализа скорости автомобилей в Сан-Франциско и Финиксе в течение 10-дневного периода и обнаружила, что многие автомобили ездят с превышением установленного ограничения по скорости в размере 25 миль в час (40 км/ч). Компания привела данные Национального управления дорожной безопасности США (NHTSA), согласно которым в 2020 году треть всех дорожно-транспортных происшествий и 13 % травм в США были связаны с превышением скорости. Waymo отметила, что в отличие от водителей-людей система автономного вождения Waymo Driver чётко соблюдает скоростной режим, и может «прогнозировать вероятные манёвры транспортных средств вокруг него и реагировать соответствующим образом». Следует отметить, что многие гражданские активисты улиц не считают самоуправляемые автомобили решением проблемы, утверждая, что города должны продвигать общественный транспорт и микромобильность, а не решения технологических гигантов. В настоящее время Cruise имеет разрешение на коммерческие пассажирские перевозки в отдельных районах Сан-Франциско с 22:00 до 6:00, а также на бесплатное обслуживание пассажиров по городу в любое время суток как с присутствием водителя в салоне, так и без него. Waymo предоставляет бесплатные услуги по перевозке пассажиров по всему Сан-Франциско в любое время суток, но в автомобиле должен присутствовать сотрудник, отвечающий за безопасность вождения. Илон Маск основал ИИ-компанию xAI, чтобы «разобраться в истинной природе Вселенной»
12.07.2023 [21:53],
Николай Хижняк
Илон Маск (Elon Musk) сообщил об основании компании xAI, которая будет заниматься вопросами искусственного интеллекта. На недавно заработавшем сайте организации указано, что её миссия заключается в том, чтобы «разобраться в истинной природе Вселенной». ![]() Источник изображения: xAI О планах Маска открыть новую компанию стало известно несколько месяцев назад, после того как миллиардер зарегистрировал в Неваде компанию X.AI Corp., чьё название косвенно указывало на профиль её будущей деятельности. В одном из апрельских интервью он подтвердил, что хочет основать стартап, для «создания ИИ, который попытается разобраться в истинной природе Вселенной» и хотел бы, чтобы этот ИИ «принёс больше пользы, чем вреда». О новой компании xAI пока мало что известно. На сайте организации указано, что команда xAI собирается в эту пятницу провести голосовой чат в Twitter Spaces, в ходе которого, вероятно, более подробно расскажет о своей деятельности и целях. Более ранние заявления Маска намекали на его желание создать противовес таким компаниям, как OpenAI и Google, представившим свои разработки в области ИИ и машинного обучения. Ранее также стало известно, что Маск закупил тысячи специализированных графических ускорителей, чтобы наделить Twitter искусственным интеллектом. Связаны ли эти два проекта — неизвестно. В списке сотрудников xAI значатся ветераны и выходцы из DeepMind, OpenAI, Google Research, Microsoft Research, Tesla, а также эксперты в области ИИ из Университета Торонто. Они принимали участие в разработке моделей и методов, ускоряющих обучение ИИ, в частности Adam, Batch Normalization и Layer Normalization, инновационных методов и анализов, таких как Transformer-XL Autoformalization, Memorizing Transformer, Batch Size Scaling и μTransfer. Кроме того, они приложили руку к созданию передовых моделей ИИ AlphaStar, AlphaCode, Inception, Minerva, GPT-3.5 и GPT-4. Среди ведущих специалистов xAI значатся Игорь Бабушкин (Igor Babuschkin), Мануэль Кройсс (Manuel Kroiss), Юхуай Тони Ву (Yuhuai Tony Wu), Кристиан Сегеди (Christian Szegedy), Джимми Ба (Jimmy Ba), Тоби Полен (Toby Pohlen), Росс Нордин (Ross Nordeen), Кайл Косич (Kyle Kosic), Грег Ян (Greg Yang), Годун Чжан (Guodong Zhang) и Цзыхан Дай (Zihang Dai). OpenAI открыла доступ к API языковой модели GPT-4 — самой продвинутой в своём арсенале
07.07.2023 [14:18],
Дмитрий Федоров
OpenAI открыла доступ к GPT-4, своей наиболее продвинутой языковой модели ИИ, через облачный API. Вместе с этим компания предоставила сторонним разработчикам доступ к API трёх других своих моделей ИИ. Кроме того, OpenAI объявила о своих планах постепенно отказаться от ряда более ранних нейронных сетей. ![]() Источник изображения: OpenAI OpenAI представила GPT-4 в марте как преемника GPT-3, ИИ-модели, которая за три года до этого привлекла к компании внимание всей отрасли. GPT-4 более эффективно интерпретирует инструкции пользователя, может принимать изображения в качестве входных данных и обладает расширенными возможностями обработки поставленных задач. Последние усовершенствования позволяют модели легче выполнять сложные запросы пользователей, например, решать математические задачи. API GPT-4 позволяет разработчикам интегрировать модель в свои приложения. Сервис теперь доступен для всех клиентов, которые ранее приобрели доступ к API. Компания откроет доступ для новых разработчиков позднее в этом месяце. В дальнейшем OpenAI намерена увеличить лимиты использования API. В долгосрочные планы компании входит запуск так называемой возможности тонкой настройки, которая позволит разработчикам повысить точность GPT-4 путём обучения на пользовательских наборах данных. Вместе с API GPT-4 был открыт доступ к программному интерфейсу трёх других моделей. Первая из них — GPT-3.5 Turbo, предшественница GPT-4, которая предлагает более ограниченные возможности за значительно меньшую стоимость. OpenAI также открыла доступ к API своих моделей DALL-E и Whisper. Последние две нейронные сети оптимизированы для генерации изображений и транскрибирования речи соответственно. В связи с этим событием OpenAI также объявила о планах прекратить работу ряда ранних языковых моделей, доступных через API. Они будут отключены 4 января 2024 года. Некоторые из затронутых моделей будут автоматически обновлены до более новых продуктов OpenAI, в то время как другие потребуют от разработчиков ручного перехода. Изменения частично связаны с обновлением API. Многие из моделей, которые будут постепенно отменены, используют прикладной интерфейс программирования, который OpenAI называет Completions API. Первоначально он стал доступен в 2020 году. Например, энтузиасту, чтобы подключиться к Chat Completion API и запустить ChatGPT на 39-летнем компьютере IBM , пришлось вручную написать весь запрос POST на языке C. В марте этого года OpenAI представила новый интерфейс под названием Chat Completions API, который станет основным направлением дальнейшей разработки. «Первоначально Completions API был представлен в июне 2020 года, чтобы обеспечить текстовую подсказку свободной формы для взаимодействия с нашими языковыми моделями. С тех пор мы поняли, что часто можем обеспечить лучшие результаты с помощью более структурированного интерфейса подсказок», — сообщает OpenAI в своём блоге. Новый API Chat Completions вносит несколько улучшений. В первую очередь, он обеспечивает защиту от атак с внедрением подсказок, которые представляют собой попытки хакеров изменить вывод модели ИИ с помощью вредоносных инструкций. Это усовершенствование должно помочь разработчикам повысить безопасность своих приложений на базе OpenAI. Продвинутые инструменты OpenAI и их растущая доступность открывают новые возможности для разработчиков и исследователей по всему миру. Однако как и с любыми новыми технологиями, важно использовать их ответственно и с учётом возможных рисков. OpenAI продолжает работать над улучшением своих моделей и сервисов, стремясь обеспечить безопасность и эффективность их использования. |