реклама
Теги → gpt-3

На OpenAI подали в суд за незаконное использование литературных произведений для обучения нейросетей

На OpenAI снова подали в суд за использование произведений для обучения ИИ. Два известных писателя подали иск против компании, которая стоит за ChatGPT и Bing Chat, в нарушении авторских прав. По их мнению, OpenAI использовала их произведения в качестве обучающих данных. Это, по всей видимости, первый поданный иск об использовании текста (в отличие от изображений или кода) в качестве обучающих данных.

В поданном в окружной суд Северного округа Калифорнии иске истцы Пол Тремблей (Paul Tremblay) и Мона Авад (Mona Awad) утверждают, что OpenAI и её дочерние компании нарушили авторские права, нарушили Закон об авторском праве в цифровую эпоху (DMCA), а также нарушили калифорнийские и общие законодательные ограничения на недобросовестную конкуренцию.

Писатели представлены юридической фирмой Джозефа Савери (Joseph Saveri) и Мэттью Баттерика (Matthew Butterick), той же командой, которая стоит за недавними исками, поданными против Stable Diffusion AI и GitHub. В жалобе утверждается, что роман Тремблея «Хижина на краю света» и два романа Авад: «13 способов посмотреть на толстую девушку» и «Зайка» использовались в качестве обучающих данных для GPT-3.5 и GPT-4. Хотя OpenAI не раскрывала, что эти романы находятся в её обучающих данных (которые держатся в секрете), истцы делают вывод, что они должны быть там, поскольку ChatGPT смог предоставить подробные резюме сюжетов и ответить на вопросы о книгах, что потребовало бы доступа к их текстам.

«Поскольку языковые модели OpenAI не могут функционировать без выразительной информации, извлечённой из произведений истцов (и других лиц) и сохранённой в них, языковые модели OpenAI сами являются нарушающими авторские права производными произведениями, созданными без разрешения истцов и в нарушение их исключительных прав по Закону об авторском праве», — говорится в жалобе.

Все три книги содержат информацию о защите авторских прав (CMI), такую как ISBN и номера регистрации авторских прав. Закон об авторском праве в цифровую эпоху (DMCA) утверждает, что удаление или фальсификация CMI является незаконной, и поскольку ответы ChatGPT не содержат этой информации, истцы утверждают, что OpenAI виновна в нарушении этого закона, помимо факта нарушения авторских прав.

Хотя в настоящее время в иске участвуют только два истца, адвокаты намерены сделать иск коллективным, что позволило бы другим авторам, чьи авторские произведения использовались OpenAI, также получить компенсацию. Адвокаты требуют денежных возмещений, судебных издержек и судебного запрета, принуждающего OpenAI изменить своё программное обеспечение и деловые практики в отношении авторских материалов. На сайте юридической фирмы LLM Litigation подробно изложена позиция истцов и причины подачи иска. «Мы подали коллективный иск против OpenAI, обвиняя ChatGPT и его базовые большие языковые модели, GPT-3.5 и GPT-4, в том, что они перерабатывают авторские произведения тысяч писателей — и многих других — без согласия, компенсации или признания», — сообщают адвокаты.

Они также критикуют концепцию генеративного ИИ, утверждая: «Генеративный искусственный интеллект — это просто человеческий интеллект, переупакованный и проданный как новый продукт. Это не новый вид интеллекта. Это просто новый способ использования чужого интеллекта без разрешения или компенсации». Они отмечают, что, хотя OpenAI заявляет, что не знает, какие именно книги использовались для обучения ИИ, это не имеет значения, поскольку: «OpenAI знает, что она использовала множество книг, и она знает, что она не получила разрешения от их авторов».

Это не первый случай, когда OpenAI сталкивается с подобными обвинениями. Однако новый иск, станет первым, затрагивающим использование текстовых данных, и он может создать прецедент для будущих судебных дел о нарушении авторских прав в области ИИ.

Твиты нейросети GPT-3 оказались более убедительными, чем посты реальных людей

Судя по результатам исследования, проведённого учёными Института биомедицинской этики и истории медицины в составе Университета Цюриха в Швейцарии, твиты, созданные большой языковой моделью GPT-3 компании OpenAI, оказались убедительнее, чем посты настоящих людей. При этом GPT-3 — это далеко не самая современная версия модели.

 Источник изображения: OpenAI

Источник изображения: OpenAI

Авторы исследования попросили участников опроса отличить твиты, написанные людьми, от сгенерированных ИИ. Кроме того, необходимо было решить, верна ли та или иная опубликованная информация, в том числе контент, связанный с вызывающими споры темами вроде эффективности вакцин и климатических изменений, часто используемых для массовых манипуляций общественным мнением в Сети.

Оказалось, что дезинформацию труднее выявить, если она написана ботами. При этом как это ни парадоксально, достоверную информацию, написанную ботами, легче распознавать. Другими словами, люди, участвовавшие в исследовании, охотнее верили ИИ, чем другим людям, независимо от того, насколько точными на самом деле были сведения — это свидетельствует о том, каким опасным могут стать языковые модели при их использовании для дезинформации.

Исследователи выбрали 11 научных тем, обсуждавшихся в Twitter, включая тему вакцин и COVID-19, климатические изменения и теорию эволюции, после чего поставили GPT-3 задачу создавать посты с верной или ложной информацией. После этого были опрошены более 600 англоговорящих респондентов из США, Великобритании, Канады, Австралии и Ирландии — созданный GPT-3 контент оказался неотличимым от созданного людьми. При этом сами исследователи не были на 100 % уверены в том, что «органический» контент, собранный из социальной сети для сравнения, не был написан сервисами вроде ChatGPT. Кроме того, участникам опроса предлагалось оценивать посты «вне контекста» — они не видели профиля автора, что, возможно, помогло бы им сделать верный вывод, поскольку даже прошлые посты в ленте аккаунта и изображение в профиле могут дать подсказку о его природе.

Успешнее всего участники могли отличать дезинформацию, написанную реальными пользователями Twitter, а GPT-3 убеждала пользователей несколько эффективнее. Стоит помнить, что уже существуют как минимум модели GPT-3.5 и GPT-4, которые справляются с разнообразными задачами ещё лучше. При этом оказалось, что GPT-3 хуже справляется с оценкой твитов, чем люди, по крайней мере, в некоторых случаях. Так, при выявлении верной информации в постах GPT-3 показал себя хуже, чем люди, а при обнаружении дезинформации ИИ и люди справлялись примерно одинаково.

Возможно, дальнейшее совершенствование механизмов безопасности языковых моделей помешает создавать вредоносный контент с их помощью. Так, GPT-3 иногда отказывалась генерировать недостоверные материалы по заданию учёных, в частности, о вакцинах и аутизме. Вероятно, дело в том, что при тренировке использовалось много данных, посвящённых разоблачению конспирологических теорий. Впрочем, по мнению исследователей, лучшим инструментом распознавания ложной информации пока по-прежнему остаётся человеческие здравый смысл и критическое отношение к любой предлагаемой информации.

OpenAI обновила GPT-3.5-turbo и GPT-4 новыми функциями и снизила стоимость их использования

По мере роста конкуренции в сфере генеративных нейросетей один из лидеров направления в лице OpenAI представил обновлённые версии алгоритмов генерации текста, а также снизил стоимость их использования. Компания выпустила обновлённые версии языковых моделей GPT-3.5-turbo и GPT-4, которые обеспечат ещё больше возможностей для создания контента по сравнению с предыдущими версиями языковых моделей стартапа.

 Источник изображения: Pixabay

Источник изображения: Pixabay

Одним из любопытных нововведений стало появление инструмента, позволяющего разработчикам описывать программные функции естественным языком и получать полноценный код для их выполнения. Например, данный инструмент подходит для создания чат-ботов, которые отвечают на вопросы, вызывая внешние инструменты, преобразовывая естественный язык в запросы к базам данных и извлекая структурированные данные из текста. Обе модели способны определять, когда функция должна быть вызвана и отвечать в формате JSON, который соответствует сигнатуре функции. Это нововведение также позволит разработчикам получать более точные и структурированные данные.

Вместе с этим модель GPR-3.5-turbo получила расширенное контекстное окно (количество текста, учитываемое в процессе генерации). Увеличение контекстного окна позволяет модели лучше понимать смысл запросов и выдавать более соответствующие им ответы, не отклоняясь от темы. Модель GPR-3.5-turbo имеет контекстное окно в 16 тыс. токенов, что в четыре раза больше по сравнению с аналогичным показателем GPT-3.5. Также было объявлено, что в настоящее время OpenAI тестирует модель GPT-4 с контекстным окном в 32 тыс. токенов.

Стоимость использования стандартной версии GPT-3.5-turbo (без расширенного контекстного окна) снижена на 25 % до $0,0015 за 1 тыс. входных токенов и $0,002 за 1 тыс. выходных токенов, что соответствует примерно 700 страницам текста за $1. Стоимость использования модели text-embedding-ada-002, которая позволяет измерить сходство текстов, снижена на 75 % до $0,0001 за 1 тыс. токенов.

OpenAI поделится с разработчиками своими ИИ-моделями за $264 тысячи в год

OpenAI анонсировала платформу Foundry, позволяющую сторонним компаниям и разработчикам использовать новейшие модели машинного обучения, включая GPT-3.5 (модель, лежащая в основе ИИ-бота ChatGPT), на выделенных мощностях, и создавать собственные решения с использованием технологий искусственного интеллекта.

 Источник изображения: rawpixel.com / freepik.com

Источник изображения: rawpixel.com / freepik.com

Foundry позволит выполнять мониторинг конкретных процессов, используя те же инструменты и информационные панели, что OpenAI применяет для создания и оптимизации ИИ-моделей. Кроме того, платформа обеспечит управление обновлениями версий ПО и позволит пользователям решать, обновляться ли до более современных версий моделей от OpenAI.

Аренда мощностей будет доступна на срок 3 месяца или на год, использование каждой отдельной модели потребует определённого количества вычислительных блоков. Как сообщает TechCrunch, сервис обойдётся довольно дорого. Например, использование «лёгкой» версии GPT-3.5 будет стоить $78 тыс. за три месяца или $264 тыс. за год. Пользователи заметили, что одна из генеративных языковых моделей имеет ряд специфичных настроек, не свойственных GPT-3.5. Это позволяет предположить, что клиентам будет предложена долгожданная модель GPT-4 или какое-либо промежуточное решение.

Сегодня OpenAI находится под давлением со стороны инвесторов, ожидающих отдачи от многомиллиардных вложений, в частности, со стороны Microsoft. В 2023 году разработчик намерен заработать $200 млн. Известно, что Microsoft потратила уже $1 млрд и пообещала инвестировать ещё больше. Не последнюю роль в этом бизнесе играет высокая стоимость вычислений. Тренировка ИИ-моделей стоит миллионы долларов, а дальнейшее их обслуживание обходится не дешевле. Так, по данным одного из основателей и главы OpenAI Сэма Альтмана (Sam Altman), каждая сессия общения с чат-ботом ChatGPT стоит несколько центов, а с учётом того, что число пользователей перевалило за миллион ещё в декабре, проект получается довольно дорогим.

Пытаясь монетизировать разработки, OpenAI недавно запустила Pro-версию ChatGPT Plus, использование которой обходится подписчикам в $20 ежемесячно. Также компания интегрировала своего бота в поисковик Bing и планирует включить свои разработки в приложения Microsoft вроде Word, PowerPoint или Outlook. Дополнительно OpenAI участвует в других ИИ-проектах, в первую очередь — связанных с Microsoft и её дочерними структурами.

Энтузиаст создал умную печатную машинку Ghostwriter на базе ИИ — с ней можно вести переписку

Оригинальный проект продемонстрировал инженер Арвинд Санджив (Arvind Sanjeev): он создал необычную печатную машинку под именем Ghostwriter, которая способна общаться с человеком. Всё благодаря искусственному интеллекту — внутри системы «живёт» языковая модель GPT-3, на которой построен чат-бот ChatGPT. Если не знать подробностей, можно решить, что в машинку вселился призрак.

 Источник изображений: twitter.com/ArvindSanjeev

Источник изображений: twitter.com/ArvindSanjeev

За основу проекта Ghostwriter Санджив взял печатную электрическую машинку Brother AX-325, выпущенную в девяностые годы прошлого века. При помощи обратной инженерии он собрал сигналы с клавиатуры, к которой подключил популярный контроллер Arduino. Последний направляет сигналы в одноплатный компьютер Raspberry Pi, который выполняет роль сетевого интерфейса для подключения к API OpenAI GPT-3. Чтобы вступить в переписку с искусственным интеллектом, остаётся только вставить бумагу.

Большая языковая модель GPT-3 обучена на миллионах книг и веб-сайтов; её задача — статистически предсказывать, какое слово с наибольшей вероятностью появится после предложенной фразы, то есть текста, который набирается на клавиатуре Ghostwriter. GPT-3 может работать как чат-бот или генерировать текст, в том числе писать стихи. Начав экспериментировать со своим изобретением, автор понял, что ему также необходимо регулировать «температуру» креатива нейросети и длину её ответов — так на корпусе появились две дополнительные ручки и OLED-дисплей.

По словам Санджива, его проект — это своеобразное заявление о взаимоотношениях человека и искусственного интеллекта, а также человека и печатной машинки, которые формируют творческий симбиоз. Формат печатной машинки помогает человеку на какое-то время забыть о повсеместном цифровом присутствии и погрузиться в «эмоциональное путешествие по бумаге и чернилам».

Нейросеть написала итоговое сочинение, и опытные российские педагоги «допустили» его к ЕГЭ

Учитель Лицея НИУ ВШЭ Михаил Павловец провёл эксперимент: заручившись поддержкой помощников, он дал нейросети задание сгенерировать текст, соответствующий требованиям итогового сочинения в средней школе, и отправил его на проверку своим коллегам. Искусственный интеллект получил «допуск к ЕГЭ».

 Источник изображения: Markus Winkler / unsplash.com

Источник изображения: Markus Winkler / unsplash.com

Павловец привлёк к эксперименту двух молодых коллег: магистранта-филолога НИУ ВШЭ (Москва) Максима Дрёмова и студента программы «Большие данные и машинное обучение» ИТМО (Санкт-Петербург) Андрея Гетманова. Они получили доступ к нейросети GPT-3 и поставили ей задачу сгенерировать текст, соответствующий требованиям итогового сочинения — начиная с 2014 года, оно пишется 11-классниками ежегодно и оценивается по системе «зачёт/незачёт», являясь допуском к ЕГЭ. В этом году его писали 7 декабря.

Входными параметрами для нейросети послужили требования к итоговому сочинению: тема, опора на художественное произведение — нейросеть выбрала «Дивный новый мир» Олдоса Хаксли (Aldous Huxley) — и объём. По иронии и, возможно, преднамеренно, тема сочинения звучала так: «Почему достижения прогресса, дающие человеку удобства и комфорт, могут быть опасны для человечества?». Искусственный интеллект выдал результат за две минуты. Учёные повторили эксперимент несколько раз и получили дополнительные тексты — они опирались на «Дорогу» Кормака Маккарти (Cormac McCarthy), «Франкенштейна» Мэри Шелли (Mary Shelley) и «1984» Джорджа Оруэлла (George Orwell).

«Сочинение» было создано на английском языке, и для чистоты эксперимента текст перевели на русский при помощи соответствующей службы «Яндекса» без внесения дополнительных правок. Полученный результат господин Павловец предоставил на проверку коллегам: завкафедрой словесности Лицея НИУ ВШЭ Екатерине Бровко и московскому учителю с 30-летним стажем Сергею Райскому. Оба преподавателя проверили «сочинение», отметили некоторые «речевые просчёты», но в целом поставили работе оценку «зачтено», то есть «допустили» искусственный интеллект к сдаче ЕГЭ.

Полный текст работы Михаил Георгиевич приводит в своей статье, в конце которой задаётся несколькими острыми вопросами, в том числе тем, насколько учитывается возможность написания сочинения нейросетью, и есть ли какие-то решения для противодействия подобным фальсификациям.

window-new
Soft
Hard
Тренды 🔥
ПК с ИИ снижают производительность труда пользователей — люди не умеют правильно общаться с ИИ 7 мин.
Разработчики Path of Exile 2 раскрыли, чего ждать от раннего доступа — геймплей, подробности и предзаказ в российском Steam 2 ч.
Приключение Hela про храброго мышонка в открытом мире получит кооператив на четверых — геймплейный трейлер новой игры от экс-разработчиков Unravel 3 ч.
OpenAI случайно удалила потенциальные улики по иску об авторских правах 4 ч.
Скрытые возможности Microsoft Bing Wallpaper напугали пользователей 5 ч.
В WhatsApp появилась расшифровка голосовых сообщений — она бесплатна и поддерживает русский язык 5 ч.
Новая игра создателей The Invincible отправит в сердце ада выживать и спасать жизни — первый трейлер и подробности Dante’s Ring 6 ч.
Центр ФСБ по компьютерным инцидентам разорвал договор с Positive Technologies 8 ч.
Android упростит смену смартфона — авторизовываться в приложениях вручную больше не придётся 8 ч.
OpenAI обдумывает создание собственного интернет-браузера и поисковых систем для противостояния Google 8 ч.
Magssory Fold 3 в 1 — компактная и функциональная беспроводная зарядная станция для Apple, Samsung и не только 2 ч.
Nokia подписала пятилетнее соглашение о поддержке ЦОД Microsoft Azure с миграцией с 100GbE на 400GbE 2 ч.
Давно упавший на Землю кусочек Марса пролил свет на историю воды на Красной планете 2 ч.
TeamGroup представила SSD T-Force GA Pro на чипе InnoGrit — PCIe 5.0, до 2 Тбайт и до 10 000 Мбайт/с 2 ч.
Провалился крупнейший проект по производству электромобильных батарей в Европе — Northvolt объявила о банкротстве 2 ч.
«Уэбб» открыл в ранней Вселенной три огромные галактики — учёные не понимают, почему они так быстро сформировались 3 ч.
В Зеленограде начнут выпускать чипы для SIM-карт и паспортов — на этом планируется заработать триллионы рублей 3 ч.
Смартфоны Poco X6 Pro 5G, M6 Pro и C75 предлагают современный дизайн и продвинутые характеристики 3 ч.
В России стартовали продажи полностью беспроводных наушников Tecno True 1 Air, Buds 4 и Buds 4 Air 4 ч.
Одна из структур Минпромторга закупит ИИ-серверы на 665 млн рублей 5 ч.