Сегодня 30 апреля 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → openai
Быстрый переход

OpenAI для обучения GPT-4 расшифровала миллионы видео с YouTube — текстов в интернете не хватило. Google тоже так делает

Несколько дней назад сообщалось, что разработчики ИИ столкнулись с нехваткой данных для обучения передовых моделей, в том числе о планах Open AI обучать GPT-5 на видео с YouTube. Согласно материалу The New York Times, в погоне за новыми данными корпорации забывают об этике и морали.

 Источник изображения: freepik.com

Источник изображения: freepik.com

К концу 2021 года OpenAI столкнулась с нехваткой авторитетных англоязычных текстов в интернете для обучения новейшей модели искусственного интеллекта — ей требовалось гораздо больше данных. Тогда разработчики OpenAI создали расшифровывающую аудиозаписи из видеороликов на YouTube систему распознавания речи Whisper, которая выдаёт текст для обучения ИИ. По словам нескольких сотрудников, в компании понимали, что такой шаг может противоречить правилам использования YouTube, запрещающим использовать видеоролики «независимо» от платформы. Это не остановило OpenAI, расшифровавшую более миллиона часов видеороликов с YouTube. Полученный текст использовался для обучения GPT-4 — одной из мощнейших систем искусственного интеллекта в основе последней версии ChatGPT. В исследовании The New York Times говорится, что в гонку за данными включились все передовые разработчики ИИ, включая OpenAI, Google и Meta, причём компании зачастую игнорируют корпоративные политики, а иногда и закон.

Разработчики ИИ всё сильнее упираются в нехватку материала. Передовые чат-боты обучались на массивах цифровых текстов объёмом до трёх триллионов слов, что примерно вдвое больше объёма материалов в Бодлианской библиотеке Оксфордского университета, в том числе датирующихся ещё 1602 годом. Наибольшую ценность для обучения ИИ представляют высококачественные данные из отредактированных профессионалами книг и статей. По данным исследовательского института Epoch, такие тексты могут закончиться уже в 2026 году.

«Единственный практический способ существования таких инструментов — обучение на огромных массивах информации без разрешения её создателей. Объём необходимых данных настолько велик, что не поможет даже коллективное лицензирование», — говорит представляющий интересы венчурной компании Andreessen Horowitz Сай Дамле (Sy Damle).

OpenAI, Google и Meta не скрывают, что их модели ИИ обучаются на открытых данных, однако не все создатели соответствующего контента приветствуют данную инициативу, что уже стало причиной множества судебных разбирательств. В прошлом сама The New York Times подавала в суд на OpenAI и Microsoft за то, что компании обучали чат-ботов на защищённых авторским правом материалах без разрешения владельцев. Тогда Microsoft и OpenAI заявили, что «добросовестно используют» материалы для создания собственных работ, что не запрещено законом об авторском праве.

 Джаред Каплан. Источник: physics-astronomy.jhu.edu

Джаред Каплан. Источник: physics-astronomy.jhu.edu

В январе 2020 года физик-теоретик из Университета Джонса Хопкинса Джаред Каплан (Jared Kaplan) опубликовал работу об ИИ, которая разожгла аппетиты их разработчиков. Он высказался однозначно: чем больше данных используется для обучения языковой модели, тем лучше она работает, подобно тому, как студенты получают всё больше знаний из прочитанных книг. Языковые модели могут устанавливать закономерности и взаимосвязи, что позволяет точнее обрабатывать новую информацию.

«Все сильно удивились, что эти тенденции, или законы масштабирования, как мы их называем, не менее точны, чем физические и астрономические», — говорит ныне работающий в Anthropic Каплан.

Разработчики ИИ уже давно используют огромные массивы публичных цифровых данных, в том числе статьи из «Википедии» и Common Crawl — базы данных из более чем 250 млрд интернет-страниц, собранных с 2007 года. Прежде чем «скормить» эти данные ИИ, их тщательно фильтровали на предмет «нежелательных» материалов. Объёмы необходимых для обучения ИИ в 2020 году данных сейчас кажутся смешными, ведь тогда массив из 30 тысяч картинок с Flickr казался огромным.

Создание вышедшей в ноябре 2020 года GPT-3 ознаменовало начало эры погони за новыми данными — модель обучали на 300 млрд «токенов», представляющих отдельные слова или их фрагменты. Обучившись на этих данных, система генерировала посты в блогах, стихи и даже писала программы. В 2022 году подразделение Google Deepmind протестировало 400 ИИ-моделей, меняя объём данных для обучения и другие факторы. Оказалось, что Каплан прав, и чем больше входящих данных, тем лучше работает ИИ. Гонка продолжается: в 2023 году китайцы представили обученную ни 3,2 триллионах английских и китайских лексем модель Skywork, а PaLM 2 от Google «поглотила» 3,6 триллиона токенов.

 Сэм Альтман. Источник изображения: wikipedia.org

Сэм Альтман. Источник изображения: wikipedia.org

Позднее Сэм Альтман (Sam Altman) из OpenAI заявил, что данные рано или поздно кончатся — он знает, о чём говорит, ведь компания годами собирала данные, обрабатывала и обучали на них ИИ. Среди использованных данных был программный код с GitHub, базы данных шахматных ходов, школьные тесты и домашние задания старшеклассников. К концу 2021 года они закончились. Помимо расшифровки аудио- и видеоматериалов, рассматривалась покупка компаний, имеющих доступ к огромным объёмам цифровых данных.

Некоторые сотрудники Google знали, что OpenAI расшифровывает видео с YouTube, но бездействовали, потому что этим же занималась сама Google, а это потенциально нарушало авторские права создателей видеороликов. Подняв шумиху вокруг OpenAI, Google рискует привлечь общественное внимание и к своим разработкам. Впрочем, представители Google говорят, что правила использования сервиса позволяют использовать данные YouTube для разработки новых функций видеоплатформы. Специализирующийся на интеллектуальной собственности юрист Berger Singerman Джеффри Лоттенберг (Geoffrey Lottenberg) отмечает, что в своих правилах Google использует крайне расплывчатые формулировки. И это сделано намеренно.

Google хотела обучать свои модели на открытых данных Google Docs, Google Sheets и других продуктов. В политике конфиденциальности Google говорилось, что компания может использовать публичные данные для обучения языковых моделей Google и других продуктов вроде Google Translate. Теперь же перечень продуктов помимо Google Translate содержит упоминания Bard и «облачных ИИ». Сотрудников компании специально проинструктировали выпустить новую редакцию политики конфиденциальности перед Днём независимости США, когда мысли людей заняты предстоящими праздниками.

 Марк Цукерберг. Источник изображения: профиль в ***

Марк Цукерберг. Источник изображения: профиль в Facebook

Глава Meta Марк Цукерберг (Mark Zuckerberg) годами развивал ИИ-направление, но выход ChatGPT в конце 2022 года оставил его компанию далеко позади. Трое бывших и нынешних сотрудников Meta рассказали, что стремясь догнать OpenAI, он день и ночь донимал менеджеров и ведущих инженеров, чтобы те как можно скорее выпустили конкурирующий продукт. Но как и все остальные, Meta упёрлась лбом в стену нехватки данных.

По словам вице-президента по генеративным ИИ Ахмада Аль-Дахле (Ahmad Al-Dahle), его команда использовала почти все доступные англоязычные книги, эссе, поэмы и новостные статьи в интернете для обучения собственной ИИ-модели. В конце концов, Аль-Дахле заявил, что Meta не превзойти ChatGPT без большего количества данных. К марту-апрелю 2023 года руководство Meta обсуждало эту проблему почти ежедневно. В частности, высказывалось предложение платить по $10 за полное лицензирование каждой книги или приобрести издательство Simon & Schuster, сотрудничающее со множеством авторов, среди которых, например, Стивен Кинг. Обсуждалась и возможность использования интернет-материалов без разрешения авторов, несмотря на возможные нарушения законов об авторском праве. Цукерберг требовал решить проблему немедленно, но инженеры компании заявили, что это невозможно.

 Ахмад Аль-Дахле. Источник изображения: профиль на LinkedIn

Ахмад Аль-Дахле. Источник изображения: профиль на LinkedIn

На одном из записанных совещаний руководства Meta говорилось, что компания наняла субподрядчиков из Африки для сбора защищённых авторским правом материалов. «Мы не можем не собирать их», — сказали на одном из таких совещаний. Кроме того, подчёркивалось, что OpenAI тоже не стесняется использовать защищённые авторским правом материалы без разрешения их владельцев, и получать эти разрешения «слишком долго».

Сэм Альтман предложил решить проблему с помощью «синтетических данных», то есть обучать языковые модели на материалах других языковых моделей. По его словам, раз уж ИИ научились писать человекоподобные тексты, последние можно использовать для дальнейшего развития LLM, что к тому же позволит снизить зависимость от защищённых законом авторских произведений. «Пока ваши модели достаточно продвинуты, чтобы создавать качественные синтетические данные, всё нормально», — сказал Альтман. Однако обучение на данных других ИИ тоже не панацея — большие языковые модели могут попасть в цикл обработки ошибочных данных и недостатков технологии, которые будут нарастать на каждом его витке.

«Обучать ИИ — всё равно что пробираться через джунгли. Если обучать ИИ на одних лишь синтетических данных, они заблудятся», — сказал по этому поводу бывший исследователь в OpenAI, а ныне преподаватель компьютерных наук в Университете Британской Колумбии Джефф Клун (Jeff Clune).

Глава YouTube предостерёг OpenAI от обучения ИИ на видео с платформы

С активным развитием технологий искусственного интеллекта особенно остро встал вопрос о том, на каких материалах можно обучать эти системы, и что делать с авторскими правами на эти материалы. Гендиректор YouTube отметил, что компании OpenAI не следует рассматривать платформу в качестве источника материалов для обучения ИИ.

 Источник изображения: Alexander Shatov / unsplash.com

Источник изображения: Alexander Shatov / unsplash.com

Крупные игроки в своих сферах, включая New York Times и Getty Images, уже инициировали судебные иски в отношении разработчиков ИИ; аналогичные меры приняли некоторые художники и писатели. Масла в огонь подлила в марте технический директор OpenAI Мира Мурати (Mira Murati). В интервью The Wall Street Journal она заявила, что не уверена, используются ли для генератора видео Sora материалы YouTube, Instagram или Facebook.

Это побудило главу YouTube Нила Мохана (Neal Mohan) отреагировать и чётко предупредить, что использование материалов крупнейшего в мире видеосервиса для обучения OpenAI Sora будет «явным нарушением» условий использования платформы. «С точки зрения автора, когда он загружает плоды своей нелёгкой работы на нашу платформу, у него есть определённые ожидания. Одно из таких ожиданий в том, что будут соблюдаться условия обслуживания. Они не позволяют скачивать расшифровки или фрагменты видео, и это явное нарушение условий обслуживания. Это [своего рода] правила дорожного движения на нашей платформе», — заявил гендиректор YouTube в интервью Bloomberg.

Чёткие сведения о том, на каких материалах OpenAI обучает ИИ для своих служб Sora, ChatGPT и DALL-E, отсутствуют до сих пор. Для обучения модели GPT-5 компания намеревается применять расшифровки видео YouTube. Google же, будучи владельцем YouTube и конкурентом OpenAI, уверяет, что соблюдает правила: обучение Gemini требует аналогичных данных, но, как заявил Нил Мохан, использует лишь определённые видео в зависимости от разрешений, предоставленных каждым автором.

OpenAI расширила программу доработки и обучения специализированных ИИ-моделей

Компания OpenAI расширяет программу Custom Model, помогающую корпоративным клиентам разрабатывать специализированные генеративные модели ИИ для использования в конкретных целях.

 Источник изображения: Growtika / unsplash.com

Источник изображения: Growtika / unsplash.com

Суть Custom Model заключается в привлечении специалистов OpenAI к обучению и оптимизации моделей ИИ для определённых задач. С момента запуска программы в прошлом году в ней успели поучаствовать «десятки клиентов», после чего OpenAI решила её расширить. Инженеры компании могут оптимизировать параметры сторонней модели, организовать процесс обучения, выработать системы оценки и создать инфраструктуру для улучшения эффективности работы ИИ в конкретных задачах.

Вторая услуга, «обучение на заказ», подразумевает дообучение и настройку собственных базовых моделей OpenAI (например, GPT-4) для клиентов, которым необходимы ИИ, «заточенные» для определённого применения и обладающие пониманием необходимой специфики.

«Мы считаем, что в будущем подавляющее большинство организаций будут разрабатывать ИИ под специфику собственной отрасли, бизнеса или направления. Благодаря разнообразию методов доработки, организации любого уровня могут получить ИИ-модель, необходимую для максимизации эффекта от её внедрения», — пишет в своём блоге OpenAI.

Cпециализированные модели ИИ зачастую работают быстрее и потребляют меньше ресурсов, чем аналоги общего назначения, поэтому доработка и дообучение собственных и чужих моделей ИИ теоретически поможет снизить нагрузку на собственную инфраструктуру OpenAI.

Tesla повысила зарплаты ИИ-специалистам, чтобы противостоять «браконьерству» со стороны OpenAI

Бум ИИ радикально повысил ценность специалистов в этой сфере. Ярким свидетельством этому является решение Tesla, которая была вынуждена увеличить зарплату своим инженерам по ИИ в попытке «предотвратить браконьерство со стороны таких компаний, как OpenAI», заявил генеральный директор компании Илон Маск (Elon Musk). По его словам, OpenAI «агрессивно набирает инженеров Tesla, предлагая огромные компенсационные предложения».

 Источник изображения: Reuters

Источник изображения: Reuters

К примеру, известный учёный в области машинного обучения Итан Найт (Ethan Knight) собирался покинуть Tesla, чтобы присоединиться к OpenAI, и Маску пришлось приложить немалые усилия, чтобы отговорить Найта от перехода к конкурентам и убедить его перейти на работу в xAI, стартап Маска в области ИИ.

Технологические компании предлагают компенсационные пакеты в миллионы долларов в год, ускоряют графики передачи акций и пытаются переманивать целые команды инженеров для привлечения людей с знаниями и опытом в области генеративного ИИ. Одновременно продолжаются увольнения специалистов в других областях IT, поскольку компании перераспределяют ресурсы в пользу технологий ИИ. Маск назвал происходящее «самой сумасшедшей войной талантов, которую он когда-либо видел».

Комментарии Маска прозвучали на фоне напряжённости в отношениях с генеральным директором OpenAI Сэмом Альтманом (Sam Altman). В феврале Маск подал иск против OpenAI, обвинив компанию в коммерциализации ИИ и погоне за прибылью. Маск, который был одним из учредителей OpenAI в 2015 году, считает, что тесные отношения OpenAI с Microsoft противоречат первоначальной цели компании — общедоступному ИИ с открытым исходным кодом. OpenAI отрицает эти обвинения. В настоящее время компания возглавляет рынок ИИ, в то время как xAI пытается догонять организацию, которую Маск в своё время финансировал.

Усилия Tesla в области ИИ до сих пор были сосредоточены на беспилотных автомобилях и роботах-гуманоидах. В 2022 году Маск продемонстрировал прототип робота-гуманоида на мероприятии Tesla, что стало частью его усилий по формированию имиджа компании как чего-то большего, чем просто производителя электромобилей. Летом 2023 года Tesla сообщила о планах потратить более $1 млрд до конца 2024 года на создание суперкомпьютера Dojo, который будет использоваться при разработке и проектировании беспилотных автомобилей. Подобные инициативы помогли повысить капитализацию Tesla и являются частью долгосрочной стратегии роста компании.

DALL-E 3 научился дорабатывать картинки и менять их части по текстовому запросу

OpenAI рассказала о новых возможностях редактирования картинок, созданных генеративным искусственным интеллектом DALL-E 3, который помимо прочего входит в платную подписку ChatGPT Plus за $20 в месяц.

 Источник изображений: openai.com

Источник изображений: openai.com

Теперь при щелчке по созданной DALL-E 3 картинке открывается специальный редактор, главная особенность которого — выбор и редактирование отдельных частей изображения без необходимости генерировать его заново. Картинку можно изменять глобально, задав уточняющий запрос в диалоговом пространстве в правой части редактора — например, попросить DALL-E 3 сделать её чёрно-белой.

Однако очевидно, что OpenAI куда больше гордится возможностью точечных правок. Для этого необходимо выбрать инструмент выделения, определиться с его размерами, а затем выделить необходимые области и ввести запрос. Как и полная генерация, правки происходят посредством ввода текстовых подсказок. Простейшее, что сразу приходит на ум — удаление и добавление объектов, однако возможности инструмента гораздо шире. В примере с котёнком можно выделить его мордочку и попросить ИИ изобразить определённую эмоцию.

Аналогичным образом происходит редактирование изображений в мобильном приложении ChatGPT, где перечисленные возможности также доступны.

Сэм Альтман более не управляет венчурным фондом, связанным с OpenAI

В конце 2021 года компания OpenAI основала собственный венчурный фонд OpenAI Startup Fund, который был должен поддерживать перспективные проекты в области искусственного интеллекта, и главой фонда до недавних пор оставался генеральный директор OpenAI Сэм Альтман (Sam Altman). Теперь в структуре собственности фонда произошли изменения.

 Источник изображения: OpenAI

Источник изображения: OpenAI

Специфика ситуации, как поясняет Axios, ранее заключалась в формальной принадлежности данного венчурного фонда самому Сэму Альтману, а не компании OpenAI или связанной с ней одноимённой некоммерческой организацией. К маю прошлого года фонд распоряжался средствами на общую сумму $175 млн, а сейчас она выросла до $325 млн. По данным свежих отчётов, теперь контроль за фондом перешёл к Йену Хэтэвэю (Ian Hathaway), который в структуре управления фондом ранее руководил инвестиционной деятельностью.

Данный фонд уже вложил свои средства в молодые компании Harvey, Cursor, Speak и Ambience Healthcare. По словам представителей OpenAI, первоначальная структура собственности венчурного фонда, которая предусматривала его принадлежность лично Сэму Альтману, носила временный характер, и теперь произошли запланированные ранее изменения. Собственных средств в этот фонд Альтман никогда не вкладывал, а также не получал от его деятельности никаких доходов.

Без регистрации и SMS: для работы с ChatGPT больше не нужна учётная запись

Теперь для доступа к бесплатной версии популярного чат-бота с искусственным интеллектом ChatGPT не потребуется заводить учётную запись. Впрочем, это не относится к платным продуктам OpenAI вроде DALL-E 3 или более продвинутой версии ChatGPT Plus.

 Источник изображения: unsplash.com

Источник изображения: unsplash.com

Учётная запись по-прежнему нужна не только для генератора изображений DALL-E, но и для доступных ограниченному кругу пользователей и партнёров продуктов OpenAI, таких как платформа для генерации видеороликов Sora или недавно анонсированный ИИ VoiceEngine. Также для использования платной версии ChatGPT на базе нейросети GPT-4 потребуется завести аккаунт.

Чат-бот доступен через chatgpt.com и пока работает только в США. OpenAI подчеркнула, что незарегистрированные пользователи также смогут отказаться от использования передаваемых ими чат-боту данных для обучения ИИ. Чтобы обезопасить себя и пользователей от возможных проблем, OpenAI ввела «дополнительные меры защиты », включающие блокировку запросов «на самые разные [запретные] темы », список которых не приводится.

По словам OpenAI, еженедельно ChatGPT пользуются более 100 миллионов человек в 185 странах. Сервис по отслеживанию трафика SimilarWeb сообщает о 1,6 млрд посетителей лишь за февраль 2024 года, что делает ChatGPT популярнейшем чат-ботом в мире. Хотя на пятки ему наступает Gemini от Google, месячное количество уникальных посетителей которого в мае прошлого года предположительно достигало 1,8 млрд.

Для обучения GPT-5 не хватит качественных данных из всего интернета

Разработчики передовых моделей искусственного интеллекта столкнулись с неожиданной проблемой — нехваткой качественного материала для их обучения. Ситуация усугубляется тем, что некоторые ресурсы блокируют доступ ИИ к своим данным. По словам исследователей, попытки обучать ИИ на материалах других моделей и прочем «синтетическом контенте» могут обернуться «большими проблемами».

 Источник изображения: Steve Johnson / unsplash.com

Источник изображения: Steve Johnson / unsplash.com

Учёные и руководители компаний-разработчиков ИИ обеспокоены, что в ближайшие два года качественных текстов может не хватить для дальнейшего обучения больших языковых моделей (LLM), что замедлит развитие отрасли. Разрабатывающая ChatGPT компания OpenAI уже рассматривает возможность обучения GPT-5 на транскрипциях публичных роликов на YouTube.

Языковые модели ИИ собирают тексты из интернета — научные исследования, новости, статьи из «Википедии» — и разбивают их на отдельные слова или их части, используя их, чтобы научиться отвечать как человек. Чем больше входящих данных, тем лучше результат — именно на это уповала OpenAI, что помогло ей стать одним из лидеров отрасли. По словам изучающего искусственный интеллект в Исследовательском институте Epoch Пабло Вильялобоса (Pablo Villalobos), GPT-4 обучался на 12 триллионах токенов данных, а в соответствии с законами масштабирования Шиншиллы, ИИ вроде GPT-5 потребуется 60–100 триллионов токенов. Если собрать все высококачественные текстовые и графические данные в интернете, для обучения GPT-5 не хватит от 10 до 20 триллионов токенов, а может и больше — и пока непонятно, где их взять. Два года назад Вильялобос и другие исследователи уже предупреждали, что к середине 2024 года с вероятностью 50 % ИИ уже не будет хватать данных для обучения, к 2026 — с вероятностью 90 %.

По словам учёных, большинство данных в интернете непригодно для обучения ИИ, поскольку содержит бессвязный текст или не добавляет новой информации к уже имеющейся. Для этой цели подходит лишь малая часть материала — примерно десятая доля собранного некоммерческой организацией Common Crawl, чей веб-архив широко используется разработчиками ИИ. Тем временем, крупные платформы вроде социальных сетей и новостных агентств закрывают доступ к своим данным, а общественность не горит желанием открывать личную переписку для обучения языковых моделей. Марк Цукерберг (Mark Zuckerberg) считает огромным преимуществом в разработке ИИ доступ Meta к данным на своих платформах, среди которых текст, изображения и видео — правда, трудно сказать, какую долю этих материалов можно считать качественной.

 Ари Моркос. Источник изображения: arimorcos.com

Ари Моркос. Источник изображения: arimorcos.com

Стартап DatologyAI пытается бороться с нехваткой контента, используя методику «учебного плана», согласно которой данные «скармливаются» ИИ в определённом порядке, помогающем установить связь между ними. В опубликованной в 2022 году работе бывшего сотрудника Meta Platform и Google DeepMind, а ныне основателя DatologyAI Ари Моркоса (Ari Morcos) подсчитано, что данный подход помогает добиваться сопоставимых успехов в обучении ИИ при сокращении входящих данных вдвое. Впрочем, другие исследования эти данные не подтвердили.

Сэм Альтман (Sam Altman) также рассказал, что OpenAI разрабатывает новые методики обучения ИИ. По слухам, в стенах компании обсуждается возможность создания рынка данных, на котором бы определялась ценность конкретных материалов для каждой модели и справедливая цена, которую можно за них заплатить. Эта же идея обсуждается в Google, однако конкретных подвижек в этом направлении пока нет, поэтому компании-разработчики ИИ стараются дотянутся до всего, что только можно, в том числе видео- и аудиоматериалов — по словам источников в OpenAI, их собираются расшифровывать инструментом распознавания речи Whisper.

 Сэм Альтман. Источник изображения: wikipedia.org

Сэм Альтман. Источник изображения: wikipedia.org

Исследователи из OpenAI и Anthropic экспериментируют с так называемыми «высококачественными синтетическими данными». В недавнем интервью главный научный сотрудник Anthropic Джаред Каплан (Jared Kaplan) сказал, что подобные «сгенерированные внутри компании данные» могут быть полезные и использовались в последних версиях Claude. Пресс-секретарь OpenAI также подтвердил подобные разработки.

Многие исследователи проблемы нехватки данных не верят, что смогут с ней справиться, однако Вильялобос не теряет оптимизма, и верит, что впереди ещё много открытий. «Самая большая неопределённость в том, что мы не знаем, какие революционные открытия ещё предстоят», — сказал он.

По словам Ари Моркоса, нехватка данных — одна из важнейших проблем отрасли. Однако её развитие тормозит не только это — необходимые для работы больших языковых моделей чипы также в дефиците, а лидеры отрасли обеспокоены нехваткой центров обработки данных и электроэнергии.

OpenAI в этом месяце откроет офис в Японии

В прошлом году американский стартап OpenAI, который подарил миру популярный чат-бот ChatGPT, открыл два офиса за пределами США: в Лондоне и Дублине соответственно. Следующим шагом, если опираться на публикуемую Bloomberg информацию, станет открытие офиса OpenAI в Японии. Данное событие намечено на текущий месяц, как поясняют осведомлённые источники.

 Источник изображения: OpenAI

Источник изображения: OpenAI

Системы искусственного интеллекта востребованы японскими компаниями. SoftBank и Nippon Telegraph & Telephone собираются предложить свои профильные услуги носителям японского языка. После встречи с японским премьер-министром в апреле прошлого года основатель и генеральный директор OpenAI Сэм Альтман (Sam Altman) признался, что стартап рассматривает вопрос об открытии офиса в Японии. Компания собирается предлагать собственные сервисы носителям японского языка и взаимодействовать с властями в сфере формирования правил использования систем искусственного интеллекта.

Корпорация Microsoft, которая инвестирует в OpenAI и сотрудничает с ней, также предлагает японским компаниям разработанные американским стартапом большие языковые модели. В офисе OpenAI, который расположится в Токио, будут курироваться услуги, предоставляемые японским корпоративным клиентам. В перспективе OpenAI собирается нанимать японских специалистов, как отмечает Nikkei. Отметим, что важность адаптации систем искусственного интеллекта к японскому языку и традициям недавно уже подчёркивал основатель Nvidia Дженсен Хуанг (Jensen Huang), объясняя это национальной спецификой.

Microsoft и OpenAI построят ИИ-суперкомпьютер Stargate за $100 миллиардов

Microsoft и OpenAI разрабатывают проект Центра обработки данных нового поколения с бюджетом $100 млрд и суперкомпьютером для искусственного интеллекта. Объекту присвоено кодовое наименование Stargate, а начало работы над ним намечено на 2028 год.

 Источник изображения: Colin Behrens / pixabay.com

Источник изображения: Colin Behrens / pixabay.com

О масштабном совместном проекте Microsoft и OpenAI сообщил ресурс The Information и «три человека, которые участвовали в частных беседах по поводу этого предложения». Один из источников лично обсуждал вопрос с главой OpenAI Сэмом Альтманом (Sam Altman) и ознакомился с предварительными сметами расходов Microsoft: строительство нового ЦОД и ИИ-суперкомпьютера обойдётся в $100 млрд, то есть в сто раз дороже ряда наиболее крупных и мощных ЦОД на планете.

План по разработке и строительству суперкомпьютеров Microsoft и OpenAI включает пять этапов — сейчас компании находятся в середине третьего, а значительная часть бюджетов двух последующих будет направлена на приобретение ИИ-ускорителей в необходимых объёмах. Четвёртый этап, о котором будет объявлено в 2026 году, включает создание суперкомпьютера для OpenAI. Пятый предполагает строительство крупнейшего на рынке суперкомпьютера Stargate с миллионами чипов для ИИ — его планируют завершить к 2030 году. В действительности расходы на объект могут превысить $115 млрд, передаёт The Information, и это втрое превышает расходы Microsoft на серверы, здания и другое оборудование в 2023 году.

«Мы всегда планируем новое поколение инфраструктурных инноваций, чтобы продолжать раздвигать границы возможностей ИИ», — прокомментировал проект представитель Microsoft агентству Reuters. В конце минувшего года Microsoft представила два собственных ИИ-чипа, а Nvidia недавно анонсировала самый мощный ускоритель Blackwell B200 — он, по словам главы компании Дженсена Хуанга (Jensen Huang), обойдётся от от $30 000 до $40 000.

OpenAI представила ИИ Voice Engine, который клонирует ваш голос по 15-секундному образцу

OpenAI представила результаты предварительного тестирования ИИ-модели Voice Engine, которая на основе 15-секундного образца может реалистично озвучить введённый текст, стараясь максимально точно передать голос и речевые особенности говорящего.

 Источник изображения: Unsplash, Igor Omilaev

Источник изображения: Unsplash, Igor Omilaev

Первые наработки Voice Engine появились в конце 2022 года и использовались в API для преобразования текста в речь, а также совместно с ChatGPT Voice and Read Aloud. В OpenAI осознают последствия возможного злоупотребления технологией синтезированных голосов, поэтому надеется получить отклик от общества по возможным опасностям и сферам применения. Что касается последних, с прошлого года OpenAI предложила протестировать Voice Engine небольшой группе партнёров — и получила примеры использования:

  • Помощь имеющим проблемы с чтением людям и детям посредством естественных, эмоциональных и разнообразных голосов. Так, специализирующаяся на образовательных технологиях компания Age of Learning использует Voice Engine для озвучки контента, а также, совместно с GPT-4, персонализированных ответов учащимся в реальном времени.
  • Перевод контента, например, видеороликов и подкастов, позволит авторам и компаниям расширить аудиторию по всему миру, сообщая информацию собственными голосами и голосами сотрудников. Одним из первопроходцев стала компания HeyGen — ИИ-платформа визуального повествования для корпоративных клиентов, предназначенная для создания человекоподобных аватаров в различных целях — от продуктового маркетинга до торговых предложений. Voice Engine сохраняет родной акцент диктора, поэтому при озвучении английского текста французским диктором будет слышен французский акцент.
  • Поддержка людей с проблемами речи, терапевтические приложения, образовательные дополнения. Livox — ИИ-приложение для устройств альтернативной и дополненной коммуникации помогает людям с проблемами в общении. Используя Voice Engine, Livox предложит немым людям уникальные, нероботозированные голоса. Пользователь может выбрать наиболее подходящий ему голос, который будет говорить на разных языках.
  • Помощь в восстановлении голоса при внезапных и дегенеративных нарушениях речи. Институт Нейронаук Нормана Принца (NPNI) проводит пилотную программу помощи людям с онкологическими или неврологическими нарушениями речи. Благодаря способности Voice Engine воcпроизводить речь по 15-секундному образцу, доктора Фатима Мирза (Fatima Mirza), Рохаид Али (Rohaid Ali) и Константина Свокос (Konstantina Svokos) воспользовались аудиозаписью из видеоролика для школьного проекта и восстановили голос молодой пациентки с проблемами речи из-за сосудистой опухоли мозга.

Партнёры OpenAI согласились с правилами использования технологии, запрещающими с её помощью выдавать себя за другого человека, чего не скажешь о возможных злоумышленниках, всё чаще использующих нейросетевые технологии в преступных целях.

OpenAI попытается заинтересовать Голливуд ИИ-генератором видео Sora

Компания OpenAI планирует провести на следующей неделе встречи в Лос-Анджелесе с представителями голливудских студий, руководителями СМИ и агентствами по поиску талантов. Компания хочет сформировать партнёрские отношения с представителями индустрии развлечений и предложить кинематографистам использовать в своей работе новый ИИ-сервис для генерации видео Sora, пишет Bloomberg со ссылкой на источники.

 Источник изображения: Andrew Neel

Источник изображения: Andrew Neel

До этого, в конце февраля главный операционный директор OpenAI Брэд Лайткеп (Brad Lightcap) вместе с коллегами демонстрировал в Голливуде возможности Sora, позволяющего генерировать реалистичные видеоролики продолжительностью до минуты на основе текстовых подсказок пользователей. Несколько дней спустя гендиректор OpenAI Сэм Альтман (Sam Altman) посетил мероприятия в Лос-Анджелесе, посвящённые церемонии вручения премии Оскар, на которых, по всей видимости тоже информировал представителей медиабизнеса о возможностях Sora.

OpenAI представила ИИ-генератор видео Sora в середине февраля, и его возможности сразу привлекли внимание Голливуда и Кремниевой долины. Хотя нейросеть Sora пока недоступна для широкой публики, ею уже могут воспользоваться некоторые известные актёры и режиссёры.

«У OpenAI есть продуманная стратегия работы в сотрудничестве с промышленностью посредством процесса итеративного развёртывания — поэтапного внедрения достижений ИИ — чтобы обеспечить безопасное внедрение и дать людям представление о том, что нас ждёт на горизонте», — сказал представитель OpenAI. «Мы рассчитываем на постоянный диалог с художниками и креативщиками», — добавил он.

Конкуренты OpenAI, технологические гиганты Meta Platforms и Google, ранее представили исследовательские проекты по преобразованию текста в видео. Над данной технологией также работают такие ИИ-стартапы, как Runway AI, Pika и Stability AI.

Лидирующая в этом сегменте Runway ранее сообщила Bloomberg, что её сервис преобразования текста в видео Runway Gen-2 уже используют миллионы людей, включая профессионалов производственных и анимационных студий, которые полагаются на него при предварительной визуализации и раскадровке. Монтажёры фильмов с помощью сервиса создают видеоролики, сочетая их с другим отснятым контентом для создания рекламных роликов или визуальных эффектов.

Магазин чат-ботов ChatGPT провалился, но им пользуются ученики школ и университетов

Генеральный директор OpenAI Сэм Альтман (Sam Altman) рассчитывал, что площадка кастомных чат-ботов на основе ChatGPT поможет компании расширить бизнес, но на практике она привлекла довольно специфический контингент, а некоторые проекты, возможно, нарушают правила использования платформы.

 Источник изображения: Growtika / unsplash.com

Источник изображения: Growtika / unsplash.com

Среди наиболее популярных спецверсий ChatGPT значатся проекты, работающие в образовательных целях, есть и инструменты для поиска и пересказа научных работ, сообщает Financial Times со ссылкой на данные исследования LikeWeb. В этом году отметился рост популярности дизайнерских инструментов с генерацией изображений, переводчики и средства для кадровиков, помогающие обрабатывать резюме и сопроводительные письма. Некоторые из проектов, возможно, нарушают политику OpenAI, которая запрещает создавать чат-боты, предоставляющие финансовые, юридические и медицинские консультации без одобрения квалифицированными специалистами.

Пять из наиболее просматриваемых приложений провозглашаются разработчиками как способные создавать контент, который проходит проверку применяемых в школах и университетах средств обнаружения материалов, созданных ИИ. Эти кастомные чат-боты в общей сложности набрали не менее 3 млн просмотров, хотя OpenAI напрямую запрещает приложения, позволяющие жульничать в академической среде или пропагандирующие такие действия.

 Источник изображения: ft.com

Источник изображения: ft.com

Более 200 тыс. раз люди пользовались приложением Finance Wizard, которое якобы предсказывает будущую динамику акций. Оно составляет прогнозы на основе исторических данных, а его описание включает заявление об отказе от ответственности, предостерегающее от его использования как инструмента финансовых рекомендаций, подчеркнул разработчик.

В прошлом году Сэм Альтман пообещал, что OpenAI позаботится о соответствии чат-ботов её политике — в этом компании должны помогать автоматизированные средства, анализ сотрудников компании и отзывы пользователей. Аудитория оригинальной версии ChatGPT составляет 100 млн пользователей в неделю, и цифровая платформа с кастомизированными версиями чат-бота призвана способствовать развитию бизнеса компании — иногда эта стратегия рассматривается как попытка повторить успех магазина приложений Apple App Store. В этом году ожидается запуск программы монетизации для разработчиков передовых проектов.

На кастомные чат-боты в феврале пришлись лишь 1,5 % посещений сайта ChatGPT с десктопных компьютеров; еженедельный трафик расти перестал. В OpenAI сообщили, что платформу посетили миллионы пользователей — она будет улучшаться, а отзывы от разработчиков для неё очень важны. Собственные проекты здесь запустили и известные разработчики: туристическое приложение AllTrails, некоммерческая образовательная организация Khan Academy и поисковая система для путешествий Kayak. Одной из первых собственный чат-бот запустила австралийская технологическая компания Canva — он генерирует изображения для соцсетей, а число его просмотров превысило 4,4 млн.

Claude 3 Opus сбросила GPT-4 с первого места в рейтинге языковых моделей

Большая языковая модель (LLM) Claude 3 Opus от Anthropic впервые превзошла GPT-4 (модель в основе ChatGPT) от OpenAI на Chatbot Arena — популярной площадке, где пользователи оценивают качество работы чат-ботов. «Король мёртв», — написал в социальной сети X разработчик ПО Ник Добос [Nick Dobos].

 Источник изображения: Anthropic

Источник изображения: Anthropic

Зашедшим на сайт пользователям Chatbot Arena предлагается ввести запрос, после чего демонстрируются два результата от неуказанных языковых моделей — человек должен выбрать, какой результат нравится больше. Проведя тысячи сравнений, Chatbot Arena заполняет обновляемую рейтинговую таблицу. Сайт управляется исследовательской организацией Large Model Systems Organization (LMSYS ORG), занимающейся открытыми ИИ-моделями.

«Впервые на вершине рейтинга ИИ-модели не от OpenAI: Opus для сложных задач, Haiku — для вариантов, когда нужно дёшево и быстро. Это обнадёживает — от конкуренции разработчиков все только выиграют. Тем не менее, GPT-4 уже больше года, и конкуренты догнали её только сейчас», — прокомментировал событие независимый исследователь ИИ Саймон Уиллисон (Simon Willison).

Сейчас в рейтинге Chatbot Arena представлены четыре версии GPT-4, поскольку с каждым обновлением вывод модели менялся, и некоторые пользователи предпочитают конкретные версии или же пользуются ими всеми для большей стабильности результатов. GPT-4 появилась в Chatbot Arena 10 мая 2023 года, через неделю после запуска рейтинга, и с тех пор различные версии GPT-4 неизменно занимали верхние строчки.

Chatbot Arena ценится исследователями ИИ за возможность более-менее объективно оценить эффективность чат-ботов, что весьма непросто, и ключевым фактором здесь становится множество оценок, складывающихся в общую картину. Субъективные оценки играют немалую роль в сфере ИИ, где разработчик модели может выбрать конкретные показатели в рекламных целях. «Не так давно я долго программировал с использованием ИИ-модели Claude 3 Opus, и она полностью разгромила GPT-4», — написал в X разработчик ПО для ИИ Антон Бакай (Anton Bacaj).

Успех рвущейся к вершинам рейтинга Claude 3 от Anthropic уже подтолкнул некоторых пользователей перейти на неё с GPT-4. Тем временем, набирает популярность Gemini Advanced от Google. Позиции OpenAI пошатнулись, но компания не почивает на лаврах и готовит новые модели, среди которых GPT-5.

OpenAI показала короткометражки, созданные профессионалами на ИИ Sora

OpenAI опубликовала несколько короткометражных фильмов, созданных при помощи высокореалистичного генератора видео на основе искусственного интеллекта Sora. Сама модель, генерирующая видео по статическим изображениям и текстовым описаниям, пока остаётся недоступной для публики.

 Источник изображения: openai.com

Источник изображения: openai.com

Короткометражные ленты были созданы профессионалами творческой отрасли: кинематографистами, художниками, креативными работниками рекламных агентств и музыкантами, которым OpenAI предоставила доступ к модели. «Хотя нам предстоит внести в Sora множество улучшений, мы уже имеем представление о том, как эта модель способна помочь творческим личностям воплотить идеи в действительность», — рассказали в компании.

Руководство OpenAI, по сведениям Bloomberg, уже провело несколько встреч с голливудскими кинематографистами и представителями студий, стремясь повысить интерес к применению Sora в обычном крупнобюджетном кинопроизводстве. Тем временем зрители уже подвергли критике создателей независимого фильма ужасов «Поздний вечер с дьяволом» (Late Night With The Devil), которые использовали при его создании созданные ИИ статические изображения. Звучали призывы бойкотировать ленту за то, что её создатели прибегли к помощи ИИ вместо традиционного найма художников.

Эд Ньютон-Рекс (Ed Newton-Rex), гендиректор некоммерческой организации Fairly Trained, которая взялась сертифицировать модели ИИ, обученные добросовестно на лицензионных материалах, выразил сомнение, что Sora обучалась на лицензированном контенте. OpenAI продолжительное время не комментировала этот аспект разработки Sora, но впоследствии технический директор компании Мира Мурати (Mira Murati) заверила, что это были общедоступные и лицензированные данные, а также видеозаписи, полученные в рамках лицензионного соглашения с Shutterstock.

Больше роликов можно найти в официальном блоге OpenAI.

window-new
Soft
Hard
Тренды 🔥
Илон Маск запустил «абсолютно жёсткую» волну увольнений в Tesla 2 ч.
Тодд Говард заинтриговал фанатов намёком на неанонсированные игры Fallout 3 ч.
Apple переманила из Google десятки ИИ-инженеров и запустила секретную ИИ-лабораторию 4 ч.
Еврокомиссия не исключает полного запрета TikTok в Евросоюзе 4 ч.
Нелинейное приключение Lost Records: Bloom & Rage от создателей Life is Strange разделят на два эпизода — опубликован новый трейлер 5 ч.
Утилита llamafile для быстрого запуска ИИ-моделей получила расширенную поддержку ускорителей AMD и свежих LLM 5 ч.
Тодд Говард раскрыл, когда выйдет дополнение Shattered Space к Starfield и как Bethesda будет улучшать игру 6 ч.
Живописный боевик Dungeons of Hinterberg получил новый трейлер и дату выхода — это смесь «Зельды» и Persona, но в Альпах 7 ч.
Календарь релизов 29 апреля – 5 мая: Indika, Forewarned и Let Bions Be Bygones 8 ч.
ChatGPT получил новую функцию памяти, которая запоминает предпочтения пользователей 13 ч.