реклама
Теги → нейросеть
Быстрый переход

NVIDIA представила сервис для создания нейросетей для продвинутых NPC в играх

Компания NVIDIA в рамках своей презентации на выставке Computex 2023 представила сервис Avatar Cloud Engine (ACE) for Games, который позволит сделать умнее неигровых персонажей (NPC) в играх. Представленный сервис позволит разработчикам создавать собственные ИИ-модели, которые позволят генерировать для NPC более естественную речь, включая диалоги, а также движения.


Источник изображения: NVIDIA

Как отметила NVIDIA, разработчики промежуточного программного обеспечения, инструментов разработки и самих игр смогут использовать ACE for Games для создания и развертывания индивидуальных моделей ИИ для генерации речи, разговоров и анимации в своём программном обеспечении и играх.

«Генеративный ИИ способен произвести революцию в интерактивном взаимодействии игроков с игровыми персонажами и значительно повысить степень погружения в игру, — говорит Джон Спитцер (John Spitzer), вице-президент NVIDIA по технологиям для разработчиков. — Опираясь на нашу компетенцию в области ИИ и десятилетия опыта работы с разработчиками игр, NVIDIA возглавляет использование генеративного ИИ в играх».

Основываясь на NVIDIA Omniverse, сервис ACE for Games предоставляет оптимизированные базовые ИИ-модели для речи, разговора и анимации персонажей, включая:

  • NVIDIA NeMo — для создания, настройки и развертывания языковых моделей на собственных наборах данных разработчиков. Большие языковые модели могут быть настроены в соответствии с историями и предысториями персонажей, а также обладают защитой от «контрпродуктивных или небезопасных» разговоров с помощью NeMo Guardrails.
  • NVIDIA Riva — для автоматического распознавания речи и преобразования текста в речь. Эта модель позволяет вести в игре естественный разговор в реальном времени.
  • NVIDIA Omniverse Audio2Face — для мгновенного создания выразительной лицевой анимации игрового персонажа под любую речевую дорожку. Audio2Face включает коннекторы Omniverse для Unreal Engine 5, так что разработчики могут добавлять лицевую анимацию непосредственно к персонажам MetaHuman.

Как отмечают в NVIDIA, разработчики могут интегрировать все решение NVIDIA ACE for Games или использовать только те компоненты, которые им необходимы.

NVIDIA сотрудничала со стартапом Convai, чтобы продемонстрировать, как разработчики скоро смогут использовать NVIDIA ACE for Games для создания NPC. Сфокусированная на разработке передового разговорного ИИ для виртуальных игровых миров Convai интегрировала модули ACE в свою сквозную платформу аватаров реального времени. В демо под названием Kairos игроки взаимодействуют с Джином, владельцем кафе. Хотя он является NPC, Джин отвечает на запросы на естественном языке реалистично и в соответствии с предысторией повествования — всё это с помощью генеративного ИИ.

Нейросети NVIDIA ACE for Games оптимизированы для различных потребностей, предлагают разные варианты по размеру, производительности и качеству. Сервис ACE for Games поможет разработчикам точно настроить модели для своих игр, а затем развертывать через облачные системы NVIDIA DGX или прямо на ПК с видеокартами GeForce RTX в режиме реального времени подведения итогов.

Наконец NVIDIA отметила, что разработчики игр и стартапы уже используют её технологии генеративного ИИ для своих рабочих процессов:

  • GSC Game World внедряет Audio2Face в свою предстоящую игру S.T.A.L.K.E.R. 2 Heart of Chernobyl.
  • Fallen Leaf, инди-разработчик игр, использует Audio2Face для лицевой анимации персонажей в Fort Solis, научно-фантастическом триллере от третьего лица, действие которого происходит на Марсе.
  • Charisma.ai, компания, создающая виртуальных персонажей с помощью искусственного интеллекта, использует Audio2Face для анимации в своем разговорном движке.

Доступ к нейросети YandexGPT появился на главной странице «Яндекса»

Команда разработчиков «Яндекса» сообщила о доступности нейросети нового поколения YandexGPT (YaLM 2.0) на главной странице поискового сервиса ya.ru — в виртуальном помощнике «Алиса».

Как сообщают в пресс-службе компании, в веб-версии YandexGPT удобно составлять бизнес-планы, коммерческие предложения или тезисы для предстоящего выступления на совещании. Для доступа к сервису необходимо кликнуть по значку «Алисы» и выбрать «Давай придумаем».

Обучение ИИ-модели производилось на суперкомпьютерах «Яндекса». Дообучение нейросети проходило на «сотнях тысяч примеров содержательных и хорошо написанных ответов», для подготовки которых использовались технологии краудсорсинга и команда специальных ИИ-тренеров. Тем мне менее, в компании подчёркивают, что пока бот может ошибаться в некоторых фактах, но ведётся работа над устранением ошибок.

О том, что «Яндекс» ведёт разработку генеративной сети на базе языковой модели YaLM (Yet another Language Model), сообщалось ещё в январе. В итоге проект получил имя YandexGPT.

По некоторым данным, в марте и апреле в «Яндексе» были открыты вакансии для специалистов-гуманитариев, включая журналистов, педагогов, филологов, а также редакторов-профессионалов и представителей других профессий, для помощи в обучении нейросети. Известно, что в начале прошлого месяца компанией также была представлена нейросеть «Шедеврум» для генерации изображений по текстовым описаниям.

«Русский Краб» запустил свои нейросети в beeline cloud

Российский поставщик ИТ-услуг и облачных сервисов beeline cloud (билайн облако) предоставил виртуальную инфраструктуру для реализации проекта группы компаний «Русский Краб», разработанного с применением технологий искусственного интеллекта.

 Источник изображения: russiancrab.ru

Источник изображения: russiancrab.ru

Мобильное приложение CrabMIC, созданное специалистами крабопромысловой компании — уникальная для промысловой индустрии разработка, которая позволяет унифицировать подход к определению качества продукции и полностью исключает субъективную оценку процента наполнения варено-мороженых конечностей краба мясом. Расчёт его содержания в единице продукции автоматизирован благодаря применению технологий искусственного интеллекта.

«Русский Краб» ежегодно добывает около 12 тыс. т краба и стремится максимально эффективно осваивать квоты на добычу ценного водного биоресурса. Компания строит современный флот, внедряет в работу новые инструменты управления производством.

Размещение приложения в beeline cloud позволило сократить затраты на оборудование для этапа тестовой версии приложения, а также проверить набор гипотез о производительности благодаря гибкой настройке конфигурации оборудования. Облако билайн обеспечивает управление пулом ресурсов «на ходу» и без переплаты за неиспользованные мощности. Кроме того, нагрузка по администрированию и решению вопросов информационной безопасности также минимальна.

«Мы рады предоставить наше облако и экспертизу заказчику с современными и передовыми взглядами на ведение бизнеса в одной из ключевых отраслей экономики. Таким образом, мы помогаем партнёру сосредоточиться на более приоритетных ИТ-задачах, которые, в конечном итоге, совершенствуют подходы к рациональному использованию биоресурсов», — сообщил Сергей Кондратьев, коммерческий директор beeline cloud.

«Цифровизация производства является приоритетным направлением деятельности компании. Применение ИТ-инструментов позволяет повысить эффективность традиционных для крабопомысловой отрасли технологий. Облачные сервисы beeline cloud вполне отвечают целям нашего нового проекта. В ближайшее время планируем увеличить использование ресурсов beeline cloud для обеспечения доступа к приложению большего количества пользователей в странах, участвующих в международной торговле продукцией из краба», — поделился планами Рязанов Игорь, руководитель направления по оптимизации и автоматизации производственных процессов ГК «Русский Краб».

Реклама ПАО «ВымпелКом», подробнее на сайте: beeline.ru

В «Алису» встроили нейросеть YandexGPT, которая пишет тексты и генерирует идеи «как разбирающийся человек»

Команда разработчиков «Яндекса» объявила о включении большой языковой модели нового поколения YandexGPT в состав виртуального помощника «Алиса». Как сообщает пресс-служба компании, нейросеть способна писать тексты и генерировать идеи «почти так же хорошо, как разбирающийся в теме человек».

Источник изображения:

Источник изображения: "Яндекс"

Благодаря тому, что «Алиса» присутствует в огромном числе устройств, новая технология появилась в базовом приложении «Яндекса», в браузере, колонках-станциях и умных телевизорах. Для того чтобы поставить «Алисе» творческую задачу, достаточно обратиться к ней: «Алиса, давай придумаем!», после чего она займётся поиском подходящего решения. Благодаря использованию нейросети виртуальный ассистент поможет придумать заголовок, составить сценарий для мероприятия, план путешествия и даже текст делового письма. Можно попросить нейросеть подобрать наилучший подарок.

Источник изображения:

Источник изображения: "Яндекс"

По словам разработчиков, пока «Алиса» не запоминает контекст диалога и даёт ответы, не обращая внимания на предыдущие реплики. В будущем голосовой помощник научится учитывать контекст беседы.

Источник изображения:

Источник изображения: "Яндекс"

Известно, что YandexGPT обучали на суперкомпьютерах «Яндекса», по данным компании — самых мощных в России и Восточной Европе. Для начала сети предоставили для обучения общедоступные тексты из интернета, отобранные с помощью поисковых алгоритмов «Яндекса». Дообучение проходило на «сотнях тысяч примеров содержательных и хорошо написанных ответов», для подготовки которых использовались технологии краудсорсинга и команда специальных ИИ-тренеров.

По словам разработчика, сегодняшняя премьера является первым шагом на пути обучения нейросети и, следовательно, «Алисы». В перспективе технология будет внедряться в различные сервисы компании, включая поиск. В начале месяца сообщалось о планах «Яндекса» научить «Алису» говорить на разных языках.

В Zoom интегрируют ИИ-бот Anthropic — он автоматизирует общение бизнес-пользователей с клиентами

Сервис видеоконференций Zoom объявил о намерении повысить производительность своей платформы за счёт интеграции чат-бота Claude, который построен на основе нейросети специалистами компании Anthropic. На начальном этапе ИИ-бот появится в сервисе Contact Center, который используется бизнес-партнёрами Zoom в качестве канала для поддержки клиентов.

 Источник изображения: Zoom

Источник изображения: Zoom

В заявлении сказано, что запущенный в марте чат-бот Claude позволит специалистам служб поддержки клиентов обеспечить «лучшие функции самообслуживания», которые помогут клиентам решить их проблемы. Zoom ещё не определилась, каким образом чат-бот будет интегрироваться в другие продукты, такие как Team Chat, Meetings, Phone, Whiteboard и Zoom IQ.

Однако разработчики намерены со временем реализовать возможности ИИ-алгоритма для повышения производительности платформ и усиления конкуренции с аналогичными сервисами других компаний. В арсенале Zoom уже есть набор ИИ-функций, реализованных в Zoom IQ благодаря партнёрству с Open AI. В настоящее время пользователи сервиса могут использовать нейросеть для генерации черновиков сообщений и резюме на основе текстовых подсказок.

В дополнение к этому, дочернее подразделение Zoom Ventures, которое занимается инвестированием в стартапы, объявило о намерении продолжить сотрудничать с Anthropic, которую также поддерживает Google. В компании уверены, что партнёрство с Open AI и Anthropic поможет дальнейшему развитию бизнеса и позволит интегрировать в сервисы Zoom передовые функции, востребованные среди пользователей.

Google объявила, что переосмыслит интернет-поиск с помощью ИИ — без чат-бота, но со ссылками на источники

Нет сомнения в том, что будущее поисковой системы Google будет тесно связано с технологиями искусственного интеллекта. При этом IT-гигант не делает основную ставку на создание ИИ-бота, как это сделала Microsoft в своём Bing, хотя продолжает активно развивать систему Bard, и не станет менять дизайн домашней страницы. Вместо этого Google интегрирует возможности генеративных нейросетей в результаты поисковой выдачи.

 Источник изображений: Google

Источник изображений: Google

Вице-президент Google по поисковым продуктам Лиз Рид (Liz Reid) показала несколько примеров того, как изменится поисковик компании в скором времени. В одном из примеров она ввела в поисковой строке запрос: «Почему хлеб из закваски всё ещё популярен?» Практически сразу на экране появились результаты поиска в привычном всем виде. Над выдачей отобразился оранжевый баннер «Генеративный ИИ является экспериментальным». Через несколько секунд вместо баннера появилось резюме, сгенерированное нейросетью. Оно представляет собой несколько абзацев, в которых кратко описано, насколько хорош хлеб из закваски на вкус, в чём его преимущества и др. В дополнение к этому приводится блок с тремя ссылками на ресурсы, перейдя по которым пользователь может проверить достоверность информации, сгенерированной ИИ.

В Google это называют ИИ-снимком. Все данные, выводимые в поисковую выдачу в виде резюме, собираются с помощью больших языковых моделей из открытых интернет-источников. Затем Рид изменила способ представления информации в блоке, нажав кнопку в правой верхней части браузера, которую дизайнеры называют «Лапа медведя». После этого вид ИИ-снимка изменился, текст разделился на отдельные предложения, а ссылки на источники информации отобразились ниже. Рид отметила, что этот момент является ключевым в том, чем отличается реализация технологий на основе ИИ в Google. IT-гигант хочет, чтобы ИИ сообщал пользователям о том, в каких источниках он искал данные и указывал на то, где пользователь может узнать больше об интересующем его вопросе.

Второй пример был связан с поиском лучших Bluetooth-колонок для вечеринки. Снова сначала отобразились стандартные результаты поиска, а позднее в верхней части отобразился блок информации, сгенерированный нейросетью. На этот раз в резюме были включены данные о том, на что следует обратить внимание при выборе Bluetooth-колонки, а справа появились три ссылки на руководства по выбору устройств такого типа. Под резюме отобразилось несколько ссылок на конкретные модели, каждая из которых дополняется кратким описанием, сгенерированным ИИ. Когда Рид дополнила запрос фразой «до $100» резюме обновилось в соответствии с новым данными, а внизу появились соответствующие критериям товары.

Новый вид страницы поисковой выдачи Google ориентирован на использование ИИ и совсем не похож на то, к чему привыкли пользователи. Разработчики реализовали в поиске некоторые из передовых разработок компании в области больших языковых моделей, включая модель общего назначения PaLM2 и многозадачную унифицированную модель (MuM), которая используется для повышения качества обработки сложных запросов.

Чтобы получить доступ к ИИ-снимкам пользователям потребуется присоединиться к программе Search Generative Experience, которая является частью сервиса Search Labs. Отмечается, что не все поисковые запросы будут приводить к появлению в выдаче ИИ-снимков. Они будут генерироваться только в случаях, когда Google посчитает, что ИИ-снимок будет более полезен, чем стандартный результат поиска. Кроме того, на данном этапе вмешательство нейросетей полностью исключено из запросов на важные темы, такие как здоровье или финансы.

via GIPHY

Представители Google подчёркивают, что SGE является экспериментом, но при этом компания рассматривает такой подход как основополагающее долгосрочное изменение в том, как пользователи будут взаимодействовать с поисковиком. В конечном счёте SGE может стать первым шагом на пути полного переосмысления того, как миллиарды людей ищут информацию в интернете. Google давно научилась обрабатывать определённые категории запросов. Однако есть множество запросов, на которые поисковик ранее не мог дать ответа. Например, вопрос «куда мне пойти в Париже на следующей неделе» или «какой лучший ресторан в Токио» сложно обработать, потому что на самом деле это не один вопрос. Подобных запросов огромное множество и очевидно, что ИИ поможет дать ответы на них, поскольку нейросети могут собирать различную информацию структурировать её и выдавать в удобном виде пользователю.

В Google Фото появится инструмент Magic Editor — он умеет дорисовывать фото с помощью ИИ

Google намерена интегрировать функции на основе генеративных нейросетей во многие свои продукты, в том числе в приложение Google Фото, которое позволяет хранить и редактировать изображения. На проходящем на этой неделе мероприятии Google I/O разработчики анонсировали «экспериментальный» инструмент Magic Editor, который способен не только редактировать снимки, но и буквально перерисовывать их для получения нужного результата.

 Источник изображения: Google

Источник изображения: Google

С помощью Magic Editor пользователи могут перемещать объекты на фото, изменять их размер, удалять ненужные элементы или, например, заменить пасмурное небо солнечным. Отметим, что в Google Фото уже присутствуют функции, построенные на основе нейросетей. К таким инструментам относятся Magic Eraser, позволяющий удалять со снимков лишние объекты, а также Magic Unblur, позволяющий увеличить резкость изображения. Однако Magic Editor поможет сделать большой шаг вперёд, поскольку функция будет генерировать контент и эффективно пересоздавать снимки, которые требуется отредактировать.

Вероятно, анонсированная функция будет полезна в случаях, когда требуется спасти неудачный снимок, сделав его более качественным. Однако при этом нейросеть будет генерировать события, которых фактически никогда не было. Возможные последствия использования Magic Editor добавят новые пункты к списку этических вопросов, связанных с генеративными нейросетями.

Согласно имеющимся данным, бета-версия Magic Editor станет доступна владельцам некоторых смартфонов Pixel в конце этого года. Компания предупреждает, что результат работы новой функции может не соответствовать ожиданиям пользователей и разработчики продолжат собирать отзывы для повышения качества обработки снимков с помощью Magic Editor.

Бета-версия Microsoft Edge начала показывать рекламу ИИ-бота Bing на странице Google Bard

На этой неделе состоялся релиз очередной бета-версии браузера Microsoft Edge, предназначенной для разработчиков. Наиболее заметным нововведением в этой версии приложения стало появление рекламы чат-бота поисковика Bing, которая выводится прямо в адресной строке, когда пользователь переходит на страницу ИИ-бота Google Bard.

 Источник изображений: Neowin

Источник изображений: Neowin

Очевидно, Microsoft тестирует новый вариант продвижения своего ИИ-бота, пытаясь отвлечь пользователей от использования аналогичного инструмента конкурентов. Согласно имеющимся данным, при переходе на страницу bard.google.com с помощью браузера Edge в правом части адресной строки появляется сообщение: «Сравните ответы с новым Bing на базе искусственного интеллекта».

Сообщение содержит в себе ссылку, после нажатия на которую рабочее пространство браузера делится на две части. Такой интерфейс позволит пользователю одновременно взаимодействовать с ИИ-ботами Bard и Bing, сравнивая их работу в режиме онлайн. По данным источника, упомянутое нововведение появилось в бета-версиях Edge, но будет ли оно интегрировано в стабильные версии обозревателя, пока неизвестно.

«Сбер» представил нейросеть GigaChat, но мемы тут ни при чём

«Сбер» сообщил о разработке собственной мультимодальной нейросети GigaChat (не путать с «Гигачадом» — популярным мемом), которая способна отвечать на вопросы пользователей, поддерживать диалог, писать программный код, создавать тексты и изображения на основе описаний в рамках единого контекста и, в отличие от иностранных сетей, более грамотно общается на русском языке. На первом этапе GigaChat доступна в режиме тестирования по приглашениям.

 Источник изображения: Сбер

Источник изображения: Сбер

Архитектура GigaChat основана на ИИ-платформе NeONKA (NEural Omnimodal Network with Knowledge-Awareness), включающей различные нейросетевые модели и метод supervised fine-tuning, reinforcement learning with human feedback. Такая комбинация обеспечивает способность GigaChat поддерживать беседу, писать тексты, отвечать на фактологические вопросы, а имеющаяся в ансамбле модель Kandinsky 2.1 делает возможным создание изображений по их текстовому описанию.

«Сбер» сообщил, что входящая в состав NeONKA модель ru-GPT 3.5 с 13 млрд параметров будет выложена в открытый доступ в целях ускорения развития сообщества Open Source и технологий в области искусственного интеллекта, что позволит студентам, учёным и разработчикам использовать её в своей работе.

Возможности новой ИИ-модели будут задействованы в виртуальном ассистенте «Салют» и прочих продуктах «Сбера». Сообщается, что первую версию платформы NeONKA оптимизировали по размеру и скорости для применения в высоконагруженных сервисах.

В разработке модели принимают участие команды SberDevices и Sber AI при поддержке Института искусственного интеллекта AIRI и ряда отраслевых экспертов. Обучение нейросети выполнялось на суперкомпьютере Christofari Neo. В настоящее время модель работает в режиме закрытой бета-версии. Для участия в её бесплатном тестировании необходимо вступить в закрытое сообщество в Telegram-канале. В дальнейшем GigaChat будет доступна через облачное API для разработчиков и бизнеса.

NVIDIA представила ИИ, который генерирует видео с высоким разрешением по текстовому описанию

NVIDIA представила свою ИИ-модель для превращения текста в видео под названием VideoLDM, разработанную в сотрудничестве с исследователями из Корнельского университета. Модель способна генерировать видео в разрешении до 2048 × 1280 пикселей с частотой 24 кадра и длительностью до 4,7 секунд на основе текстового описания.

 Источник изображений: NVIDIA

Источник изображений: NVIDIA

В основе модели лежат наработки нейросети Stable Diffusion. Решение NVIDIA имеет до 4,1 млрд параметров, но только 2,7 млрд из них использовали видео для тренировки. Это весьма скромно по меркам современных ИИ. Тем не менее, с помощью эффективного подхода к модели скрытой диффузии (LDM — Latent diffusion model) разработчики смогли создавать разнообразные и согласованные во времени видео высокого разрешения с весьма высоким качеством.

Исследователи выделяют следующие особенности данной модели: генерацию персонализированного видео и свёрточный синтез во времени. Временные слои, которые были обучены в VideoLDM для превращения текста в видео, вставляются в опорные сети LDM изображений, которые заранее точно настроены в наборе изображений DreamBooth. Временные слои обобщаются контрольными точками DreamBooth, что позволяет персонализировать преобразование текста в видео. Применяя изученные временные слои сверточно во времени, можно получить клипы чуть большей продолжительности с незначительным ухудшением качества.

Модель также способна генерировать видео сцен вождения. Видеоролики имеют разрешение 1024 × 512 точек и длительностью до 5 минут. Есть возможность моделирования конкретного сценария вождения, когда за основу берутся ограничивающие рамки для создания интересующей обстановки, синтезируется соответствующий начальный кадр, а затем создаются правдоподобные видеоролики. Помимо этого, модель может сделать мультимодальное прогнозирование сценариев движения, сгенерировав несколько правдоподобных развертываний на основе одного начального кадра.

Данная исследовательская работа является участником Конференции по машинному зрению и распознаванию образов, которая проходит в Ванкувере с 18 по 22 июня. Пока что представленная нейросеть является лишь исследовательским проектом и не ясно, когда что-то подобное NVIDIA выпустит в открытый доступ.

Google научила нейросеть писать 5-минутные песни по текстовому описанию, но вряд ли её когда-либо выпустят

В начале этого года Google представила MusicLM — модель искусственного интеллекта, способную создавать музыку в любом жанре. С тех пор разработчики продолжали развивать алгоритм и теперь он может создавать 5-минутные песни по небольшому текстовому описанию. Однако вероятные проблемы юридического характера вряд ли позволят компании когда-либо сделать этот инструмент общедоступным.

 Источник изображения: Pixabay

Источник изображения: Pixabay

Взрывной рост популярности генеративных нейросетей наблюдается последние несколько месяцев. Однако алгоритмы вроде ChatGPT или DALL-E не являются первопроходцами. Так компания Open AI выпустила музыкальный ИИ-генератор Jukebox ещё в 2020 году. Возможности этого алгоритма были весьма ограничены, поэтому он не смог завоевать популярность.

Нейросеть Google MusicLM, вероятно, является значительно более продуктивной. Согласно имеющимся данным, алгоритм способен генерировать 5-минутные песни на основе текстового описания, причём конечный результат в значительно большей степени напоминает то, что мог бы написать человек. В процессе обучения алгоритма использовались 280 тыс. часов аудиозаписей.

На этапе оценки Google сравнивала MusicLM с другими музыкальными ИИ-генераторами Mubert и Riffusion, а также задействовала некоторое количество слушателей, которые оценивали качество звучания сгенерированных композиций. По данным источника, алгоритм MusicLM превзошёл аналоги по всем показателям. Несмотря на это, алгоритм всё ещё далёк от того, чтобы создавать полноценные песни, поскольку он не способен воспроизводить структуру привычных человеку музыкальных композиций, а генерируемый им вокал лишь отдалённо напоминает пение.

«Яндекс.Браузер» научился переводить видео с китайского языка

Новая функция представлена «Яндексом» в браузере собственной разработки. Теперь он получил возможность осуществлять перевод и закадровую озвучку видео с китайского языка на русский. Для обучения нейросеть использует огромный массив видео на китайском языке, анализируя полученные данные.

 Источник изображения: «Яндекс»

Источник изображения: «Яндекс»

Перевод осуществляется в несколько этапов. При этом нейросеть учитывает тон и контекст речи в видеопотоке. В компании подчеркнули, что ИИ способен различать четыре тона — данные фонетические особенности произношения способны значительно менять смысл почти любого высказывания в китайском языке. Кроме того, система «Яндекса» различает 6,5 тыс. иероглифов.

Как сообщают «Ведомости», для обучения ИИ компания использовала 100 тыс. видеоматериалов с субтитрами на севернокитайском языке, наиболее распространённом на территории Китая.

Для того, чтобы зритель мог воспользоваться переводом и озвучкой с китайского на русский язык, необходимо нажать кнопку «Перевести видео» в «Яндекс.Браузере». Сообщается, что технологией уже можно воспользоваться на YouTube.

Ранее сообщалось о том, что «Яндекс» внедрил многоголосый закадровый перевод видео и возможность синхронного перевода прямых трансляций.

В переводе видео принимают участие сразу четыре нейросети. Одна из них распознаёт речь с последующим преобразованием в текстовый формат, ещё одна идентифицирует пол говорящего по биометрическим данным, третья определяет, в каких местах необходимо расставлять знаки препинания и выделить смысловые фрагменты. Наконец, четвёртая переводит текст.

Meta✴ запустила ИИ-сервис Animated Drawing, который заставляет рисунки двигаться

Компания Meta Platforms сделала общедоступным сервис Animated Drawing, с помощью которого любой желающий может вдохнуть жизнь в свои рисунки. Данный инструмент построен на основе нейросетей и предназначен для того, чтобы превращать рисунки в анимированные изображения.

 Источник изображения: ***

Источник изображения: Meta

Первоначальная версия Animated Drawing была запущена командой разработчиков Fundamental AI Research в 2021 году. Теперь же проект с открытым исходным кодом продолжает развиваться, и в Meta считают, что сторонние разработчики помогут ускорить этот процесс. На данном этапе сервис способен генерировать разные анимации на основе исходного изображения, загруженного пользователем.

Для начала взаимодействия с Animated Drawing достаточно на стартовой странице сервиса загрузить собственный рисунок, на котором изображён какой-либо персонаж. Далее пользователю будет предложено изменить размер окна захвата изображения, а после обработки снимка можно скорректировать получившийся результат для достижения лучшего результата. В конечном итоге пользователь увидит анимированную версию своего персонажа, а также сможет выбирать разные варианты анимации, сгруппированные по нескольким категориям.

В работе Animated Drawing используются алгоритмы обнаружения объектов, оценки позы, сегментации на основе обработки изображений. В дополнение к этому используются традиционные методы компьютерной графики в процессе анимации. За несколько месяцев с момента запуска демо-версии сервиса Meta получила разрешение пользователей на использование более 1,6 млн изображений для обучения алгоритма.

Bloomberg создало свою нейросеть типа GPT, которая разбирается в финансах

Информационное агентство Bloomberg создало нейросеть BloombergGPT, которая способна отвечать на вопросы, связанные с финансами и бизнесом — основными темами данного издания. Новая технология способна писать заголовки на основе аннотаций и подсказывать журналистам, финансистам и другим заинтересованным лицам необходимую информацию.

 Источник изображения: Bloomberg

Источник изображения: Bloomberg

Агентство Bloomberg создало свою модель искусственного интеллекта на той же базовой технологией, что и GPT от OpenAI. Технология Bloomberg натренирована на большом количестве финансовых документов, собранных информагентством за последние 20 лет, которые включают в себя документы о ценных бумагах, пресс-релизы, новости и публикации других изданий. Примерно 50 % информации, содержащейся в нейросети от Bloomberg, было взято из GitHub, «Википедии» и субтитров YouTube.

Создавать чат-бота для конкуренции с ChatGPT агентство не планирует. На данный момент Bloomberg хочет расширить функциональность своего сервиса Terminal для изучения и анализа финансового рынка благодаря возможностям модели искусственного интеллекта.

В Санкт-Петербурге разработали нейросеть, которая распознаёт речь по губам

В Санкт-Петербургском Федеральном исследовательском центре РАН (СПб ФИЦ РАН) создали приложение для смартфона, с помощью которого можно считывать речь пользователя в шумных местах по губам, что позволит повысить точность распознавания слов голосовыми помощниками в сложных условиях, пишет ТАСС.

 Источник изображения: Pixabay

Источник изображения: Pixabay

В пресс-службе СПб ФИЦ РАН отметили, что приложение можно будет использовать в широком перечне отраслей с применением голосовых команд — от сферы услуг до тяжёлой промышленности.

Как сообщается, в основе приложения лежит нейросетевая модель, способная распознавать по аудиовизуальным сигналам (видеозаписям, сопровождающимися звуком) несколько сотен наиболее распространённых команд и автоматически определять, какой вид данных обеспечивает максимальную точность — видео или звук, или оба сразу.

«Исследователи Санкт-Петербургского Федерального исследовательского центра РАН научились при помощи алгоритмов искусственного интеллекта и компьютерного зрения распознавать речь человека по губам. Разработка поможет повысить точность работы голосовых помощников в шумных условиях, например, в людных местах или при управлении тяжёлой техникой», — рассказали в пресс-службе корреспонденту ТАСС.

Программа прошла тестирование в одной из логистических компаний в России. Для этого приложение было установлено на смартфоны водителей шумных большегрузных автомобилей. Тестирование подтвердило тот факт, что совмещение двух видов считывания информации повышает эффективность работы алгоритмов — если при чтении по губам точность распознавания команд составила 60–80 %, то в сочетании со звуковым сигналом точность распознавания превышает 90 %.

«Мы предполагаем, что в будущем наше приложение может найти применение у пилотов самолётов и тяжёлой промышленной техники или для использования в интерактивных информационных киосках в торговых центрах и других местах массового скопления людей», — сообщил старший научный сотрудник лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН Денис Иванько.

Также следует отметить, что на проведение разработки был выделен грант Российского научного фонда.

window-new
Soft
Hard
Тренды 🔥
Новая игра создателей The Invincible отправит в сердце ада выживать и спасать жизни — первый трейлер и подробности Dante’s Ring 45 мин.
Центр ФСБ по компьютерным инцидентам разорвал договор с Positive Technologies 3 ч.
Android упростит смену смартфона — авторизовываться в приложениях вручную больше не придётся 3 ч.
OpenAI обдумывает создание собственного интернет-браузера и поисковых систем для противостояния Google 3 ч.
Apple разрабатывает LLM Siri — она будет больше похожа на человека и выйдет с iOS 19 4 ч.
Новая статья: Верные спутники: 20+ полезных Telegram-ботов для путешественников 10 ч.
Итоги Golden Joystick Awards 2024 — Final Fantasy VII Rebirth и Helldivers 2 забрали больше всех наград, а Black Myth: Wukong стала игрой года 11 ч.
В программу сохранения классических игр от GOG вошли S.T.A.L.K.E.R. Shadow of Chernobyl и Call of Pripyat, а Clear Sky — на подходе 12 ч.
Star Wars Outlaws вышла в Steam с крупным обновлением и дополнением про Лэндо Калриссиана 14 ч.
Рекордная скидка и PvP-режим Versus обернулись для Warhammer: Vermintide 2 полумиллионом новых игроков за неделю 15 ч.
Второй электромобиль Xiaomi выйдет через год после первого и будет заметно от него отличаться 36 мин.
Oracle объявила о доступности облачного ИИ-суперкомпьютера на базе NVIDIA H200 46 мин.
Positive Technologies получила сертификат ФСТЭК на межсетевой экран PT NGFW 3 ч.
Google снова уходит с рынка планшетов, сворачивая разработку Pixel Tablet 2 3 ч.
Представлен внешний SSD SanDisk Extreme на 8 Тбайт за $800 и скоростной SanDisk Extreme PRO с USB4 11 ч.
Представлен безбуферный SSD WD_Black SN7100 со скоростью до 7250 Мбайт/с и внешний SSD WD_Black C50 для Xbox 11 ч.
Новая статья: Обзор ноутбука ASUS Zenbook S 16 (UM5606W): Ryzen AI в естественной среде 11 ч.
Redmi показала флагманский смартфон K80 Pro и объявила дату его премьеры 13 ч.
Астрономы впервые сфотографировали умирающую звезду за пределами нашей галактики — она выглядит не так, как ожидалось 16 ч.
Представлена технология охлаждения чипов светом — секретная и только по предварительной записи 17 ч.