реклама
Теги → машина
Быстрый переход

Китайцы разработали процессор для машинного зрения, который в 3000 раз быстрее и в 4 млн раз эффективнее современного GPU

Учёные из китайского университета Цинхуа разработали полностью аналоговый фотоэлектронный чип ACCEL, который обещает совершить революцию в задачах высокоскоростного машинного зрения. Чип, сочетающий электронные и оптические технологии, способен продемонстрировать беспрецедентную энергоэффективность и высочайшую скорость вычислений для задач машинного зрения. В этой сфере новый чип радикально превосходит современные графические процессоры.

 Источник изображения: Pixabay

Источник изображения: Pixabay

Традиционные процессоры обладают ограниченной скоростью вычислений и потребляют колоссальное количество энергии при решении задач машинного зрения, таких как распознавание изображений для автономного вождения, робототехники и медицинской диагностики. Эти задачи требуют обработки изображений с высоким разрешением, точной классификации и сверхнизкой задержки.

Чип ACCEL реализует преимущества развивающейся области фотонных вычислений, которые используют свет для обработки информации. Интегрируя дифракционные оптические аналоговые вычисления (OAC) и электронные аналоговые вычисления (EAC) в одном чипе, ACCEL достигает замечательной энергоэффективности и скорости вычислений.

Метод OAC использует управление световыми волнами посредством дифракции для кодирования и обработки информации. При помощи интерференционных паттернов, создаваемых светом, вычисления производятся аналоговым способом, обрабатывая данные непрерывно, а не дискретными цифровыми шагами. Метод EAC использует электронные компоненты для манипулирования непрерывными физическими величинами. Вместо работы с цифровыми сигналами в виде нулей и единиц, EAC использует постоянно меняющиеся аналоговые сигналы.

 Архитектура ACCEL / Источник изображения: Tsinghua University

Архитектура ACCEL / Источник изображения: Tsinghua University

Оба метода дают преимущества для определённых видов вычислений и способствуют разработке задач высокоскоростного зрения.

ACCEL при обработке изображений не требует АЦП для преобразования изображения, напрямую используя для вычислений фототоки, индуцированные светом, что приводит к значительному сокращению задержек. ACCEL достигает системной энергоэффективности 74,8 пета-операций в секунду на ватт, что более чем на три порядка выше, чем у современных графических процессоров. Скорость вычислений достигает 4,6 пета-операций в секунду, при этом более 99 % вычислений выполняются оптически.

Благодаря интеграции оптоэлектронных вычислений и адаптивного обучения ACCEL достигает конкурентоспособной точности классификации объектов в различных задачах. Новый чип продемонстрировал точность 85,5 %, 82,0 % и 92,6 % для задач Fashion-MNIST, 3-классовой классификации ImageNet и задач распознавания покадрового видео соответственно. Примечательно, что ACCEL демонстрирует высокую надёжность даже в условиях низкой освещённости, что делает его пригодным для портативных устройств, автономного вождения и промышленных применения.

 Сравнение скорости и энергоэффективности ACCEL с традиционными методами / Источник изображения: Tsinghua University

Сравнение скорости и энергоэффективности ACCEL с традиционными методами / Источник изображения: Tsinghua University

Сверхнизкое энергопотребление нового чипа значительно снижает тепловыделение, открывая путь дальнейшему совершенствованию и миниатюризации. В отличие от традиционных оптоэлектронных цифровых вычислительных систем, ACCEL гибко сочетает дифракционные оптические вычисления и электронные аналоговые вычисления, а его архитектура обеспечивает масштабируемость, нелинейность и высокую адаптируемость.

В исследовании, опубликованном в журнале Nature, исследователи заявили: «Разработка вычислительной системы, основанной на совершенно новом принципе, является огромной задачей. Однако ещё более важно успешно реализовать эту вычислительную архитектуру следующего поколения в реальные приложения, отвечающие важнейшим потребностям общества».

В рецензии на исследование, опубликованной в журнале Nature's Research Briefing, эксперты высказали убеждение, что «ACCEL может позволить этим архитектурам сыграть роль в нашей повседневной жизни гораздо раньше, чем ожидалось».

Всё новое — это, несомненно, хорошо забытое старое. Самым первым аналоговым вычислительным устройством является хорошо знакомая старшему поколению логарифмическая линейка.

 Источник изображения: myruler.ru

Источник изображения: myruler.ru

Другим известным примером аналоговых вычислительных устройств является настольная аналоговая вычислительная машина МН-7, разработанная в далёком 1955 году. Она успешно решала обыкновенные дифференциальные уравнения до 6-го порядка. Не менее успешно при помощи подобных машин создавались математические модели физических процессов, что использовалось при решении задач АСУ ТП.

 Источник изображения: computerra.ru

Источник изображения: computerra.ru

В аналоговой вычислительной машине (АВМ) мгновенному значению исходной переменной величины ставится в соответствие мгновенное значение другой величины, часто отличающейся от исходной физической природой и масштабным коэффициентом. Каждой элементарной математической операции, как правило, соответствует физический закон, устанавливающий математические зависимости между физическими величинами на выходе и входе (например, закон Ома).

Особенности представления исходных величин и построения алгоритмов предопределяют большую скорость работы АВМ и простоту программирования, но ограничивают область применения и точность получаемого результата. АВМ отличается малой универсальностью (алгоритмическая ограниченность) — при решении задач другого класса необходимо перестраивать структуру машины и число решающих элементов.

А теперь мы становимся свидетелями того, как в мире, казалось бы, победивших цифровых технологий, вновь начинают находить применение аналоговые вычисления, вышедшие на новый уровень развития.

Между Москвой и Санкт-Петербургом запустили регулярные беспилотные грузоперевозки

На трассе М11 «Нева» начались регулярные грузоперевозки с использованием беспилотного тягача StarLine по маршруту Санкт-Петербург-Москва-Санкт-Петербург. 4 октября с его помощью была выполнена очередная доставка груза — в столицу были привезены более 10 тонн охранно-телематического оборудования самой компании StarLine. Для контроля движения в кабине тягача присутствовал водитель-испытатель, сообщил ресурс Content-Review.com.

 Источник изображений: starline.ru

Источник изображений: starline.ru

При движении по трассе беспилотник использует данные со специальных датчиков, таких как GNSS-RTK-приемник, лидары, видеокамеры, инерциальные датчики. Также грузовик задействует искусственный интеллект, нейросети и уникальную разработку петербургских ученых из НПО «СтарЛайн» — цифровую модель дороги, то есть специальную карту для локального маневрирования по маршруту, выбора полосы движения, скорости, получения информации о дорожных знаках и ограничениях. Все данные обрабатываются несколькими вычислительными системами с собственным программным обеспечением, установленными в автомобилях.

«Разработка беспилотного тягача — это другой класс транспорта, другие требования к безопасности, высокие скорости и, как следствие, высокие требования к детекции и распознаванию объектов на большей дистанции. Это более сложная задача для разработчиков», — отметил руководитель отдела разработок НПО СтарЛайн Илья Никифоров.

В рамках научно-исследовательского проекта по разработке беспилотного автомобиля StarLine команда специалистов НПО «СтарЛайн» создаёт универсальную платформу, которая позволяет интегрировать элементы беспилотного автомобиля практически в любое современное транспортное средство.

Наиболее сложной задачей при создании беспилотной системы разработчики называют предсказание поведения других участников движения, когда движущийся автомобиль классифицирует все обнаруженные вокруг себя объекты и прогнозирует возможные траектории их движения. Основная разница между движением в городе и движением по загородной трассе заключается именно в этом вопросе.

В городских условия разнообразие объектов очень велико, и предсказание их поведения является одной из труднейших задач для разработчиков. Однако в случае с грузовиком данная проблема не столь актуальна, поскольку он перемещается главным образом по загородным трассам. Сейчас команда инженеров-исследователей НПО «СтарЛайн» занимается задачами, специфичными для движения тягача по высокоскоростной трассе, такими как дальняя детекция, позиционирование при нестабильном потоке поправок RTK, построение карты с учётом искривления земной поверхности и так далее. Однако в будущем этим разработки помогут и в создании систем автопилота для городских условий.

Созданы наушники с датчиком ЭЭГ, которые проследят за здоровьем мозга и порекомендуют музыку для настроения

Американский стартап Niura разработал наушники-вкладыши для постоянного слежения за здоровьем мозга. Своевременно обнаружить нарушения в работе мозга, например, инсульт, означает спасти человеку здоровье и жизнь. В качестве бонуса технология Niura обещает создать рекомендательный сервис по предложению музыки на основе слежения за настроением пользователя, тем самым оберегая уже душевное здоровье человека.

 Источник изображений: Niura

Источник изображений: Niura

Стартап вырос из личных переживаний его организаторов, ближайшие родственники которых пострадали от поражений головного мозга. Сначала проект был создан на базе Arduino, и лишь затем был реализован в виде компактной платы со сторонами 20 × 12 мм, которая помещается в относительно компактные наушники.

Ключевым элементом устройства являются сухие силиконовые датчики-контакты, которые размещены по периметру наушников. Они обеспечивают достаточно хороший контакт с кожей и, по словам компании, не снижают чувствительность при обильном потоотделении.

Решение Niura простое в использовании и может использоваться постоянно в отличие от обычных датчиков для снятия электроэнцефалограммы (ЭЭГ). Это особенно важно, например, в ходе проведения операций на головном мозге. В обычных условиях ЭЭГ снимается до и после проведения операции, а с помощью наушников Niura это можно делать непосредственно в процессе проведения операции.

Близость внутриушного электрода наушников Niura к слуховой коре головного мозга, которая отвечает за обработку музыки и аудио, обещает раскрыть ещё один потенциал устройства. Наушники смогут различать настроение пользователей, и с помощью рекомендательного ИИ-сервиса будут воспроизводить музыку, соответствующую душевному состоянию.

Данные с наушников передаются в смартфон, где происходит их обработка. На всех этапах происходит шифрование трафика и данных в соответствии с требованиями американских регуляторов. Компания получила ряд предварительных патентов на ключевые технологии и ведёт переговоры с ведущими мировыми брендами о выпуске коммерческой продукции на основе платформы Niura. Самостоятельно этим она заниматься не будет. Будет только предоставлять лицензии.

Планшет Amazon Fire Max 11 получил поддержку управления одними лишь глазами

До конца года планшет Amazon Fire Max 11 получит поддержку режима Eye Gaze on Alexa. Это позволит управлять планшетом с помощью одних только глаз. Люди с ограничениями речи или тактильных возможностей смогут самостоятельно запускать те или иные приложения на устройстве просто глядя на экран и выбирая взглядом желаемое. Для устройств Amazon это станет первым опытом использования активного слежения за глазами пользователей.

 Источник изображения: Amazon

Источник изображения: Amazon

Планшет Amazon Fire Max 11 с 11-дюймовым экраном на 2,2-ГГц процессоре MediaTek MTK8188J под управлением Android 11 поступил в продажу в мае этого года. Поддержка режима Eye Gaze on Alexa будет внедрена позже в этом году. Она основана на ранее реализованной функции Tap to Alexa и, фактически, дублирует множество её возможностей по запуску приложений, опирающихся на распознавание касаний. Но теперь запустить видео или включить музыку, а также совершить ряд других действий, например, управлять освещением или бытовыми приборами в системе умного дома, можно будет без использования рук или голосовых команд, а с помощью одних только глаз.

По словам Amazon, которая впервые представила функцию Eye Gaze on Alexa вчера на мероприятии Amazon’s Devices, в её разработке компании помогали специалисты по работе с людьми с ограниченными возможностями. Иными словами, компания сделала всё, чтобы таким людям можно было пользоваться планшетом максимально комфортно.

В момент запуска поддержки Eye Gaze on Alexa на планшете Fire Max 11 управление глазами будет доступно пользователям из сильно ограниченного списка стран: в США, Великобритании, Германии и Японии. Можно рассчитывать, что со временем этот список будет расширен.

Другой полезной опцией на устройствах Amazon станет приложение по переводу звонков с одного языка на другой. Звонки и видеозвонки будут сопровождаться субтитрами, что также оценят слабослышащие, а также аудиопереводом в реальном времени на выбранный язык. Поддержка режима Call Translation появится на устройствах Echo Show и в мобильном приложении Alexa. Она будет доступна в США, Великобритании, Канаде, Мексике, Германии, Франции, Испании и Италии на более чем 10 языках, включая английский, испанский, французский, немецкий и португальский.

OpenAI проведёт в ноябре первую конференцию для разработчиков — на ней покажут новые продукты

Компания OpenAI объявила о планах провести первую конференцию для разработчиков OpenAI DevDay. Однодневное мероприятие, запланированное на 6 ноября, соберёт в Сан-Франциско (Калифорния, США) разработчиков со всего мира. Они смогут принять участие в технических сессиях и демонстрациях новых продуктов.

 Источник изображения: Neowin

Источник изображения: Neowin

Посредством конференции OpenAI стремится укрепить свои отношения с сообществом разработчиков. Это играет ключевую роль в быстром внедрении технологий искусственного интеллекта.

«Однодневное мероприятие соберёт сотни разработчиков со всего мира вместе с командой OpenAI, чтобы изучить новые инструменты и обменяться новыми идеями. Участники конференции также смогут присоединиться к секционным заседаниям, которые будут проводиться техническими специалистами OpenAI. Мы с нетерпением ждём возможности показать наши последние решения, которые позволят разработчикам создавать новые продукты», — отметила компания.

Сегодня более двух миллионов разработчиков используют модели OpenAI, такие как GPT-4, GPT-3.5, Dall-E и Whisper, в своих приложениях и продуктах. На конференции OpenAI DevDay компания, вероятно, представит обновления диалогового агента ChatGPT, использующего языковые модели GPT-4 и GPT-3.5.

Хотя те же Google и Microsoft стремятся не отставать от конкурента и предлагают свои модели ИИ, OpenAI называет себя авангардом инноваций в области искусственного интеллекта. Недавно компания запустила корпоративную версию ChatGPT Enterprise с дополнительными функциями и средствами защиты конфиденциальности, которые недоступны в обычных версиях ChatGPT.

Подробную информацию о регистрации для участников конференции OpenAI предоставит позже. Компания также планирует транслировать основную часть DevDay в прямом эфире.

В платформе «VK Звонки» добавили автоматические субтитры и текстовую расшифровку созвонов

Социальная сеть «ВКонтакте» представила новые функции платформы «VK Звонки», которые будут полезны для тех, кто использует сервис для делового общения или в условиях, когда важно соблюдать тишину. Речь идёт о текстовой расшифровке встреч, которая автоматически переводит звуковую дорожку встречи в текст с сохранением в чате звонка, а также об автосубтитрах, которые дублируют речь участников чата.

 Источник изображения: «ВКонтакте»

Источник изображения: «ВКонтакте»

Функцию текстовой расшифровку может включить любой из участников группового звонка, при этом остальные собеседники получат об этом уведомление. После завершения общения файл с текстом поступит в чат звонка и будет сохранён в специальном разделе в профиле пользователя, включившего текстовую расшифровку. В файле автоматически расставляются тайм-коды и имена говорящих.

Что касается автоматических субтитров, то они будут показываться в реальном времени только у тех пользователей, которые включили эту опцию. Текстовая расшифровка может выполняться одновременно с субтитрами и записью звонка.

Для перевода речи в текст «ВКонтакте» использует собственные нейросетевые разработки, которые соцсеть применяет для расшифровки голосовых сообщений и создания автосубтитров в видео. Для обеспечения высокого качества расшифровки аудиопоток обрабатывается в несколько этапов. Сначала запись очищается от фоновых звуков с использованием интеллектуального шумоподавления, после чего нейросеть распознаёт слова, формируя текст, который потом делит на предложения в соответствии с конкретным спикером. Нейросети постоянно совершенствуются, проходя обучение, в том числе, на актуальной разговорной речи и сленге.

Новыми функциями можно также воспользоваться в сессионных залах и в звонках от имени сообщества. В настоящее время функции доступны только для русского языка, но в дальнейшем будут добавлены и другие языки. Также в ближайшее время планируется запуск новых функций в звонках один на один и возможность настройки администратором того, кто из участников встречи сможет запускать расшифровку.

Как отметила «ВКонтакте», новые функции будут особенно полезны тем, кто использует «VK Звонки» для делового общения, позволяя быстро расшифровать интервью, отправить ключевые тезисы после встречи или рассказать об итогах звонка коллегам, которые не были на встрече. Субтитры будут полезны в ситуации, когда важно соблюдать тишину и у пользователя не оказалось наушников. «Кроме того, это шаг к формированию доступной цифровой среды для слабослышащих пользователей: они смогут участвовать во встречах без ограничений», — подчеркнула пресс-служба соцсети.

Tesla запустила суперкомпьютер на 10 тыс. ускорителей NVIDIA H100 — на нём будут учить автопилот

Компания Tesla сообщила о запуске на этой неделе нового суперкомпьютера для решения ресурсоемких задач, связанных с ИИ. В его основе используются 10 тыс. специализированных графических ускорителей NVIDIA H100.

 Источник изображений: HPC Wire

Источник изображений: HPC Wire

Отмечается, что система обеспечивает пиковую производительность в 340 Пфлопс в операциях FP64 для технических вычислений и 39,58 Эфлопс в операциях INT8 для задач ИИ. Таким образом, по производительности FP64 кластер превосходит суперкомпьютер Leonardo, который располагается на четвёртой позиции в нынешнем мировом рейтинге суперкомпьютеров Тор500 с показателем 304 Пфлопс.

Новый суперкомпьютер Tesla с ускорителями NVIDIA H100 является одной из самых мощных платформ в мире. На формирование кластера потрачено около $300 млн. Он подходит не только для обработки алгоритмов ИИ, но и для НРС-задач. Благодаря данной системе компания рассчитывает значительно расширить ресурсы для создания полноценного автопилота.

На фоне сформировавшегося дефицита ускорителей NVIDIA H100 компания хочет диверсифицировать вычислительные мощности. Для этого Tesla ведёт разработку своего собственного проприетарного суперкомпьютера Dojo. В проект планируется инвестировать $1 млрд. Уже к октябрю следующего года Tesla рассчитывает преодолеть барьер в 100 Эфлопс производительности, что более чем в 60 раз мощнее самого производительного суперкомпьютера в мире на сегодняшний день.

Помимо простого аппаратного обеспечения, новая вычислительная инфраструктура предоставит Tesla преимущество в обработке огромных наборов данных, что имеет решающее значение для реальных сценариев обучения ИИ.

Google Cloud представила пятое поколение тензорных процессоров для обучения ИИ

На очередной ежегодной конференции Cloud Next компания Google Cloud объявила о выпуске пятого поколения своих тензорных процессоров (TPU) для обучения нейросетей — TPU v5e. Google анонсировала предыдущую, четвертую версию этих процессоров в 2021 году, но разработчикам они стали доступны только в 2022 году.

 Источник изображения: Frederic Lardinois / TechCrunch

Источник изображения: Frederic Lardinois / TechCrunch

Компания отмечает, что при создании новой версии чипа особое внимание уделялось его эффективности. По сравнению с предыдущим поколением, новый процессор обещает двукратное улучшение производительности в пересчёте на доллар для обучения больших языковых моделей (LLM) и генеративных нейросетей, а также 2,5-кратное улучшение производительности по тому же критерию для инференс-систем.

«Это самый экономичный и доступный облачный TPU на сегодняшний день», — заявил на пресс-конференции перед сегодняшним анонсом Марк Ломейер (Mark Lohmeyer), вице-президент и генеральный директор по вычислительной и ML-инфраструктуре Google Cloud.

 Источник изображения: Google

Источник изображения: Google

В то же время он подчеркнул, что компания не экономила на технических характеристиках TPU v5e в угоду рентабельности. Кластеры могут включать до 256 чипов TPU v5e, объединённых высокоскоростным интерконнектом с совокупной пропускной способностью более 400 Тбит/с. Производительность такой платформы составляет 100 Попс (Петаопс) в INT8-вычислениях.

«Мы предоставляем нашим клиентам возможность легко масштабировать свои модели искусственного интеллекта за пределы физических границ одного модуля TPU или одного кластера TPU. Другими словами, одна большая рабочая нагрузка искусственного интеллекта теперь может распределяться на несколько физических кластеров TPU, масштабируясь буквально до десятков тысяч чипов. При этом работа будет выполняться экономически эффективно. В результате, используя облачные графические процессоры и облачные TPU, мы действительно предоставляем нашим клиентам большой выбор, гибкость и дополнительные возможности для удовлетворения потребностей широкого набора рабочих задач, связанных с ИИ, которые, как мы видим, продолжают множиться», — добавил он.

В дополнение к анонсу нового поколения TPU компания Google также объявила, что в следующем месяце сделает общедоступными для разработчиков виртуальные кластеры A3, оснащённые специализированными графическими процессорами Nvidia H100.

Годовая выручка разработчика ChatGPT приблизилась к $1 млрд

Годовая выручка компании OpenAI, занимающейся разработкой и лицензированием технологий на основе машинного обучения, приближается к $1 млрд, пишет Bloomberg. Технологии компании используются в основе ChatGPT — генеративного бота с искусственным интеллектом, получившего значительную популярность среди множества компаний и привлекшего значительную волну инвестиций в область ИИ.

 Источник изображения: Mariia Shalabaieva / unsplash.com

Источник изображения: Mariia Shalabaieva / unsplash.com

Стартап, поддерживаемый компанией Microsoft, зарабатывает около $80 миллионов ежемесячно, сообщил изданию источник, проинформированный по этому вопросу, но попросивший об анонимности. Впервые о доходах OpenAI сообщило издание The Information, в частности, отметив, что в 2022 году компания потеряла около 540 миллионов долларов на разработке языковой модели GPT-4 и чат-бота ChatGPT.

OpenAI считается одной из нескольких компаний, находящихся в авангарде разработок генеративного искусственного интеллекта, способного создавать контент, от видео до стихов, с помощью нескольких простых пользовательских команд. С момента дебюта своего бота в ноябре OpenAI лицензирует его молодым компаниям и крупным корпорациям, а также помогает внедрять технологию в их экосистемы бизнеса, продуктов и сервисов.

В этом месяце компания запустила корпоративную версию ChatGPT с дополнительными функциями и средствами защиты конфиденциальности. Это самая значительная попытка стартапа привлечь широкий круг бизнес-клиентов и увеличить доходы от своего самого известного продукта.

Внедрение ChatGPT Enterprise — шаг вперёд в планах OpenAI по зарабатыванию денег на своём сверхпопулярном, но весьма дорогом в вопросе внедрения и эксплуатации продукте. Для работы модели искусственного интеллекта требуются значительные специализированные вычислительные мощности. Компания уже реализовала несколько моделей получения дохода с ChatGPT, например, предложив клиентам премиальную подписку, а также платный доступ к интерфейсу программирования ПО, который разработчики могут использовать для добавления чат-бота в другие приложения.

Беспилотные автомобили с трудом распознают детей и темнокожих пешеходов

Разработчики систем автономного вождения утверждают, что их программное обеспечение одинаково хорошо распознаёт взрослых светлокожих людей, детей и темнокожих пешеходов. Однако исследование учёных из Королевского колледжа в Лондоне показало, что это не совсем так.

 Источник изображения: metamorworks / Shutterstock

Источник изображения: metamorworks / Shutterstock

Исследователи проверили восемь систем обнаружения пешеходов, построенных на базе нейросетей. В ходе тестирования использовалось более 8 тыс. изображений пешеходов. Оказалось, что системы обнаружения пешеходов на 20 % лучше распознают взрослых людей, чем детей. Кроме того, программное обеспечение на 7,5 % точнее определяет светлокожих людей, чем темнокожих пешеходов. По мнению исследователей, проблема распознавания темнокожих людей заключается в том, что системы автономного вождения преимущественно обучаются на изображениях людей со светлой кожей.

«Хотя влияние несправедливых систем искусственного интеллекта хорошо задокументировано, начиная с того, что ИИ-алгоритмы при приёме на работу предпочитают кандидатов-мужчин и заканчивая тем, что алгоритмы распознавания лиц менее точно определяют темнокожих женщин, чем белых мужчин, опасность, которую могут представлять беспилотные автомобили, очень велика. Раньше представителям меньшинств могли отказать в жизненно важных услугах, а теперь они могут столкнуться с серьёзными травмами», — считает доктор Цзе Чжан (Jie Zhang), один из авторов исследования.

Учёные также установили, что точность распознавания темнокожих людей сильно снижается в условиях недостаточной освещённости и низкой контрастности. Это может приводить к возникновению опасных ситуаций при использовании систем обнаружения пешеходов на основе ИИ в тёмное время суток. Автопроизводители не раскрывают подробностей о программном обеспечении, используемом для распознавания пешеходов. Однако исследователи утверждают, что эти алгоритмы, как правило, построены на основе тех же систем с открытым исходным кодом, которые были проверены в ходе исследования.

Учёные с помощью ИИ в четыре раза ускорили преобразование мыслей в речь через нейроинтерфейс

В журнале Nature вышли две статьи, в которых учёные рассказали о новых методиках трансляции мыслей пациентов с поражениями мозга в речь и эмоции. Преобразование мозговой активности в текст и голосовое общение происходит с помощью алгоритма машинного обучения. Учёным удалось увеличить скорость преобразования почти в четыре раза с 18 слов в минуту до 78. Это ниже среднего для обычного разговора темпа в 160 слов в минуту, но кратно быстрее, чем было до этого.

 Источник изображений: Noah Berger/UCSF

Источник изображений: Noah Berger/UCSF

Нейродегенеративные заболевания, инсульты или травмы способны лишить человека речи разными способами, но один из них достаточно легко поддаётся исправлению. Современные технологии позволяют создать мостик между здоровыми участками мозга, отвечающими за речь или мысленное произношение, и мышцами, управляющими мимикой и позволяющими говорить. Естественный канал коммуникации между мышцами и мозгом может быть разорван в случае болезни или травмы, и тогда на помощь приходит интерфейс человек-компьютер и обучаемый алгоритм.

В мозг пациента встраивается датчик или несколько датчиков с электродами, входящими в зоны активности мозга человека, ответственные за произношение и речь (хотя учёные пока не до конца понимают, какие это зоны). В одном случае, например, учёные установили на речевую область сенсомоторной коры и на область верхней височной извилины женщины после инсульта 253 электрода. После болезни она не могла говорить и даже печатать.

В течение нескольких недель ИИ обучался на примере произношения пациенткой 1024 слов из специально подобранного словаря. Для упрощения работы алгоритма он разбивал все слова на фонемы, которых было всего 39. Затем словарный запас женщины был расширен до 125 тыс. слов. Машинный алгоритм смог распознавать мысленное произношение женщины с ошибками на уровне 25 %, но со скоростью до 78 слов в минуту.

Алгоритм также научили распознавать эмоции пациентки — горе, радость, удивление. Наконец, используя старую видеозапись женщины, учёные создали её компьютерный образ — аватар — и заставили его транслировать текстовые сообщения в голосовые. По сути, они вернули пациентке возможность разговаривать.

Сегодня подобные процедуры восстановления сопряжены с длительным обучением ИИ и необходимостью быть постоянно подключённым к компьютеру. Учёные из Калифорнийского университета в Сан-Франциско (UCSF) и Калифорнийского университета в Беркли, которые реализовали представленную методику, теперь работают над беспроводными вариантами транслятора. Когда-нибудь это повысит социальную вовлечённость людей с подобными медицинскими проблемами.

ИИ воссоздал композицию Pink Floyd по мозговой активности слушателей, и звучит это ужасно

Исследователи Калифорнийского университета (UC) в Беркли впервые получили музыкальную композицию, воссозданную по сигналам из мозга человека. Пациенты прослушивали трек «Another Brick in the Wall (Part 1)» группы Pink Floyd, а имплантированные в мозг датчики снимали показания. Различение ритма и мелодии в сигналах мозга поможет разработать имплантаты для людей, страдающих нарушениями в области восприятия речи и эмоций и не только.

 Источник изображения: Pixabay

Источник изображения: Pixabay

Для поиска зон мозга, ответственных за восприятие музыки в широком смысле этого слова, в мозг 29 пациентов были имплантированы по 2268 электродов. Всем им ставили композицию Pink Floyd «Ещё один кирпич в стене», ставшую классикой рока. Параллельно прослушиванию с датчиков снимались показания мозговой активности, которые затем расшифровывали с помощью линейного и нелинейного ИИ-алгоритма.

Что в итоге получилось, можно прослушать в ролике ниже. Ценители Pink Floyd могут прийти в ужас от услышанного. С другой стороны, мозг может служить своеобразным фильтром, придающим композиции новизну и определённую оригинальность. Нельзя исключать, что это, в том числе, приведёт к появлению новых музыкальных находок и даже направлений.

При поиске ориентированных на музыку областей в головном мозге учёные решали другую задачу. Есть большой класс пациентов, страдающих от нарушений в восприятии и воспроизведении речи. В общем случае это называется просодией. Просодия подразумевает невозможность выделить в речи эмоции, ударения, акценты и другие нюансы, что сильно ограничивает страдающих ею в социализации. Считывание мелодии прямо с мозга помогло определить центры, отвечающие за мелодику и ритм. Фактически это путь к преодолению недуга с помощью имплантатов и ИИ-алгоритмов.

 Источник изображения: Ludovic Bellier/CC-BY 4.0

Источник изображения: Ludovic Bellier/CC-BY 4.0

Оказалось, что за музыкальную активность мозга отвечают другие отделы, чем те, которые поддерживают речь. Прежде всего — это верхняя височная извилина, а также области в сенсорно-моторной коре и нижней лобной извилине. В этих областях были расположены 347 электродов из 2268, установленных для эксперимента. Это то разрешение, с которым была считана с мозга легендарная композиция Pink Floyd, что наверняка можно улучшить в последующих экспериментах. Интересно, как к этому отнесутся правообладатели?

Zoom обновил условия обслуживания и начал обучать свой ИИ на данных пользователей

Zoom обновил условия обслуживания, дав себе право обучать собственный ИИ на основе данных пользователей. Это изменение вызывает споры о том, насколько допустимо использовать личные данные клиентов для обучения ИИ, даже если они агрегированы или анонимизированы.

 Источник изображения: Alexandra_Koch / Pixabay

Источник изображения: Alexandra_Koch / Pixabay

Согласно недавно обновлённым условиям обслуживания, Zoom намерен обучать собственные ИИ-модели, используя данные пользователей. Нововведение, вступившее в силу 27 июля, подтверждает право компании использовать информацию о продукте, телеметрические и диагностические данные, а также другой контент или данные, собранные компанией. Такой подход к пользовательским данным со стороны технологических компаний не является новым, однако новые условия являются важным шагом в реализации стратегии Zoom в области ИИ.

Условия Zoom гласят: «Вы даёте согласие на доступ, использование, сбор, создание, изменение, распространение, обработку, совместное использование, обслуживание и хранение генерируемых Службой данных компанией Zoom в любых целях, в объёме и в порядке, разрешённых действующим законодательством, в том числе в целях разработки продуктов и услуг, маркетинга, аналитики, обеспечения качества, машинного обучения или искусственного интеллекта (в том числе в целях обучения и настройки алгоритмов и моделей), обучения, тестирования, улучшения Служб, Программного обеспечения или других продуктов, услуг и программного обеспечения компании Zoom или любой их комбинации, а также в соответствии с другими положениями настоящего Соглашения».

Контент пользователей, такой как сообщения, файлы и документы, в эту категорию, по-видимому, не входит. В блоге компании представитель Zoom уточнил: «Для ИИ мы не используем аудио, видео или чат без согласия клиента». Ключевая фраза здесь — «без согласия клиента».

В июне Zoom на бесплатной основе представил две новые функции генеративного ИИ — инструмент для составления резюме встречи и инструмент для создания сообщений в чате. Однако при активации этих функций Zoom просит пользователей подписать форму согласия на обучение своих ИИ-моделей с использованием их контента. Представитель компании заявил, что пользователи Zoom сами решают, следует ли им активировать функции генеративного ИИ и делиться индивидуальным контентом с Zoom для улучшения продукта. «Ваш контент используется исключительно для улучшения производительности и точности этих ИИ-услуг», — пояснил предствитель Zoom в блоге.

Обновление условий произошло на фоне растущей обеспокоенности, в какой степени ИИ должен обучаться на данных отдельных лиц, независимо от того, насколько они агрегированы или анонимизированы. Инструменты, такие как ChatGPT — OpenAI, Bard — Google и Bing — Microsoft, обучаются на больших объёмах текста или изображений из интернета. В секторе генеративного ИИ недавно были поданы иски от писателей и художников, которые утверждают, что их произведения были незаконно использованы техногигантами для обучения своих ИИ-моделей.

Обновление условий обслуживания Zoom подчёркивает растущую роль ИИ в современных технологиях и вызывает вопросы о балансе между инновациями и конфиденциальностью данных. Пока компании стремятся улучшить свои услуги с помощью ИИ, важно помнить о необходимости защиты личной информации пользователей.

Мозговые имплантаты и ИИ частично вернули подвижность и тактильные ощущения парализованному человеку

Исследователи из Института Файнштейна американской медицинской сети Northwell Health впервые обеспечили двойной искусственный обход поражённой нервной системы пациента. Встроенные в головной мозг человека имплантаты вернули подвижность и чувствительность руки. Не обошлось и без помощи искусственного интеллекта.

 Источник изображений: Matthew Libassi / Northwell Health’s Feinstein Institutes for Medical Research

Источник изображений: Matthew Libassi / Northwell Health’s Feinstein Institutes for Medical Research

При подготовке к операции хирурги с помощью фМРТ провели многочисленные оценки зон головного мозга пациента, чтобы с максимальной точностью определить место размещения имплантатов — чипов, распознающих активность головного мозга в его отдельных областях. Но даже после этого в процессе 15-часовой операции на открытом мозге они консультировались с пациентом для уточнения мест установки датчиков.

Два имплантата считывали «мысли» пациента о желании двигать рукой, а три других принимали сигналы от датчиков на руке и запястье. Фактически врачи запустили два обходных пути для нейросигналов, барьером на пути которых стала травма позвоночника (спинного мозга). Один шунт заставлял руку совершать движения через систему накладных электродов (на позвоночник и предплечье), а другой возвращал в мозг сигналы от датчиков тактильных ощущений. Дальше мозг справлялся сам — связывал одно и другое и выстраивал новые нейронные цепи в головном мозге таким образом, чтобы человек воспринимал движение руки и тактильный отзыв в едином пакете.

По словам хирургов, это первый в истории случай, когда спинной мозг обошли двумя маршрутами. Ранее проводились экспериментальные операции, когда шунт, минуя поражённый спинной мозг, передавал расшифрованные компьютерным алгоритмом желания двигаться в мышцы конечностей. Но обратной связи до сих пор никто не организовывал, чтобы тактильные ощущения возвращались в мозг в обход повреждённых нервных тканей.

Между тем, обратная связь может помочь в восстановлении функций мозга, отвечающих за движения конечностей и их чувствительность. Проще говоря, по мере обучения мозг может научиться обходиться без компьютерных алгоритмов и случай с этим конкретным пациентом Northwell Health это подтвердил. После двойной стимуляции 45-летний парень с парализованными руками и ногами смог частично вернуть чувствительность руки и в два раза увеличил силу её сжатия.

Миллионы пациентов с подобными травмами могут надеяться вернуть подвижность и чувствительность конечностей, что обеспечит им развитие подобных технологий.

США уже шесть лет никак не могут принять законы по беспилотному транспорту

Уже более шести лет в Конгрессе США никак не могут принять законодательство для регулирования индустрии беспилотных автомобилей, пишет The Verge. Это связано с разногласиями среди конгрессменов по целому ряду вопросов, начиная от увеличения количества автономных транспортных средств на дорогах страны и заканчивая отсутствием единства по поводу запрета штатам самостоятельно устанавливать свои собственные технические требования для такого вида транспорта.

 Источник изображения: getcruise.com

Источник изображения: getcruise.com

В минувшую среду в Конгрессе США прошли слушания по теме «Законодательная база для беспилотных автомобилей: повышение безопасности, улучшение жизни и мобильности и победа над Китаем», которые были первыми более чем за год, касающимися автономных транспортных средств.

Член палаты представителей Фрэнк Паллоне (Frank Pallone, штат Нью-Джерси), участник комитета по энергетике и торговле, заявил на слушаниях, что Конгресс США «не может просто стряхнуть пыль с законодательства шестилетней давности и игнорировать существенные проблемы, возникшие в последние годы. Появляются лазейки в сфере ответственности. Воздействие на рабочую силу становится все более очевидным».

С тех пор, как шесть лет назад в Конгресс США был внесён первый законопроект, связанный с автономным транспортом, многое изменилось. Финансирование индустрии беспилотных автомобилей значительно сократилась, а радужные прогнозы о росте количества самоуправляемых транспортных средств на дорогах не сбылись. Небольшие стартапы были поглощены более крупными компаниями, и у операторов сервисов автономного транспорта прошли увольнения сотрудников.

Результаты тестирования компаниями Waymo (Alphabet) и Cruise (GM) сервисов полностью беспилотных роботакси в Сан-Франциско оказались неоднозначными, поскольку компании сообщают о сотнях тысяч миль, пройдённых робомобилями без серьёзных аварий или травм, а городские власти жалуются на блокирование автомобилями роботакси проезда автобусов и машин скорой помощи, и местные жители протестуют против беспрепятственного распространения этого вида транспорта в городе.

Джон Боззелла (John Bozzella), президент и гендиректор Альянса автомобильных инноваций (Alliance for Automotive Innovation), заявил, что Конгресс США должен действовать быстро в создании нормативно-правовой базы отрасли, чтобы не потерять компании и инновационное преимущество перед другими странами.

Между тем точки преткновения по данному вопросу пока остаются неизменными. Например, споры по поводу юридической ответственности и страховании в случае попадания в аварию беспилотного автомобиля пока ни к чему не привели.

window-new
Soft
Hard
Тренды 🔥
Новая статья: Верные спутники: 20+ полезных Telegram-ботов для путешественников 4 ч.
Итоги Golden Joystick Awards 2024 — Final Fantasy VII Rebirth и Helldivers 2 забрали больше всех наград, а Black Myth: Wukong стала игрой года 6 ч.
В программу сохранения классических игр от GOG вошли S.T.A.L.K.E.R. Shadow of Chernobyl и Call of Pripyat, а Clear Sky — на подходе 7 ч.
Star Wars Outlaws вышла в Steam с крупным обновлением и дополнением про Лэндо Калриссиана 8 ч.
Рекордная скидка и PvP-режим Versus обернулись для Warhammer: Vermintide 2 полумиллионом новых игроков за неделю 10 ч.
Новый трейлер раскрыл дату выхода Mandragora — метроидвании с элементами Dark Souls и нелинейной историей от соавтора Vampire: The Masquerade — Bloodlines 11 ч.
В Японии порекомендовали добавить в завещания свои логины и пароли 12 ч.
Обновления Windows 11 больше не будут перезагружать ПК, но обычных пользователей это не касается 12 ч.
VK похвасталась успехами «VK Видео» на фоне замедления YouTube 14 ч.
GTA наоборот: полицейская песочница The Precinct с «дозой нуара 80-х» не выйдет в 2024 году 16 ч.
Nvidia предупредила о возможном дефиците игровых решений в четвёртом квартале 41 мин.
Представлен внешний SSD SanDisk Extreme на 8 Тбайт за $800 и скоростной SanDisk Extreme PRO с USB4 6 ч.
Представлен безбуферный SSD WD_Black SN7100 со скоростью до 7250 Мбайт/с и внешний SSD WD_Black C50 для Xbox 6 ч.
Новая статья: Обзор ноутбука ASUS Zenbook S 16 (UM5606W): Ryzen AI в естественной среде 6 ч.
Redmi показала флагманский смартфон K80 Pro и объявила дату его премьеры 8 ч.
Астрономы впервые сфотографировали умирающую звезду за пределами нашей галактики — она выглядит не так, как ожидалось 11 ч.
Представлена технология охлаждения чипов светом — секретная и только по предварительной записи 11 ч.
Японская Hokkaido Electric Power намерена перезапустить ядерный реактор для удовлетворения потребности ЦОД в энергии 11 ч.
Грузовик «Прогресс МС-29» улетел к МКС с новогодними подарками и мандаринами для космонавтов 12 ч.
Meta планирует построить за $5 млрд кампус ЦОД в Луизиане 12 ч.