реклама
Теги → распознавание речи

Google начала тестирование нового способа поиска песен на YouTube: их достаточно напеть

Google тестирует новый способ поиска песен на YouTube — просто напевая их голосом. Этот инновационный шаг, уже доступный ограниченному числу пользователей Android, может кардинально изменить то, как мы находим музыкальные композиции в интернете.

 Источник изображения: SAM-RIZ44 / Pixabay

Источник изображения: SAM-RIZ44 / Pixabay

В мире смартфонов поиск песни по звуку используется уже давно. Сервисы вроде Google Assistant и SoundHound позволяют добавлять треки в плейлист Spotify или воспроизводить клипы на YouTube. Однако новый способ поиска песни кажется более удобным, если вы не помните её название или другие детали.

Google объявила о том, что экспериментирует с поиском песен на YouTube по напеву голосом. Кроме этого, пользователи могут использовать функцию определения песни, записав её фрагмент, который играет фоном, например, в кафе или на радио.

Для активации функции необходимо переключиться из голосового поиска YouTube на поиск песен. После этого пользователь должен напеть или записать фрагмент песни в течение минимум 3 секунд. Затем система перенаправит его к соответствующему контенту на YouTube — официальному клипу, пользовательскому видео или короткому ролику Shorts.

На этапе тестирования новый поиск доступен только ограниченному числу пользователей YouTube на Android. Перед тем, как он окажется в широком доступе, его характеристики могут измениться. Многие надеются, что компания добавит его и в YouTube Music.

Кроме этого, Google тестирует ещё одну функцию для YouTube — «Полка канала» (Channel Shelf) в ленте подписок. Она позволит объединять несколько свежих публикаций одного автора на одной «полке». Таким образом, подписчикам не придётся переходить на YouTube-канал, чтобы увидеть недавние публикации. Google утверждает, что это нововведение снизит давление на авторов контента в плане частоты его публикаций.

Microsoft регистрирует через Роспатент товарный знак Dragon, связанный с ПО для распознавания речи

Стало известно, что американская компания Microsoft через свой головной офис, находящийся в Вашингтоне, подала в Роспатент заявку на регистрацию товарного знака Dragon. В материалах Роспатента указано, что товарный знак связан с технологиями распознавания речи.

 Источник изображения: Pixabay

Источник изображения: Pixabay

Согласно имеющимся данным, заявка Microsoft была подана 31 января. Софтверный гигант намерен зарегистрировать знак по двум классам по международной классификации товаров и услуг. В первом случае речь идёт о компьютерном программном обеспечении для использования в приложениях и системах распознавания речи, во втором — о ПО для обработки речи. Кроме того, Microsoft сможет использовать товарный знак для предоставления онлайн незагружаемого ПО для использования в приложениях и системах распознавания речи и диктовке, для оказания консультаций в сфере автоматизированной обработки транскрипций и в области систем распознавания речи.

Напомним, в 2021 году Microsoft купила компанию Nuance Communications за $19,7 млрд. В арсенале разработчиков имеется технология распознавания речи Dragon, которую Microsoft намерена интегрировать в свои продукты, например, в текстовый редактор Word. Отметим также, что в прошлом году Microsoft объявила о постепенном сворачивании деятельности в России и сокращении своего присутствия до минимума или даже полного ухода с рынка.

Технология EarCommand позволит беззвучно отдавать команды гаджетам, проговаривая их про себя

Хотя управлять устройствами с помощью голосовых команд довольно удобно, громкие отчётливые фразы могут беспокоить окружающих. Система EarCommand, разработанная учёными из университета штата Нью-Йорк, позволяет «считывать» команды, проговариваемые пользователем про себя, причём для этого не потребуется считывать мозговую активность.

 Источник изображения: Caley Vanular/unsplash.com

Источник изображения: Caley Vanular/unsplash.com

В норме голосовые команды могут быть услышаны другими, их распознаванию гаджетами может помешать окружающий шум, кроме того, устройствам может быть сложно отличать один голос от другого, что приведёт к ошибкам в работе.

Технология EarCommand, разрабатываемая командой исследователей из Университета штата Нью-Йорк в Буффало, основана на том, что даже проговаривание каких-либо слов про себя сопровождается активностью мышц и некоторым смещением костей, в результате чего по-разному деформируется ушной канал. Другими словами, разные «шаблоны» деформаций характерны для определённых слов.

Аппаратная составляющая EarCommand включает похожее на наушник устройство, транслирующее близкие к ультразвуку сигналы в ушной канал. Отражающиеся от внутренней поверхности канала сигналы принимаются внутренним микрофоном наушника, а связанный с устройством компьютер анализирует эти эхо, используя специальный алгоритм для того, чтобы оценить деформацию канала и определить, какое слово произнесено.

В проводимых экспериментах пользователи проговаривали 32 команды длиной в одно слово и 25 команд, состоящих из целых предложений. На уровне слов доля ошибок составила 10,2 %, а на уровне предложений — 12,3 %. Ожидается, что по мере развития технологии уровень ошибок будет снижаться. Кроме того, аппаратура работает даже тогда, когда пользователь носит маску или находится в шумном окружении и, в отличие от некоторых систем, считывающих произносимые про себя слова, для использования технологии не требуется камера.

Примечательно, что похожая технология EarHealth тестируется коллегами из того же университета в медицинских целях — аналогичные сигналы и считывание эха от них используются для выявления проблем со слухом, например — диагностики повреждённых барабанных перепонок или отита, который является весьма распространённым заболеванием.

У «Яндекса» появилась нейросеть-полиглот, распознающая десять языков одновременно

Облачное подразделение компании «Яндекс» (Yandex Cloud) сообщило о разработке новой системы на базе машинного обучения, которая способна распознавать более 10 иностранных языков одновременно.

 Источник изображений: «Яндекс»

Источник изображений: «Яндекс»

В основе модели лежат сервис синтеза и распознавания Yandex SpeechKit и специализированная архитектура под названием Transformer. Алгоритмы обрабатывают входные слова параллельно и независимо друг от друга, благодаря чему быстро обучаются.

Система распознаёт речь на любую тему и в разных форматах: это могут быть короткие и длинные фразы, имена, адреса, даты и пр. Модель способна распознавать язык автоматически в одном потоке: нейросеть может в любой момент переключаться между различными языками. При этом есть возможность давать ей «подсказки» — это повышает качество распознавания.

Для обучения модели использовались огромные массивы данных (десятки терабайт) из профессиональных источников, а также из сервисов и приложений самого «Яндекса». Нейросеть-полиглот может работать и с популярными языками, такими как английский и французский, и с более редкими — датским, финским, турецким и другими.

window-new
Soft
Hard
Тренды 🔥
Хакеры украли данные сотен миллионов людей, взломав сервис облачной аналитики Snowflake 30 мин.
Инсайдер раскрыл, какую игру издатель Borderlands, BioShock и Mafia анонсирует на Summer Game Fest 2024 3 ч.
Apple признала многолетний дефект в приложении родительского контроля Screen Time 9 ч.
Приложения для Windows скоро заработают на Chromebook — Google купила Cameyo 13 ч.
Warhorse объяснила, как в Kingdom Come: Deliverance 2 обыграют принятые в первой части решения 15 ч.
Анонсирован уютный кооперативный ужастик про двух щенков в доме с привидениями — первый трейлер и подробности Haunted Paws 17 ч.
GOG позволит оставить свой аккаунт в наследство — в отличие от Steam 18 ч.
Ведущие разработчики ИИ всеми силами уклоняются от надзора и критики, заявили экс-работники OpenAI 19 ч.
«Культура не должна существовать только для тех, кто может её себе позволить»: разработчик Ultrakill разрешил пиратить свою игру, но при одном условии 19 ч.
Microsoft отключила от своих служб половину российских корпоративных клиентов 21 ч.
Quantinuum на два порядка превзошла квантовый компьютер Google и приблизила безошибочные квантовые вычисления 49 мин.
Смартфон Realme C65 поступил в продажу в России 60 мин.
На производство радиоэлектроники в Воронежской области «Созвездие» выделит 14 млрд рублей 2 ч.
ASML стала второй самой дорогой компанией Европы — помогли ИИ-бум и успехи Nvidia 4 ч.
Supermicro: использование СЖО вырастет на тысячи процентов в ближайшие два года 5 ч.
Искусственный интеллект станет основой нового смартфона Nothing 5 ч.
Intel и японские партнёры хотят заняться исследованиями на пустующих площадях предприятий Sharp 5 ч.
Третья фаза китайского «Большого фонда» рассчитана на 10 лет и может потребовать более $47,5 млрд субсидий 7 ч.
Intel готова выпускать на своих предприятиях в США ускорители вычислений для сторонних компаний 8 ч.
Nvidia теперь стоит больше $3 трлн — компания обогнала по капитализации Apple 9 ч.