«Яндекс» предложил систему распознавания ключевых слов с выбором лучших микрофонных каналов

10:25, 30.07.2025

Новая модель автоматически оценивает качество каждого канала и улучшает распознавание в шумных условиях

«Яндекс» предложил систему распознавания ключевых слов с выбором лучших микрофонных каналов — Фото: Kelly Sikkema на Unsplash

Ученые «Яндекса» разработали новую модель для распознавания ключевых слов, которая работает с несколькими микрофонными дорожками одновременно. Вместо классических алгоритмов обработки сигнала, требующих предварительной фильтрации шума, модель применяет механизм внимания. Он в реальном времени оценивает каждый канал и автоматически выделяет те, где звук наиболее чистый.

Такой подход позволяет системе игнорировать зашумленные или искаженные записи и сосредоточиться на голосе пользователя. В экспериментах на наборах с промышленным фоном предложенная модель показала повышение точности распознавания до 15% по сравнению с традиционными методами формирования направленного звука и шумоподавления.

При этом архитектура остается достаточно легкой для встраивания в устройства с ограниченной вычислительной мощностью и энергопотреблением. Это важно для голосовых ассистентов и других гаджетов, которые должны быстро и надежно реагировать на команды в реальной обстановке.

Разработка была выполнена командой Embedded Voice Input «Яндекса» и международными коллегами из Беларуси, Сербии и России. Авторы отмечают, что их решение может стать важным шагом к более точным и устойчивым голосовым интерфейсам в бытовых и промышленных приложениях.

Артем Гафаров

Подписывайтесь на телеграм-канал, группу «ВКонтакте», канал в MAX и страницу в «Одноклассниках» «Реального времени». Ежедневные видео на Rutube и «Дзене».

Технологии