«Яндекс» предложил систему распознавания ключевых слов с выбором лучших микрофонных каналов
Новая модель автоматически оценивает качество каждого канала и улучшает распознавание в шумных условиях
Ученые «Яндекса» разработали новую модель для распознавания ключевых слов, которая работает с несколькими микрофонными дорожками одновременно. Вместо классических алгоритмов обработки сигнала, требующих предварительной фильтрации шума, модель применяет механизм внимания. Он в реальном времени оценивает каждый канал и автоматически выделяет те, где звук наиболее чистый.
Такой подход позволяет системе игнорировать зашумленные или искаженные записи и сосредоточиться на голосе пользователя. В экспериментах на наборах с промышленным фоном предложенная модель показала повышение точности распознавания до 15% по сравнению с традиционными методами формирования направленного звука и шумоподавления.
При этом архитектура остается достаточно легкой для встраивания в устройства с ограниченной вычислительной мощностью и энергопотреблением. Это важно для голосовых ассистентов и других гаджетов, которые должны быстро и надежно реагировать на команды в реальной обстановке.
Разработка была выполнена командой Embedded Voice Input «Яндекса» и международными коллегами из Беларуси, Сербии и России. Авторы отмечают, что их решение может стать важным шагом к более точным и устойчивым голосовым интерфейсам в бытовых и промышленных приложениях.
