Алиса не узнает членов семьи по голосу: настройка профилей
Привет, коллега! Функция распознавания пользователей по голосу («Узнай меня») — важнейшая часть персонализации умного дома. Благодаря ей Алиса не только обращается к членам семьи по именам, но и включает их личные плейлисты Яндекс Музыки (разделяя лайки), а также позволяет выполнять персональные действия (например, озвучивать сообщения, отправленные именно родителю в сценарии уведомления о приходе ребенка из школы).
Давай разберем математические алгоритмы биометрии голоса, физические причины сбоя распознавания микрофонным массивом и пошагово восстановим стабильную идентификацию пользователей.
Как работает биометрия голоса Алисы (Voice Recognition)
Распознавание спикера (Speaker Identification) в облаке Яндекса происходит в два этапа с применением нейросетевых моделей:
1. Извлечение признаков (Feature Extraction)
Акустический сигнал, записанный микрофонами Станции, оцифровывается и разбивается на фреймы. Для каждого фрейма рассчитываются мел-частотные кепстральные коэффициенты (MFCC — Mel-Frequency Cepstral Coefficients), описывающие огибающую спектра звука и учитывающие особенности человеческого слухового восприятия.
2. Построение вектора голоса (Voice Embedding)
Нейросеть преобразует набор коэффициентов MFCC в компактный числовой вектор фиксированной размерности (голосовой слепок, или d-vector / x-vector), который кодирует индивидуальные характеристики голосового тракта человека (тембр, высоту тона, формантные частоты).
При получении голосового запроса облако вычисляет косинусное сходство (cosine similarity) между вектором входящей команды ($\vec{A}$) и сохраненными в профилях векторами-эталонами членов семьи ($\vec{B}$): $$\text{similarity} = \cos(\theta) = \frac{\vec{A} \cdot \vec{B}}{|\vec{A}| |\vec{B}|}$$
- Если значение $\cos(\theta)$ превышает пороговое (обычно $\ge 0.82$), Алиса идентифицирует говорящего и загружает его профиль Яндекс ID.
- Если сходство ниже порогового, запрос обрабатывается с правами гостя (Guest), без доступа к личным плейлистам и персональным сценариям запуска кофемашин или отопления (таким как сценарий утреннего кофе или сценарий антизамерзания).
Физические причины сбоев распознавания
1. Акустическое эхо и реверберация (Room Impulse Response)
Если Яндекс Станция стоит в пустой комнате с высокими потолками и голыми стенами, ИК-звуковые волны многократно отражаются от поверхностей. Микрофоны записывают прямую речь вместе со сдвинутыми во времени эхо-сигналами (реверберацией). Это размывает спектр звука, искажает MFCC-коэффициенты и снижает косинусное сходство ниже порога срабатывания.
2. Загрязнение микрофонного массива (Beamforming Failure)
Яндекс Станция Макс оснащена массивом из 7 микрофонов, расположенных на верхней панели под кожухом. С помощью алгоритма пространственной фильтрации (Beamforming) Станция программно «поворачивает» диаграмму направленности в сторону источника звука, гася шумы с других направлений.
- Если отверстия микрофонов забились бытовой пылью или на прибор надели плотный силиконовый чехол, звуковое давление на капсюли распределяется неравномерно.
- Алгоритм фазового сдвига ломается, Станция теряет способность фильтровать шумы, отношение сигнал/шум (SNR) падает, и точность распознавания голоса стремится к нулю.
Пошаговая калибровка и настройка профилей
Шаг 1. Физическая очистка микрофонов
- Полностью обесточь Станцию.
- Возьми баллон со сжатым воздухом и аккуратно продуй отверстия микрофонов на верхней панели под углом $45^\circ$. Не вставляйте в отверстия иглы или зубочистки — вы гарантированно порвете защитную мембрану капсюля.
- Убедись, что Станция стоит на расстоянии не менее $20-30\text{ см}$ от стен и других крупных предметов во избежание сильных ранних отражений звука.
Шаг 2. Создание точной копии голосового слепка
- Попроси члена семьи подойти к Станции на расстояние $1-1.5\text{ метра}$ (это оптимальное расстояние для минимизации реверберации).
- Запусти перепривязку голоса в приложении «Дом с Алисой».
- Во время чтения тестовых фраз обеспечьте полную тишину (выключите кондиционер, увлажнитель, закройте окна).
- Говорить нужно обычным повседневным голосом. Не нужно пытаться говорить громче, тише или скандировать слова по слогам. Нейросеть должна запомнить естественный спектр речи.
Шаг 3. Семейное слияние аккаунтов Яндекс ID
Голосовой профиль не будет работать, если пользователь не привязан к семейному Яндекс ID:
- Создай семейную группу в Яндекс Паспорте и отправь приглашение члену семьи. Гайд по семейному доступу и слиянию аккаунтов поможет избежать ошибок с подписками.
- Член семьи должен принять приглашение и войти под своим Яндекс ID в приложение «Дом с Алисой» на своем телефоне.
- Только после этого запускается процедура «Узнай меня» со смартфона приглашенного пользователя.
Если Алиса распознает голос, но выдает ошибки понимания команд, обратитесь к статье об ошибках распознавания речевых команд Алисой.
Инструкция по устранению
Знакомство с Алисой
Откройте приложение 'Дом с Алисой', перейдите в настройки Станции и выберите пункт 'Голосовые профили' (или 'Узнай меня'). Нажмите кнопку 'Познакомить ассистента с новым голосом'.
Процесс записи голоса
Попросите члена семьи подойти к колонке и четко прочитать пять предложенных фраз с экрана телефона. Запись должна проходить в полной тишине, без фоновой музыки или посторонних разговоров.
Добавление в семейную группу Яндекса
Пригласите члена семьи в вашу семейную группу Яндекс ID через настройки аккаунта. Это необходимо, чтобы Алиса могла связывать его голос с его персональными музыкальными плейлистами и лайками.
Сброс и повторная калибровка
Если Алиса начала путать голоса, удалите старый голосовой профиль в приложении, перезагрузите Яндекс Станцию по питанию и проведите процедуру знакомства заново.