Compartir

Apple, como nos tiene acostumbrados ha publicado una entrada en “Machine Learning Journal”, un blog donde suele subir entradas sobre las funcionalidades que vemos en sus terminales aunque la profundidad escapa a mi entendimiento pues los tecnicismos usados son bastantes complejos para un usuario normal y que no tiene ninguna carrera de ingeniería informática o similar. En esta ocasión, han colgado una entrada donde nos cuentan como funciona el detector de “Hey Siri”, es decir, como se activa Siri con un comando de voz tanto en el iPhone como en el Apple Watch. 

Siri se integrará mejor con muchas aplicaciones de nuestros dispositivos.
Siri se integrará mejor con muchas aplicaciones de nuestros dispositivos.

Así funciona “Oye Siri” en el iPhone y Apple Watch

En esta, la compañía nos explica que la voz que entra por el micrófono la convierte en ondas muy seguidas, unas 16.000 por segundo. Concretamente esto que parece tan simple, lo explican así de complicado:

Una etapa de análisis de espectro convierte la corriente de la muestra -nuestra voz- en forma de onda  cada una que describe el espectro de sonido de aproximadamente 0,01 seg. Cerca de veinte de estos marcos a la vez (0,2 seg de audio) alimentan al modelo acústico, una red neuronal profunda (DNN) que convierte cada uno de estos patrones acústicos en una distribución de probabilidad sobre un conjunto de clases de sonido de voz: los utilizados en la frase “Hey Siri”, además de silencio y otra discurso, para un total de alrededor de 20 clases de sonido.

Es decir, con este método que explica Apple de una manera tan tergiversada, que se ajusta a la realidad, en dispositivo detecta que estamos convocando a Siri. Y cuando hacemos la configuración inicial de nuestro asistente de voz, nos pide que repitamos varias veces una frase, concretamente 5 veces, para registrar nuestra voz. Pues a la hora de invocarla, también detecta si somos nosotros o no. Y esto lo hacen así.

Creamos cierta flexibilidad para que sea más fácil activar Siri en condiciones difíciles sin aumentar significativamente el número de activaciones falsas. Hay un umbral normal, y un umbral más bajo que normalmente no invocará a Siri. Si la puntuación supera el umbral más bajo, pero no el umbral superior, entonces puede ser que tengamos que repetirlo para poder invocar de verdad a Siri . Cuando el marcador está en este rango, el sistema entra en un estado más sensible durante unos segundos, por lo que si el usuario repite la frase, incluso sin hacer un mayor esfuerzo, a continuación, desencadena Siri. Este mecanismo de segunda oportunidad mejora la usabilidad del sistema de manera significativa, sin aumentar la tasa de falsas alarmas demasiado, porque es sólo en este estado extremadamente sensibles por un corto tiempo.

Es decir, en esta parrafada lo que nos dice es que trabajan con dos umbrales. Un umbral mínimo y uno normal. Si la voz que le llega está por debajo de este umbral, Siri no se activará y si está por encima se activará. Pero, ¿y si está en medio de ambos valores? Entonces, deberemos de repetir de nuevo “Oye Siri”, pero ahora el sistema será mucho más sensible para escuchar esta repetición. Esto es interesante de comprobar, pues si cambiamos la voz, Siri no se invocará. 

Además, como sabemos, este método funciona gracias a un co-procesador que se agregó en los iPhone que consume algo de batería. Pero, el problema está en los Apple Watch, que podría drenar la batería que este co-procesador estuviera siempre activo. ¿como soluciona esto Apple? Básicamente se activará cuando hagas un giro de muñeca mirando al Watch para gastar solo el 5% de lo previsto.

Y por último, Apple nos desvela porque “Oye Siri” y no otra palabra para invocar a nuestro asistente de voz y la respuesta es esta:

Antes había una característica en Hey Siri y es que una pequeña proporción de los usuarios pueda decir “Hey Siri” en el inicio de una petición, después de haber comenzado pulsando el botón. Utilizamos este tipo de expresiones “Hola” Siri para el conjunto de entrenamiento inicial para el modelo de detector de EE.UU. Inglés. También se incluyeron ejemplos generales del habla, tal como se utiliza para la formación del principal reconocedor de voz. En ambos casos, se utilizó la transcripción automática de las frases de formación. los miembros del equipo de Siri comprobarse un subconjunto de las transcripciones para la precisión.

Hemos creado una especificación fonético-lenguaje específico de la frase “Hey Siri”. En los Estados Unidos Inglés, tuvimos dos variantes, con diferentes primeras vocales en “Siri” -uno como en “grave” y la otra como “Siri””.

Déjanos en los comentarios que opinas al respecto de como funciona Siri en nuestro iPhone y Apple Watch.