Apple detalla el reconocimiento de voz personalizado de Hey Siri
El equipo de Siri de Apple ha publicado una nueva entrada, en el Diario de Aprendizaje Automático: «Apple Machine Learning Journal». Qué detalla algunos de los procesos, detrás de la personalización que los usuarios añaden a las características de «Hey Siri» en los dispositivos iOS.
En todos los productos de Apple, «Hey Siri» invoca al asistente de inteligencia artificial de la compañía. Y como tal, puede ser seguido por preguntas como: «¿Cómo está el clima?» o «Mensaje papá, estoy en camino».
Es por ello, que Apple documentó previamente parte del proceso detrás de la activación de Siri. La primera entrada de Machine Learning Journal de este año, se centra en el desafío del reconocimiento de los hablantes.
Reconocimiento de voz personalizado de «Hey Siri»
El equipo Siri de Apple, desglosa su enfoque técnico para el desarrollo de un «sistema de reconocimiento de altavoces». El equipo creó redes neuronales profundas y «preparó el escenario para mejoras» en futuras iteraciones de Siri. Todas esas mejoras, están motivadas por el objetivo de crear «personalización en el dispositivo» para los usuarios.
El equipo de Apple dice que se eligió «Hey Siri» como frase por su fraseo «natural». Y describió tres escenarios en los que las activaciones involuntarias resultan problemáticas para la funcionalidad «Hey Siri».
Estos incluyen «cuando los usuarios principales dicen una frase similar», o cuando otros usuarios dicen: «Hey Siri «. Según el equipo, el último escenario es «la activación falsa más molesta de todas».
Para disminuir estas activaciones accidentales de Siri, Apple aprovecha las técnicas del campo del reconocimiento de locutores. Es importante destacar que el equipo de Siri dice que se centra en «quién está hablando» y no en «lo que se habló».
Objetivo del equipo de Siri
El objetivo general del reconocimiento del hablante (SR), es determinar para la identidad de una persona que usa su voz. Estamos interesados en «quién está hablando», en oposición al problema del reconocimiento de voz, que busca determinar «lo que se dijo».
La SR realizada usando una frase conocida como «Hey Siri», a menudo se conoce como texto dependiente de SR; de lo contrario, el problema se conoce como SR independiente del texto.
La entrada del diario analiza cómo los usuarios se inscriben en un proceso personalizado de «Hey Siri». Utilizando la inscripción explícita e implícita.
El proceso explícito comienza en el minuto, en que los usuarios hablan la frase desencadenante varias veces. Pero el proceso implícito es «creado durante un período de tiempo» y se realiza durante «situaciones del mundo real».
El equipo de Siri dice que los desafíos restantes a los que se enfrenta el reconocimiento de los altavoces. Es descubrir cómo obtener un rendimiento de calidad en entornos reverberantes (espacios grandes) y ruidosos (como el ruido de los automóviles).
Desde el verano pasado, Apple ha compartido numerosas entradas en su Machine Learning Journal sobre temas complejos. Que ya incluyen «Hey Siri», detección de rostros y más.
Todas las entradas anteriores se pueden ver en Apple.com. Y para más detalles, aquí la entrada completa del Diario de aprendizaje de Apple.