Desarrollan sistema de IA capaz de comprender el tono en una conversación

M. Rodríguez Hace 9 años

Un mismo mensaje puede tener diferentes significados o interpretaciones dependiendo del tono de la conversación, por lo que comprender el tono que está empleando nuestro interlocutor es fundamental para evitar malentendidos.

Hasta ahora, este era uno de los principales retos de los sistemas de inteligencia artificial (IA). Ahora, un equipo de investigadores ha desarrollado un sistema de inteligencia artificial (IA) que, combinado con un dispositivo vestible (wearable), es capaz de comprender el tono de una conversación.

Entre sus aplicaciones: servir como coach para el usuario que lleva puesto el dispositivo o incluso ayudar a personas con ansiedad o con Asperger.

Los asistentes de inteligencia artificial que se comunican con los usuarios por voz, como Siri, han mejorado muchísimo a lo largo delos últimos años, llegando a manejarse con gran habilidad en una conversación con un interlocutor humano.

Sin embargo, hay un problema recurrente: su incapacidad para detectar el tono o la emoción asociados al mensaje; algo fundamental para evitar malentendidos.

Ahora, investigadores del Laboratorio de Informática e Inteligencia Artificial del MIT (CSAIL, por sus siglas en inglés) y del Instituto de Ciencia e Ingeniería médica (IMES), han resuelto en parte este problema.

Por el momento, el sistema todavía no es muy específico, pero ya es capaz de clasificar el tono de la conversación en positivo, neutro o triste, combinando la información de ciertos patrones del habla con los signos vitales captados por el dispositivo.

Cuando uno de los participantes en la conversación narra una historia, el sistema puede analizar el audio, las transcripciones de texto y las señales fisiológicas de la persona para determinar el tono general de la historia hasta con un 83% de precisión.

Además, utilizando técnicas de aprendizaje profundo, el sistema es capaz de proporcionar una «puntuación de sentimiento» para intervalos específicos de cinco segundos dentro de una conversación.

«Hasta donde sabemos, este es el primer experimento que recoge tanto datos físicos como del habla, de forma pasiva pero robusta, incluso cuando los sujetos tienen interacciones naturales, no estructuradas», señala Mohammad Ghassemi, uno de los autores del estudio.

«Nuestros resultados muestran que es posible clasificar el tono emocional de las conversaciones en tiempo real».

En los experimentos realizados, los investigadores utilizaron relojes inteligentes existentes ya en el mercado, concretamente, los Samsung Simband. Esto muestra lo cerca que podríamos estar de tener soluciones así en el mercado.

Se puede ver el sistema en funcionamiento en el siguiente vídeo:

Para proteger la privacidad de los usuarios y su información personal, el algoritmo se ejecuta de forma local en el dispositivo del usuario.

No obstante, los investigadores destacan que, de cara a una solución comercial, sería necesario desarollar unos protocolos claros para pedir el consentimiento de todos los participantes.

Los investigadores presentarán los resultados de sus experimentos en el congreso de la Association for the Advancement of Artificial Intelligence (AAAI), celebrado esta semana en San Francisco.

El siguiente paso será probar con conversaciones en las que participen múltiples personas, cada una con su dispositivo de pulsera, con el fin de tratar de mejorar el rendimiento del algoritmo.

El objetivo final, lograr que el sistema sea capaz de identificar diferentes tonos de forma mucho más específica, con el fin de poder detectar, por ejemplo, aburrimiento, enfado, nerviosismo, apatía…

Se puede consultar más información sobre los experimentos realizados y sus resultados en: news.mit.edu

Seguir leyendo: