Análisis de sentimiento en audios de duración no fija usando una Red Neuronal Totalmente Convolucional - Elsevier

Introducción

El reconocimiento de emociones por voz es un problema importante, así como un reto, debido a sus numerosas aplicaciones, como la vigilancia por audio, el aprendizaje electrónico, los estudios clínicos, la detección de mentiras, el entretenimiento, los juegos de ordenador y los call centers.

El procesamiento de las emociones también es importante para la detección de la polaridad, que es muy útil en eventos sociales, movimientos políticos y campañas de marketing. Las emociones desempeñan un papel importante en nuestra vida, no sólo en la interacción humana, sino también en los procesos de toma de decisiones y en la percepción del mundo que nos rodea.

El lenguaje, el habla, es la forma en que los humanos se comunican. Los humanos también se comunican habitualmente por escrito, y en este caso, las frases pueden ser malinterpretadas si no se conoce el tono del hablante. Dado que las emociones nos ayudan a entendernos mejor, es necesario extender esta comprensión a los ordenadores.

Nuevo enfoque

La mayor parte de los trabajos que se realizan normalmente en la clasificación de los sentimientos analizan los textos mediante técnicas de procesamiento del lenguaje natural (PLN).

En este trabajo, se propone un método de análisis de sentimientos capaz de aceptar audio de cualquier longitud, sin estar fijado a priori. Se utilizan el espectrograma Mel y los Coeficientes Cepstrales de Frecuencia Mel como métodos de descripción de audio y se propone una arquitectura de Red Neural completamente Convolucional como clasificador.

Los resultados han sido validados utilizando tres conjuntos de datos bien conocidos: EMODB, RAVDESS y TESS. Los resultados obtenidos son prometedores, superando a los métodos más avanzados. Además, gracias a que el método propuesto admite audios de cualquier tamaño, permite realizar un análisis de sentimiento casi en tiempo real, lo que resulta muy interesante para una amplia gama de campos como los call centers, las consultas médicas o los brokers financieros.