Consecución del hito 1 - PITCH
PITCH es el nombre que recibe el Prototipo Inteligente de análisis avanzado de grabaciones de voz para determinar la calidad, habilitar la identificación y facilitar el reconocimiento del comportamiento humano a través de técnicas de Inteligencia artificial.
Se trata de una herramienta tecnológica basada en el uso de técnicas de aprendizaje profundo que pretende extraer información de valor de grabaciones de voz aplicando tecnologías como el tratamiento masivo de datos, computación en la nube, biometría e inteligencia artificial.
A lo largo de este primer año hemos avanzado en el análisis y experimentación sobre varias áreas del proyecto PITCH, principalmente la calidad de los audios y el análisis de los sentimientos. En estos trabajos se han realizado importantes avances y hallazgos que han sido registrados y medidos en base a una serie de indicadores dados y que nos permiten asegurar que progresamos en la dirección adecuada, realizando experimentos exitosos y obteniendo los resultados deseados.
A continuación se muestran los informes y tareas que se han desarrollado desde el inicio del proyecto para alcanzar este primer hito:
- Informe científico sobre la calidad de las grabaciones de voz: recoge todas las acciones orientadas a diseñar el procedimiento de análisis de la calidad de voz: definición de los indicadores de calidad a implementar dentro del estándar seleccionado, algoritmo de cuantificación del nivel de calidad y capacidad de transcripción, proceso integral para el tratamiento de ficheros de distintas codificaciones y procedencias, técnicas de mejora de la señal de voz.
- Informe científico con el análisis de sentimientos en las grabaciones de voz: recoge las acciones requeridas para la determinación de sentimientos alojados en las grabaciones de voz, identificación de patrones de comportamiento e intencionalidad, y extracción de características de las señales de voz que evidencian estados de ánimo.
- Experimentación acerca de la calidad de las grabaciones de voz: se han llevado a cabo pruebas utilizando diferentes técnicas de aprendizaje automático para la estimación del MOS (Mean Opinion Score). Se ha escogido está métrica de calidad debido a que es no intrusiva y establece un valor categórico en el rango 1-5 que indica la calidad del audio.
- Experimentación con los sentimientos existentes en las grabaciones de audio: para superar las soluciones actuales que no detectan aspectos como el sarcasmo y que están limitadas por el idioma, nuestra propuesta fue analizar señales de audio a través de sus características MFCC (Mel Frequency Cepstral Coefficients). Se evaluaron diferentes técnicas para entrenar el modelo de aprendizaje automático. Los mejores resultados se obtuvieron con las redes neuronales convolucionales (76% de FScore teniendo tanto la precisión como el recall muy similares). Por este motivo seleccionamos este modelo como el idóneo para nuestro prototipo. Además, una de las principales ventajas de las redes neuronales es su capacidad de mejorar los resultados cuando el volumen de datos a analizar es mayor. La capacidad de mejora del prototipo es muy alta y el uso de redes neuronales convolucionales hace que los entrenamientos se puedan acelerar aprovechando las capacidades técnicas que nos ofrecen las GPUs.
- Prototipo para determinar la calidad de las grabaciones de voz: desarrollo de la prueba de concepto de un ejecutable que permite demostrar la importación de ficheros de voz, proporcionando un informe de resultados alineado con los indicadores de calidad establecidos y clasificación final de la señal establecidos en el informe científico sobre la calidad de las grabaciones de voz.
- Prototipo para el análisis de sentimientos en las grabaciones de voz: prueba de concepto de un ejecutable que permite identificar cuántas personas intervienen en una conversación, así como los sentimientos o comportamientos o intencionalidades de los interlocutores, proporcionando un informe con los resultados logrados en base al informe científico con el análisis de sentimientos en las grabaciones de voz.
- Informe primera anualidad: informe de gestión y control económico y técnico sobre la monitorización continua de los riesgos inherentes al proyecto PITCH.
- Informe científico para el análisis del contenido en las grabaciones de voz: recoge las acciones necesarias para realizar análisis de contenido en las grabaciones de voz: extracción de metadatos, proceso de extracción semántica mediante detección de patrones en el contenido del mensaje (palabras clave, expresiones…), clasificación de patrones en modelos predefinidos, análisis sintáctico y reconocimiento de entidades (lugares, ubicaciones, eventos, personas…), relación lógica entre entidades.
- Informe científico con la identificación biométrica en las grabaciones de voz: recoge las acciones necesarias para realizar identificaciones biométricas mediante el análisis de la señal de voz digitalizada y la definición de una huella de voz partiendo de las características de dicha señal.
Hemos llegado al ecuador del proyecto. Para su finalización será necesario desarrollar las siguientes tareas en un plazo de 12 meses:
- Experimentación con el contenido de las grabaciones de voz
- Experimentación sobre la identificación biométrica
- Prototipo para el análisis de contenido en las grabaciones de voz
- Prototipo para la identificación biométrica en las grabaciones de voz
- Prototipo Beta
- Informe sobre la demostración y validación
- Informe segunda anualidad y final