Proyecto PITCH
Hoy en día un gran número de empresas y organismos públicos utilizan la telefonía como medio para interactuar con clientes y ciudadanos. Son múltiples las utilidades asociadas al uso de llamadas, por ejemplo:
- Servicios de atención a usuarios y clientes.
- Asesoramiento y contrataciones.
En todos los casos, cada vez es más habitual la grabación de estas llamadas o conversaciones telefónicas, bien sea como prueba documental del proceso realizado, o para permitir la posterior auditoría de calidad del servicio prestado. En todos ellos, lo que se está produciendo es la generación masiva de grabaciones de voz que tienen una utilidad muy limitada, siendo ese el punto de partida del proyecto.
¿Qué es el proyecto PITCH?
PITCH es el nombre que recibe el Prototipo Inteligente de análisis avanzado de grabaciones de voz para determinar la calidad, habilitar la identificación y facilitar el reconocimiento del comportamiento humano a través de técnicas de Inteligencia artificial.
Se trata de una herramienta tecnológica basada en el uso de técnicas de aprendizaje profundo que pretende extraer información de valor de grabaciones de voz. Usa las siguientes tecnologías:
- Tratamiento masivo de datos.
- Computación en la nube.
- Biometría.
- Inteligencia artificial.
¿Qué es el proyecto PITCH?
PITCH es el nombre que recibe el Prototipo Inteligente de análisis avanzado de grabaciones de voz para determinar la calidad, habilitar la identificación y facilitar el reconocimiento del comportamiento humano a través de técnicas de Inteligencia artificial.
Se trata de una herramienta tecnológica basada en el uso de técnicas de aprendizaje profundo que pretende extraer información de valor de grabaciones de voz. Usa las siguientes tecnologías:
- Tratamiento masivo de datos.
- Computación en la nube.
- Biometría.
- Inteligencia artificial.
Objetivos del proyecto
El principal objetivo del proyecto es investigar sobre los distintos beneficios que puede aportar la tecnología citada anteriormente aplicada a grabaciones de voz que se almacenan desde hace años en multitud de empresas. Entrando en más detalle en cada área del proyecto, los objetivos son:
- Detectar posibles problemas durante la grabación que afecten a la calidad del audio para poder solventarlos y garantizar que los archivos resultantes cumplen con los estándares necesarios para su procesamiento y uso en el entrenamiento de los modelos.
- Identificar de forma dinámica los cambios en los sentimientos experimentados por cada uno de los interlocutores a lo largo de toda una conversación.
- Identificar la temática de una conversación y clusterizarla, según su contenido, en distintas categorías.
- Detectar el número de personas participantes en una conversación e identificarlas de forma inequívoca según los parámetros biométricos de su voz.
La combinación de tecnologías como el procesamiento de lenguaje natural, la biometría y el aprendizaje automático permitirán obtener un valor del contenido de dichas grabaciones que actualmente no se está consiguiendo. Por otra parte, tecnologías como el Big Data y la computación en la nube permitirán ejecutar estos servicios a unos niveles de escala e inmediatez que en determinadas situaciones son imprescindibles.
Análisis de la calidad del audio
Analizar audios para ser capaz de identificar y descartar de manera automática aquéllos cuya calidad afecte al rendimiento del resto de módulos es un paso crítico a la hora de conseguir:
- Reducir recursos de almacenamiento.
- Optimizar modelos de aprendizaje automático.
Nuestro módulo de análisis de calidad es capaz de clasificar el audio simulando el MOS (Mean Opinion Score), que lleva durante décadas siendo la métrica más utilizada para determinar la calidad de un audio.
MOS es una métrica con valores de 1 (muy mala calidad) a 5 (calidad óptima). Se calcula mediante la opinión media de múltiples expertos que se encargan de analizar cada audio de manera individual.
Automatizar el cálculo de la métrica nos permite eliminar el factor humano para:
- Ahorrar tiempo y dinero. Requiere contar con un elevado número de expertos que escuchen los audios de manera individual.
- Reducir la subjetividad. Usar un gran número de expertos para reducir la subjetividad conlleva un mayor coste económico.
Análisis de la calidad del audio
Analizar audios para ser capaz de identificar y descartar de manera automática aquéllos cuya calidad afecte al rendimiento del resto de módulos es un paso crítico a la hora de conseguir:
- Reducir recursos de almacenamiento.
- Optimizar modelos de aprendizaje automático.
Nuestro módulo de análisis de calidad es capaz de clasificar el audio simulando el MOS (Mean Opinion Score), que lleva durante décadas siendo la métrica más utilizada para determinar la calidad de un audio.
MOS es una métrica con valores de 1 (muy mala calidad) a 5 (calidad óptima). Se calcula mediante la opinión media de múltiples expertos que se encargan de analizar cada audio de manera individual.
Automatizar el cálculo de la métrica nos permite eliminar el factor humano para:
- Ahorrar tiempo y dinero. Requiere contar con un elevado número de expertos que escuchen los audios de manera individual.
- Reducir la subjetividad. Usar un gran número de expertos para reducir la subjetividad conlleva un mayor coste económico.
Análisis de los sentimientos
El análisis de sentimientos es un campo muy explotado en el mundo del procesamiento del lenguaje natural. Actualmente la mayoría de sistemas se limitan a analizar el contenido de la conversación para extraer el sentimiento.
Ser capaz de utilizar la señal de audio para inferir el estado de ánimo de una persona nos aporta una gran cantidad de ventajas, entre las que destacan:
- Análisis continuo del sentimiento a lo largo de toda la conversación y para cada uno de los interlocutores, en lugar de una valoración global.
- Independencia del idioma a tratar.
- Capacidad de identificar aspectos que en el contenido no se pueden detectar como, por ejemplo, el sarcasmo o la ironía.
Nuestro módulo permite identificar hasta 7 emociones diferentes a lo largo de una conversación: enfado, alegría, sorpresa, tristeza, miedo, disgusto y neutro.
Uno de los puntos claves del módulo es el análisis de la evolución del estado de ánimo de los hablantes. Con esto, un call center puede identificar trabajadores que sistemáticamente enfadan a los clientes o aquéllos capaces de calmar a usuarios enfadados. Además, puede utilizarse internamente para prever futuros problemas de convivencia en los equipos.
Análisis de los sentimientos
El análisis de sentimientos es un campo muy explotado en el mundo del procesamiento del lenguaje natural. Actualmente la mayoría de sistemas se limitan a analizar el contenido de la conversación para extraer el sentimiento.
Ser capaz de utilizar la señal de audio para inferir el estado de ánimo de una persona nos aporta una gran cantidad de ventajas, entre las que destacan:
- Análisis continuo del sentimiento a lo largo de toda la conversación y para cada uno de los interlocutores, en lugar de una valoración global.
- Independencia del idioma a tratar.
- Capacidad de identificar aspectos que en el contenido no se pueden detectar como, por ejemplo, el sarcasmo o la ironía.
Nuestro módulo permite identificar hasta 7 emociones diferentes a lo largo de una conversación: enfado, alegría, sorpresa, tristeza, miedo, disgusto y neutro.
Uno de los puntos claves del módulo es el análisis de la evolución del estado de ánimo de los hablantes. Con esto, un call center puede identificar trabajadores que sistemáticamente enfadan a los clientes o aquéllos capaces de calmar a usuarios enfadados. Además, puede utilizarse internamente para prever futuros problemas de convivencia en los equipos.
Análisis del contenido
Agrupar los audios teniendo en cuenta el contenido del mismo es un punto muy interesante a la hora de gestionar un gran volumen de datos. Un sistema personalizado que permita clasificar los audios en distintas categorías nos permite:
- Gestionar mejor los recursos encargados de responder.
- Identificar patrones o tendencias en las peticiones o quejas de los clientes.
- Especializar a los trabajadores y permitirles responder a cada uno de ellos al tipo de incidencias relacionadas con su conocimiento para optimizar los resultados y el tiempo de respuesta.
Dependiendo de la naturaleza de la empresa que utilice el sistema, el módulo de análisis de contenido puede personalizarse para ajustarse a las categorías propias de la compañía. Por ejemplo, el uso de esta herramienta de análisis de contenido en un hospital nos permitiría separar las llamadas entrantes en: citas, consultas, quejas, anulaciones, recetas, etc.
Análisis del contenido
Agrupar los audios teniendo en cuenta el contenido del mismo es un punto muy interesante a la hora de gestionar un gran volumen de datos. Un sistema personalizado que permita clasificar los audios en distintas categorías nos permite:
- Gestionar mejor los recursos encargados de responder.
- Identificar patrones o tendencias en las peticiones o quejas de los clientes.
- Especializar a los trabajadores y permitirles responder a cada uno de ellos al tipo de incidencias relacionadas con su conocimiento para optimizar los resultados y el tiempo de respuesta.
Dependiendo de la naturaleza de la empresa que utilice el sistema, el módulo de análisis de contenido puede personalizarse para ajustarse a las categorías propias de la compañía. Por ejemplo, el uso de esta herramienta de análisis de contenido en un hospital nos permitiría separar las llamadas entrantes en: citas, consultas, quejas, anulaciones, recetas, etc.
Análisis biométrico
Identificar de manera unívoca cuando un hablante es quien dice ser es un paso crucial para muchas operaciones que se realizan vía telemática.
El módulo de análisis biométrico es capaz de verificar que un usuario es quien dice ser con tan solo tener una grabación previa del mismo usuario registrada en el sistema.
Otros sistemas requieren de la reproducción de la misma frase para verificar la identidad, pero nuestro sistema es independiente del contenido de la misma y se basa 100% en la información extraída de la onda siendo capaz de extraer las características que realmente identifican a una persona.
Este tipo de análisis combinado con reconocimiento facial puede convertir cualquier tipo de aplicación en un sistema seguro y confiable.
Análisis biométrico
Identificar de manera unívoca cuando un hablante es quien dice ser es un paso crucial para muchas operaciones que se realizan vía telemática.
El módulo de análisis biométrico es capaz de verificar que un usuario es quien dice ser con tan solo tener una grabación previa del mismo usuario registrada en el sistema.
Otros sistemas requieren de la reproducción de la misma frase para verificar la identidad, pero nuestro sistema es independiente del contenido de la misma y se basa 100% en la información extraída de la onda siendo capaz de extraer las características que realmente identifican a una persona.
Este tipo de análisis combinado con reconocimiento facial puede convertir cualquier tipo de aplicación en un sistema seguro y confiable.
Software de código abierto
Nuestra filosofía siempre ha sido el uso de tecnologías Open Source como Java o Python entre otras. Por eso compartimos con la comunidad el acceso al repositorio con el código fuente liberado del proyecto.
Software de código abierto
Nuestra filosofía siempre ha sido el uso de tecnologías Open Source como Java o Python entre otras. Por eso compartimos con la comunidad el acceso al repositorio con el código fuente liberado del proyecto.
¿Conoces el valor de tus audios?
Transforma tus grabaciones de audio en insights y mejora la rentabilidad y la toma de decisiones.
Cuéntanos tu caso y un consultor te asesorará sin compromiso sobre cómo obtener todo el valor que se esconde en tus archivos de audio.
¿Conoces el valor de tus audios?
Transforma tus grabaciones de audio en insights y mejora la rentabilidad y la toma de decisiones.
Cuéntanos tu caso y un consultor te asesorará sin compromiso sobre cómo obtener todo el valor que se esconde en tus archivos de audio.