Análisis de la calidad del audio aplicando IA

El módulo de análisis de calidad del audio se centra en la estimación de la calidad del audio de manera automática mediante el aprendizaje máquina. Este módulo es clave para poder almacenar de manera correcta audios válidos y para mejorar la calidad, si se puede, de aquellos audios que sean detectados como pobres en cuanto a términos de calidad.

Estudio técnico del problema

En primer lugar, se van a mostrar técnicas con las que se podría alcanzar la solución deseada.

En 2016, se propuso un método para identificar la calidad del audio de manera no intrusiva basado en autoencoder con sub-bandas. Este método se diferencia de otros que utilizan también este tipo de arquitectura en que la conectividad de las neuronas del espacio latente del autoencoder no es completa con la capa anterior, sino que está restringida a ciertas bandas de frecuencia del sonido.  En cierto modo, este método genera unas características similares a las que se obtienen con el banco de filtros de Mel solo que, en ese caso, las características que se extraen se hacen de manera lineal siguiendo unas fórmulas establecidas y en el caso propuesto se consiguen mediante el entrenamiento de una red neuronal que se ajusta con mucho más detalle a todo tipo de datos [1]. 

En 2018, se propuso una nueva arquitectura de red neuronal denominada Quality-Net enfocada en exclusiva a predecir la calidad del audio de manera no intrusiva. Esta red neuronal se caracteriza por el uso de LSTM bidireccionales. LSTM es un tipo de capa de neuronas que tiene la propiedad de almacenar información de iteraciones pasadas y tener en cuenta esto para calcular la salida de la neurona en la iteración correspondiente. Las LSTM bidireccionales son capaces de tener en cuenta tanto la información pasada como la futura para estimar el valor adecuado que tiene que devolver la neurona. Además, este método tiene la ventaja frente a otros existentes en que aparte de devolver un valor de calidad para todo el audio, es capaz de identificar a lo largo del audio aquellas zonas que poseen una mayor degradación o ruido  [2]. 

En 2019, se diseñó un método que fue entrenado tanto para predecir el índice PESQ como el MOS mediante el uso de una red neuronal convolucional. El preprocesamiento consiste en los siguientes pasos: las señales son procesadas en frames de 512 muestras. Para cada una de ellas en las que haya actividad de voz, se extrae el tono, la actividad de voz, la energía del frame y los 26 coeficientes de Mel junto con sus deltas, sumando un total de 58 características por frame. Estas se combinan con las características de los 12 frames anteriores y siguientes, obteniendo una matriz de características de 25×58. Esta matriz será la entrada de la red que realizará la predicción del índice de calidad [3].

En 2019, fue propuesto un método basado en el uso de autoencoders y máquinas de soporte vectorial aplicadas a regresión (SVR) por el Beijing Institute of Technology. En este método, se realiza un preprocesamiento del audio utilizando la transformada discreta de Fourier y aplicando el logaritmo neperiano al cuadrado de la amplitud del espectro obtenido. Con esta descripción del audio se entrena un autoencoder de manera no supervisada para reducir las características en el espacio latente. Con este espacio latente se realiza el entrenamiento del SVR utilizando como etiquetas el indicador de calidad, o MOS. Con todo esto, se obtiene un sistema que dado un audio degradado es capaz de predecir la calidad del audio de acuerdo con los mismos criterios que lo haría un experto [4].

Análisis de estándares

Existen diversos estándares que han sido utilizados en le desarrollo de numerosos algoritmos para indicar la calidad del audio. En la siguiente tabla se reflejan los diferentes estándares y los algoritmos que los han utilizado como base.

Estándar

Descripción

Algoritmo

ITU-T recomendación P.563

Método basada en un solo extremo para la evaluación objetiva de la calidad vocal en aplicaciones de telefonía de banda estrecha  3SQM 

ITU-T recomendación P.861

Medición objetiva de la calidad de los códecs vocales de banda telefónica (300 – 3400 Hz)  PSQM

ITU-T recomendación P.862

Evaluación de la calidad vocal por percepción: Un método objetivo para la evaluación de la calidad vocal de extremo a extremo de redes telefónicas de banda estrecha y códecs vocales  PESQ 

ITU-T recomendación P.863

Predicción de la calidad de escucha objetiva por percepción  POLQA 

Análisis cualitativo de indicadores de calidad de voz

Existen diversos indicadores para la calidad del audio emitido. Estos son algoritmos desarrollados basándose en diferentes estándares. En la siguiente lista se describen los principales:

  • MOS (Mean Opinion Score): indica el valor de la calidad del audio en una escala del 1 al 5, siendo 1 «mala» y 5 «excelente».  Representa la media aritmética de evaluaciones individuales realizadas generalmente por humanos [19].
  • 3SQM: algoritmo que indica la calidad del audio en una conversación mediante métodos no intrusivos [20].
  • PESQ: algoritmo que evalúa y califica la calidad del audio mediante técnicas intrusivas, lo que indica que utiliza tanto el audio emitido (por lo tanto, sin ruido) como el recibido por el receptor [21].
  • POLQA: evolución de PESQ. Tiene un funcionamiento similar pero con algunas modificaciones [22].

Técnicas de mejora de la señal de voz

Existen multitud de técnicas capaces de mejorar la señal de audio:

La utilización de redes generativas adversariales se basa en la utilización del generador para crear, a partir de una audio y una muestra de ruido aleatoria, una versión nueva del audio. Esta será evaluada por el discriminador, que determinará la diferencia ente el audio original y el generado. Este proceso tiene lugar hasta que el generador sea capaz de generar una versión mejorada del audio original [23].

También se utilizan autoencoders. En primer lugar, se utiliza un encoder para obtener las características del canal a partir del audio original. A continuación, se obtiene también mediante una red neuronal con capas convolucionales, recurrentes y de atención más información sobre el canal del audio. La información obtenida por ambas redes es pasada al decoder, que predice el espectrograma de Mel. Finalmente, mediante una red denominada WaveRNN se genera la onda del audio a partir del espectrograma generado en el paso anterior [24].

Hay estudios que comparan dos modelos generativos para mejorar la calidad de un audio: por un lado, WaveNet tiene una arquitectura muy compleja y con mucha latencia, pero que provee resultados muy buenos. Por otro lado, se presenta LPCNet, con una baja complejidad y latencia que puede ser implementada en teléfonos móviles [25].

Bibliografía

[1]  M. H. Soni and H. A. Patil, “Novel subband autoencoder features for non-intrusive quality assessment of noise suppressed speech” in Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH, 2016, vol. 08-12-Sept, pp. 3708–3712.

[2] S.-W. Fu, Y. Tsao, H.-T. Hwang, and H.-M. Wang, “Quality-Net: An End-to-End Non-intrusive Speech Quality Assessment Model based on BLSTM” Aug. 2018.

[3] H. Gamper, C. K. A. Reddy, R. Cutler, I. J. Tashev, and J. Gehrke, «Intrusive and non-intrusive perceptual speech quality assessment using a convolutional neural network», IEEE Work. Appl. Signal Process. to Audio Acoust., vol. 2019-Octob, pp. 85–89, 2019, doi: 10.1109/WASPAA.2019.8937202.

[4]  J. Wang, Y. Shan, X. Xie, and J. Kuang, “Output-based speech quality assessment using autoencoder and support vector regression” Speech Commun., vol. 110, pp. 13–20, Jul. 2019.

[5] A. Biswas and D. Jia, “Audio Codec Enhancement with Generative Adversarial Networks,” pp. 356–360, 2020.

[6] H. Li, Y. Ai, and J. Yamagishi, “Enhancing low-quality voice recordings using disentangled channel factor and neural waveform model,” arXiv, 2020.

[7] J. Skoglund and J. M. Valin, “Improving opus low bit rate quality with neural speech synthesis,” Proc. Annu. Conf. Int. Speech Commun. Assoc. INTERSPEECH, vol. 2020-October, pp. 2847–2851, 2020, doi: 10.21437/Interspeech.2020-2939.