Identificación biométrica de personas a través de la voz

Hoy en día, muchos trámites se realizan de manera telefónica, por lo que es imprescindible tener un mecanismo que nos permita verificar la identidad de los hablantes y ser capaz de comprobar que la persona que hay al otro lado del teléfono es quien dice ser.

Descripción de los parámetros físicos que representen una huella de voz

A la hora de realizar identificación de individuos a partir de conversaciones, existen ciertas características de los audios de voz que pueden tenerse en cuenta. A continuación, se van a describir brevemente algunas de las características que pueden ayudar al reconocimiento de personas.

  • Banda de frecuencia: intervalo dentro del dominio de frecuencia en el que se encuentra un determinado audio.
  • Frecuencia de formantes: se mide el número o cada cuanto tiempo se producen excitaciones dentro del espectro del audio.
  • Contorno del tono (tone contour): variaciones del tono durante la conversación
  • Coarticulación: fenómeno donde una característica de una unidad fonética aislada es influenciada por un sonido anterior o siguiente.
  • Características extraídas a partir de la descomposición armónica.

Definición de un proceso que permita la identificación única de las personas

Se han investigado diversas técnicas para la resolución de este problema, siguiendo diferentes procesos con distinto tratamiento del audio y distintos modelos. En los siguientes párrafos se van a describir los más relevantes.

En 2019, se desarrolló una técnica basada en el uso de métodos de clasificación no supervisados como RL-Sim y ReckNN aplicado sobre audios procesados para identificar a los interlocutores. Estos audios fueron procesados usando técnicas de extracción de características como MFCC y PLP y técnicas de modelado como Vector Quantization y Gaussian Mixture Models [1].

En 2019, un grupo de investigadores chinos desarrollaron un método ligero de identificación de interlocutores basado en redes convolucionales y LSTM. Los audios son procesados mediante la extracción de características Log FBank. Después, esas características son pasadas a una red convolucional unidimensional cuya salida se utiliza para alimentar un LSTM bidireccional. El punto clave de este método radica en la utilización de tres funciones de loss diferentes: Softmax, Triplet loss y AAM [2].

En 2020, Wang y su equipo crearon un método basado en el uso de una red bidireccional asimétrica LSTM. Para describir los audios se han utilizado diferentes alternativas: Aplicar convolucionales de una, dos o tres dimensiones diferentes sobre el audio original, sobre el espectrograma Mel del audio o sobre e MC-Cube. Con todo esto se concluyó que la mejor técnica era la que utlizaba convolucionales de 3 dimensiones sobre el MC-Cube [3].

En 2019, un grupo de investigadores publicaron en la revista IEEE Access un método basado en el uso de capas de atención. Combinando una red pre-entrenada como ResNet o VGG (utilizando transferencia de conocimiento) con capas de atención se consiguieron resultados muy buenos en comparación con otras técnicas existentes. Los audios originales fueron también procesados extrayendo características de MFCCs [4].

En 2019, se propuso un método para identificar personas mediante la voz utilizando un autoencoder para generar las descripciones de los audios a partir del i-vector. Una vez extraídas las características, se entrenaba una red neuronal y se analizaban las distancias con el sistema de puntuación del coseno [8].

En 2020, se propuso un método que utiliza las características de Mel MFCC a las que añade una componente temporal (MFCCT). Con este vector de características primero se realiza una identificación automática del género de la persona y luego se entrena una red neuronal independiente para cada género que es capaz de identificar la identidad del hablante. Antes de nada realizan un preprocesamiento de la señal que denominan «Pre-emphasis». Los resultados fueron comparados también con técnicas clásicas de machine learning como SVM, kNN o random forest [10].

Bibliografía

[1] V. de A. Campos and D. C. G. Pedronette, “A framework for speaker retrieval and identification through unsupervised learning,” Comput. Speech Lang., vol. 58, pp. 153–174, Nov. 2019.

[2] Z. Zhao et al., “A lighten CNN-LSTM model for speaker verification on embedded devices,” Futur. Gener. Comput. Syst., vol. 100, pp. 751–758, Nov. 2019.

[3] X. Wang, F. Xue, W. Wang, and A. Liu, “A network model of speaker identification with new feature extraction methods and asymmetric BLSTM,” Neurocomputing, vol. 403, pp. 167–181, Aug. 2020.

[4] N. N. An, N. Q. Thanh, and Y. Liu, “Deep CNNs With Self-Attention for Speaker Identification,” IEEE Access, vol. 7, pp. 85327–85337, 2019.

[8] U. Khan and J. Hernando, “DNN speaker embeddings using autoencoder pre-training,” in European Signal Processing Conference, 2019, vol. 2019-September.

[10] R. Jahangir et al., “Text-Independent Speaker Identification through Feature Fusion and Deep Neural Network,” IEEE Access, vol. 8, pp. 32187–32202, 2020.