DestacadaTecnología

Algoritmo aprendió a leer labios con solo “ver videos”

Investigadores chinos y estadounidenses han desarrollado un nuevo método de entrenamiento de redes neuronales para poder leer los labios, que permitió obtener mejores resultados que los obtenidos por algoritmos similares. El nuevo algoritmo, que fue entrenado por otro especializado en grabaciones de voz, fue publicado en la conferencia AAAI 2020.

Contexto

Debido a que los modelos de redes neuronales grandes y precisos, por regla general, requieren grandes recursos informáticos, son difíciles de usar en teléfonos inteligentes y otros dispositivos móviles.

Existen métodos que le permiten comprimir el modelo, lo que reduce significativamente su tamaño y la potencia informática necesaria para el funcionamiento, pero conserva casi por completo la precisión. Uno de estos métodos se llama destilación de conocimiento (knowledge distillation).

Durante la destilación de conocimiento, el desarrollador toma un modelo de red neuronal grande (modelo de maestro) entrenado en una gran cantidad de datos y crea una red neuronal más compacta (modelo de estudiante).

La esencia del método es que ambas redes reciben los mismos datos y el alumno intenta repetir el resultado del trabajo del profesor en cada unidad de datos (por ejemplo, fotografías), no solo en la capa de salida, sino también en todas las intermedias.

El nuevo algoritmo

Ahora, un equipo de investigadores dirigido por Mingli Song de la Universidad de Zhejiang propuso usar este método para enseñar a una IA a leer los labios. En este caso, el algoritmo de reconocimiento de voz para grabaciones de audio actúa como un maestro, porque dichos algoritmos están mucho mejor desarrollados que los algoritmos para leer el habla por el movimiento de los labios.

En general, el algoritmo se puede representar de forma simétrica con dos redes neuronales recurrentes paralelas. Vale la pena señalar que el vector de entrada para la red recursiva para reconocimiento de labios se forma sobre la base de un vector de una red neuronal convolucional que procesa cuadros de video.

Los investigadores implementaron la destilación del conocimiento en forma de varios bloques responsables de diferentes escalas de datos: un cuadro (o el segmento correspondiente de audio), la secuencia completa de datos (toda la película) y la subsecuencia general más grande.

Los desarrolladores entrenaron y probaron el método en conjuntos de datos estándar para esta tarea: LRS2, el cual contiene más de 45 mil oraciones pronunciadas en la BBC, así como CMLR, el mayor conjunto de datos de lectura de labios en chino del norte (mandarín), que contiene más de 100 mil oraciones desde el aire CNTV.

Los resultados

Una comparación de la precisión de reconocimiento en estos conjuntos de datos con los mejores algoritmos similares en el momento del estudio mostró que el nuevo algoritmo supera al reconocimiento de labios un 7.66% mejor en el conjunto de datos CMLR (31.27% de errores de nivel de letra) y 2.75% mejor en LRS2 (45.53% de errores de nivel de letra).

Anteriormente se sugirió que los movimientos de los labios se usaran no solo para el reconocimiento del habla, sino también para aumentar la seguridad. En 2017, los investigadores chinos propusieron analizar la forma individual del movimiento de los labios al pronunciar la contraseña como un factor adicional que confirma la identidad.

Fuente: nmas1.org