Crean un nuevo modelo para producir voz sintetizada más natural

Los avances tecnológicos recientes están permitiendo el desarrollo de herramientas computacionales que podrían mejorar significativamente la calidad de vida de las personas con discapacidad o deficiencias sensoriales. Estos incluyen los llamados modelos de conversión de electromiografía a voz (ETS), diseñados para convertir señales eléctricas producidas por los músculos esqueléticos en voz.

Investigadores de la Universidad de Bremen y SUPSI presentaron recientemente Diff-ETS, un modelo para la conversión ETS que podría producir un habla sintetizada más natural . Este modelo, presentado en un artículo publicado en el servidor de preimpresión arXiv , podría usarse para desarrollar nuevos sistemas que permitan a las personas que no pueden hablar, como los pacientes que se sometieron a una laringectomía (una cirugía para extirpar parte de la laringe humana), para comunicarse con los demás.

La mayoría de las técnicas introducidas anteriormente para la conversión ETS tienen dos componentes clave: un codificador EMG y un codificador de voz. El codificador de electromiografía (EMG) puede convertir señales EMG en características acústicas del habla, mientras que el vocodificador utiliza estas características del habla para sintetizar señales del habla.

«Debido a una cantidad inadecuada de datos disponibles y señales ruidosas, el habla sintetizada a menudo exhibe un bajo nivel de naturalidad», escribieron Zhao Ren, Kevin Scheck y sus colegas en su artículo. «En este trabajo, proponemos Diff-ETS, un modelo ETS que utiliza un modelo probabilístico de difusión basado en puntuaciones para mejorar la naturalidad del habla sintetizada. El modelo de difusión se aplica para mejorar la calidad de las características acústicas predichas por un codificador EMG. «

A diferencia de muchos otros modelos de conversión ETS desarrollados en el pasado, que consisten en un codificador y un codificador de voz, el modelo de los investigadores tiene tres componentes: un codificador EMG, un modelo probabilístico de difusión y un codificador de voz. El modelo probabilístico de difusión, el segundo de estos componentes, es, por tanto, una nueva incorporación que podría dar como resultado un habla sintetizada más natural.

Ren, Scheck y sus colegas entrenaron el codificador EMG para predecir el llamado espectrograma log Mel (es decir, una representación visual de señales de audio) y objetivos de fonemas a partir de señales EMG. El modelo probabilístico de difusión, por otro lado, fue entrenado para mejorar los espectrogramas log Mel, mientras que el vocodificador previamente entrenado puede traducir este espectrograma en voz sintetizada.

Los investigadores evaluaron el modelo Diff-ETS en una serie de pruebas, comparándolo con una técnica ETS básica. Sus hallazgos fueron muy prometedores, ya que el habla que sintetizó era más natural y humana que la producida con el método básico.

«En nuestros experimentos, evaluamos el ajuste del modelo de difusión en las predicciones de un codificador EMG previamente entrenado y el entrenamiento de ambos modelos de un extremo a otro», escribieron Ren, Scheck y sus colegas en su artículo. «Comparamos Diff-ETS con un modelo ETS de referencia sin difusión utilizando métricas objetivas y una prueba de escucha. Los resultados indicaron que el Diff-ETS propuesto mejoró significativamente la naturalidad del habla con respecto a la línea de base».

En el futuro, el modelo de conversión ETS desarrollado por este equipo de investigadores podría utilizarse para desarrollar mejores tecnologías para la generación artificial de voz audible. Estos sistemas podrían permitir que las personas que no pueden hablar expresen sus pensamientos en voz alta, facilitando su interacción con los demás.

«En esfuerzos futuros, se puede reducir el número de parámetros del modelo utilizando varios métodos, por ejemplo, compresión de modelos y destilación de conocimientos, generando así muestras de voz en tiempo real «, escribieron los investigadores. «Además, se puede entrenar un modelo de difusión junto con el codificador y el codificador de voz para mejorar aún más la calidad del habla».

Fuente: techxplore.com