Asombrosa IA traduce discursos hablados manteniendo la entonación y la voz originales

Google ha mostrado un algoritmo que es capaz de traducir un discurso directamente a otro idioma sin utilizar la transcripción textual. También, sorprendentemente, puede preservar las características de la voz de una persona que habla, según el articulo publicado en el blog de Google AI. La descripción de la tecnología también aparece en arxiv.org.

Hoy en día los smartphones у los altavoces inteligentes pueden traducir no sólo mensajes textuales, sino también los discursos hablados. Por ejemplo, Google recientemente añadió esa función en su aplicación Google Assistant. Aún con la variación entre sistema y sistema, la función está basada en el mismo principio, y la traducción se realiza en tres etapas.

En primer lugar el algoritmo reconoce palabras en la grabación y prepara la transcripción textual. Luego traduce el texto al idioma requerido. Finalmente, utiliza el sistema de síntesis de voz y convierte la transcripción en un audio.

Hasta ahora se demostrado que ese algoritmo funciona bien, pero al mismo tiempo se identificaron varias desventajas. Normalmente hay diferencias entre la grabación inicial y la sintetizada, debido a que el algoritmo interpreta las entonaciones y las pausas con errores.

Una sintetización más precisa

Programadores de Google, liderados por Yonghui Wu, resolvieron ese problema creando un algoritmo que traduce el discurso sin crear transcripciones. El algoritmo de Google es un conjunto de varios modelos separados, entre los cuales figuran las redes neuronales LSTM. Es una subespecie de redes neuronales recurrentes que son ideales para trabajar con texto y cuentan con el contexto en frases largas.

Para entrenar a la red neuronal, los desarrolladores utilizaron dos conjuntos de datos que contenían grabaciones de conversaciones en inglés y español, así como sus transcripciones. Al mismo tiempo, el algoritmo intentó predecir unas secuencias de fonemas en dos idiomas. Los especialistas piensan que es una tarea crucial para poder traducir no sólo palabras separadas, sino también frases completas. En el sitio de Google AI hay varios ejemplos de traducciones preparadas por el algoritmo.

El discurso sintentizado

El discurso original

Fuente: nmas1.org