Translatotron, el nuevo traductor de Google que imita la voz y el tono

Escuchen este audio en español.

Así es como suena su traducción al inglés por un sistema convencional de traducción automática.

Y ahora escuche cómo suena la misma traducción con el nuevo sistema de traducción automática de Google.

Los resultados no son perfectos, pero se nota cómo el traductor de Google es capaz de conservar la voz y el tono del orador original. Para lograrlo, el sistema convierte la entrada de audio directamente en la salida de audio sin ningún paso intermedio. A diferencia de él, los sistemas de traducción convencionales convierten el audio en texto, traducen el texto y luego resintetizan el audio, un proceso que hace que se pierdan las características de la voz original.

El nuevo sistema, denominado Translatotron, tiene tres componentes, y los tres analizan el espectrograma de audio del emisor, una instantánea visual de las frecuencias utilizadas cuando se reproduce el sonido, que se suele denominar huella de voz. El primer componente utiliza una red neuronal entrenada para mapear el espectrograma de audio en el idioma de entrada y recrear el espectrograma de audio en el idioma de salida. El segundo convierte el espectrograma en una onda de audio reproducible. Entonces, el tercer componente puede volver a poner las características vocales del orador original en la salida final de audio.

Este enfoque no solo produce traducciones más matizadas al conservar claves no verbales, sino que, en teoría, también debería minimizar los errores de traducción, ya que reduce los pasos necesarios para hacerlo.

En este momentom, Translatotron es una prueba de concepto. Durante los ensayos, los investigadores solo usaron el sistema para traducir del español al inglés, que ya tenía muchos datos de entrenamiento cuidadosamente seleccionados. Pero los resultados de audio como el de arriba demuestran el potencial de un futuro sistema comercial.

Fuente: technologyreview.es