Desarrolladores chinos han creado un algoritmo que puede sintetizar un canto basándose en una grabación de le voz de una persona, y viceversa: sintetizar un discurso basándose en un canto. El artículo explicando el desarrollo, capacitación y prueba del algoritmo fue publicado en arXiv.org.
Contexto
En los últimos años, el desarrollo de algoritmos de redes neuronales para la síntesis del habla, como WaveNet, ha permitido crear sistemas que son difíciles de distinguir de las personas reales. En 2018, Google mostró un asistente de voz que no solo puede hablar de manera realista, sino que también usa sonidos como “um” para darle más realismo.
Como en el caso de otros algoritmos de redes neuronales, el éxito de los sistemas de síntesis de voz no está relacionado en gran medida con su arquitectura, sino con la gran cantidad de datos disponibles para el entrenamiento. Crear un sistema para sintetizar el canto es una tarea aparentemente similar, pero de hecho es mucho más complicado debido a la disponibilidad significativamente menor de datos.
El nuevo algoritmo
Muchos desarrolladores de sistemas de generación de canto han tomado el camino de reducir el volumen de muestras de canto necesarias para que una persona en particular aprenda el algoritmo, y ahora un grupo de investigadores chinos liderados por Dong Yu de Tencent ha creado un sistema que puede crear audio realista. Se ingresan grabaciones con canto, recibiendo solo muestras de voz.
El algoritmo se basa en un desarrollo anterior de Tencent, la red neuronal DurIAN, diseñada para sintetizar videos realistas con un presentador parlante basado en texto. DuarIAN consiste en una nueva unidad de reconocimiento de voz en el nuevo algoritmo, que crea fonemas basados en la grabación de audio entrante, indicando su duración, así como las frecuencias principales.
Estos datos caen en un bloque que consiste en un codificador y un decodificador, el cual forma un espectrograma, que una red neuronal separada convierte en una grabación de audio. El algoritmo puede funcionar en ambos sentidos, convirtiendo el habla en canto y viceversa.
Los resultados
Los autores entrenaron el algoritmo en dos conjuntos de datos patentados que consisten en una hora y media de canto y 28 horas de discurso. Después del entrenamiento, los desarrolladores probaron la efectividad del algoritmo en 14 voluntarios que evaluaron el realismo del canto sintetizado y la similitud del timbre con la grabación original.
Como resultado, una de las variantes del algoritmo obtuvo 3.8 puntos (sobre 5) en realismo y 3.65 en similitud. El sitio web de los autores publicó muestras del trabajo de la red neuronal.
Muchos estudios en el campo de los algoritmos de redes neuronales para trabajar con sonido están relacionados con la música. Por ejemplo, las redes neuronales ya pueden cambiar el género, el estilo y los instrumentos de las canciones, así como realizar tareas más prácticas, que incluyen complementar la melodía tocando la batería.
Fuente: nmas1.org