Clonación de voz con inteligencia artificial echa fuego a la desinformación

En un video transmitido por una cadena de noticias del 25 de enero, el presidente Joe Biden habla sobre tanques. Pero en una versión alterada de ese video, que ha acumulado cientos de miles de vistas esta semana en redes sociales, se hace que parezca que Biden da un discurso en el que ataca a las personas transgénero.

Los expertos en análisis forense digital afirman que el video fue creado utilizando una nueva generación de herramientas de inteligencia artificial que permiten a cualquiera crear rápidamente un audio que simule la voz de una persona con unos cuantos clics en un botón. Y aunque el video de Biden no engañó a la mayoría de los usuarios esta vez, las imágenes muestran lo fácil que es ahora generar videos manipulados digitalmente, o deepfakes, que sí pueden ser perjudiciales en el mundo real.

«Herramientas como ésta prácticamente van a echar más leña al fuego», dijo Hafiz Malik, profesor de ingeniería eléctrica e informática en la Universidad de Michigan especializado en análisis forense multimedia. «El monstruo ya anda suelto».

Llegó el mes pasado con la fase beta de la plataforma sintetizadora de voz ElevenLabs, que permite a los usuarios generar un audio realista de la voz de cualquier persona con sólo cargar algunos minutos de muestras de audio y escribir cualquier texto para que reproduzca la voz.

La empresa afirma que la tecnología fue desarrollada para doblar a distintos idiomas el audio de películas, audiolibros y juegos a fin de preservar la voz y las emociones del hablante original.

Los usuarios de redes sociales comenzaron de inmediato a compartir una muestra de audio de Hillary Clinton generado con inteligencia artificial en el que lee el mismo texto transfóbico que se usó en el corto alterado de Biden, así como cortos con audios falsos de Bill Gates en los que supuestamente afirma que la vacuna contra el COVID-19 causa sida y de la actriz Emma Watson que supuestamente lee el manifiesto de Hitler «Mi Lucha».

Poco después, ElevenLabs tuiteó que había advertido «un creciente número de casos de uso indebido de clonación de voz» y anunció que estaba explorando salvaguardas para frenar los abusos. Una de las primeras medidas fue hacer que la función sólo esté disponible para quienes provean información de pago. La compañía también dice que si fuera necesario, puede rastrear y llegar al creador de cualquier audio generado.

Pero rastrear a los creadores no mitigará el daño derivado de la herramienta, afirma Hany Farid, profesor de la Universidad de California, campus Berkeley, dedicado al análisis forense digital y la desinformación.

«El daño está hecho», agregó.

En un ejemplo expuesto por Farid, individuos malintencionados podrían manipular el mercado accionario con un audio falso de un director general que anuncie una caída en las ganancias. Y ya hay un corto en YouTube en el que se utilizó la herramienta para alterar un video para que pareciera que Biden afirma que Estados Unidos lanzaría un ataque nuclear contra Rusia.

También han aparecido en línea diversos programas de código libre y abierto con la misma capacidad, lo que hace que el pago de herramientas comerciales no sea un impedimento. The Associated Press utilizó un software gratuito en internet y generó en unos cuantos minutos muestras de audio que suenan como el actor Daniel Craig y la actriz Jennifer Lawrence.

Cuando los deepfakes hicieron su aparición en titulares por primera vez hace unos cinco años, eran fáciles de advertir porque el sujeto no parpadeaba y sonaba robótico. Ya no es el caso con la evolución de la herramienta.

El video alterado en el que se hace que Biden parezca hacer comentarios despectivos de las personas transgénero, por ejemplo, conjuntó el audio generado mediante inteligencia artificial con las imágenes reales del presidente cuando anuncia el 25 de enero el envío de tanques estadounidenses a Ucrania tomadas de una transmisión en vivo de CNN. La boca de Biden fue manipulada en el video para que su movimiento coincidiera con el audio. Aunque la mayoría de los usuarios en Twitter reconocieron que el contenido no era algo que Biden hubiera dicho, se manifestaron sorprendidos del realismo. Otros al parecer pensaron que era real o por lo menos no supieron qué creer.

Los estudios de Hollywood han tenido la capacidad de distorsionar la realidad desde hace mucho tiempo, pero el acceso a esa tecnología se ha democratizado sin considerar las implicaciones, dijo Farid.

«Se trata de una combinación de la poderosa tecnología basada en la inteligencia artificial, la facilidad de su uso, y el hecho de que el modelo parece ser: subámoslo a internet y veamos qué sucede», dijo Farid.

El audio es sólo una de las áreas en las que la desinformación generada con inteligencia artificial representa una amenaza.

Los generadores de imágenes con inteligencia artificial gratuitos como Midjourney y DALL-E pueden producir imágenes realistas de guerra y de desastres naturales al estilo de los medios de prensa tradicionales con un sencillo mensaje de texto. El mes pasado, algunos distritos escolares de Estados Unidos comenzaron a bloquear ChatGPT, que puede producir a solicitud textos legibles, como trabajos de fin de curso de estudiantes.

ElevenLabs no respondió a una solicitud de comentarios.

Fuente: AP