La enfermedad le arrebató la voz. La IA creó una réplica que lleva en su teléfono

14 mayo, 2024 Alberto Vazquez

La voz que Alexis «Lexi» Bogan tenía antes del verano pasado era exuberante.

Le encantaba cantar baladas de Taylor Swift y Zach Bryan en el coche. Se reía todo el tiempo, incluso mientras acorralaba a niños en edad preescolar que se portaban mal o debatía sobre política con amigos junto a una fogata en el patio trasero. En la escuela secundaria, fue soprano en el coro.

Entonces esa voz desapareció.

En agosto, los médicos extirparon un tumor potencialmente mortal alojado cerca de la parte posterior de su cerebro. Cuando el tubo de respiración salió un mes después, Bogan tuvo problemas para tragar y se esforzó por saludar a sus padres. Meses de rehabilitación ayudaron a su recuperación, pero su habla aún está afectada. Amigos, extraños y sus propios familiares luchan por entender lo que ella intenta decirles.

En abril, la joven de 21 años recuperó su antigua voz. No la real, sino un clon de voz generado por inteligencia artificial que puede convocar desde una aplicación de teléfono . Entrenada en una cápsula del tiempo de 15 segundos de su voz adolescente (obtenida de un video de demostración de cocina que grabó para un proyecto de la escuela secundaria), su voz de IA sintética pero con un sonido sorprendentemente real ahora puede decir casi todo lo que quiera.

Escribe algunas palabras u oraciones en su teléfono y la aplicación las lee instantáneamente en voz alta.

«Hola, ¿podría pedirme un café expreso batido con leche de avena y azúcar moreno helado?», dijo la voz de IA de Bogan mientras sostenía el teléfono por la ventana de su auto en un autoservicio de Starbucks.

Los expertos han advertido que la tecnología de clonación de voz mediante inteligencia artificial, que mejora rápidamente, puede amplificar las estafas telefónicas, alterar las elecciones democráticas y violar la dignidad de personas (vivas o muertas) que nunca dieron su consentimiento a que se recreara su voz para decir cosas que nunca dijeron.

Se ha utilizado para producir llamadas automáticas falsas a votantes de New Hampshire imitando al presidente Joe Biden. En Maryland, las autoridades acusaron recientemente a un director deportivo de una escuela secundaria de utilizar inteligencia artificial para generar un clip de audio falso del director de la escuela haciendo comentarios racistas.

Pero Bogan y un equipo de médicos del grupo hospitalario Lifespan de Rhode Island creen haber encontrado un uso que justifica los riesgos. Bogan es una de las primeras personas (la única con su condición) que pudo recrear una voz perdida con el nuevo Voice Engine de OpenAI. Algunos otros proveedores de inteligencia artificial, como la startup ElevenLabs, han probado tecnología similar para personas con impedimentos y pérdida del habla, incluida una abogada que ahora usa su clon de voz en la sala del tribunal.

«Esperamos que Lexi sea pionera a medida que se desarrolla la tecnología», afirmó el Dr. Rohaid Ali, residente de neurocirugía en la facultad de medicina de la Universidad de Brown y el Hospital de Rhode Island. Millones de personas con accidentes cerebrovasculares debilitantes, cáncer de garganta o enfermedades neurogenerativas podrían beneficiarse, afirmó.

«Debemos ser conscientes de los riesgos, pero no podemos olvidarnos del paciente y del bien social», afirmó la Dra. Fátima Mirza, otra residente que trabaja en el proyecto piloto. «Podemos ayudar a que Lexi recupere su verdadera voz y ella puede hablar en términos más fieles a ella misma».

Mirza y Ali, que están casados, llamaron la atención de OpenAI, creador de ChatGPT, debido a su proyecto de investigación anterior en Lifespan que utilizaba el chatbot de IA para simplificar los formularios de consentimiento médico para los pacientes. La compañía de San Francisco se acercó a principios de este año mientras buscaba aplicaciones médicas prometedoras para su nuevo generador de voz con IA.

Bogan todavía se estaba recuperando lentamente de la cirugía. La enfermedad comenzó el verano pasado con dolores de cabeza, visión borrosa y rostro caído, lo que alarmó a los médicos del Hospital Infantil Hasbro en Providence. Descubrieron un tumor vascular del tamaño de una pelota de golf que presionaba su tronco encefálico y se enredaba en los vasos sanguíneos y los nervios craneales.

«Fue una batalla controlar el sangrado y extirpar el tumor», dijo la neurocirujana pediátrica Dra. Konstantina Svokos.

La duración de la cirugía de 10 horas, junto con la ubicación y la gravedad del tumor, dañaron los músculos de la lengua y las cuerdas vocales de Bogan, impidiendo su capacidad para comer y hablar, dijo Svokos.

«Es casi como si me hubieran quitado una parte de mi identidad cuando perdí la voz», dijo Bogan.

La sonda de alimentación salió este año. La logopedia continúa, lo que le permite hablar de forma inteligible en una habitación silenciosa, pero sin signos de que vaya a recuperar la plena lucidez de su voz natural.

«En algún momento, comencé a olvidar cómo sonaba», dijo Bogan. «Me he estado acostumbrando mucho a cómo sueno ahora».

Cada vez que sonaba el teléfono en la casa de la familia en North Smithfield, un suburbio de Providence, ella se lo pasaba a su madre para que atendiera sus llamadas. Sentía que estaba agobiando a sus amigos cada vez que iban a un restaurante ruidoso. Su padre, que tiene pérdida auditiva, luchaba por entenderla.

De vuelta en el hospital, los médicos buscaban un paciente piloto para experimentar con la tecnología OpenAI.

«La primera persona que le vino a la mente al Dr. Svokos fue Lexi», dijo Ali. «Nos comunicamos con Lexi para ver si estaría interesada, sin saber cuál sería su respuesta. Estaba dispuesta a probarlo y ver cómo funcionaba».

Bogan tuvo que retroceder unos años para encontrar una grabación adecuada de su voz para «entrenar» al sistema de inteligencia artificial sobre su forma de hablar. Era un vídeo en el que explicaba cómo hacer una ensalada de pasta.

Sus médicos alimentaron intencionalmente al sistema de inteligencia artificial con solo un clip de 15 segundos. Los sonidos de la cocina hacen que otras partes del video sean imperfectas. También era todo lo que OpenAI necesitaba: una mejora con respecto a la tecnología anterior que requería muestras mucho más extensas.

También sabían que obtener algo útil en 15 segundos podría ser vital para cualquier futuro paciente que no tenga rastro de su voz en Internet. Un breve mensaje de voz dejado para un familiar podría ser suficiente.

Cuando lo probaron por primera vez, todos quedaron atónitos por la calidad del clon de voz. Los fallos ocasionales (una palabra mal pronunciada, una entonación faltante) eran en su mayoría imperceptibles. En abril, los médicos equiparon a Bogan con una aplicación de teléfono personalizada que sólo ella puede usar.

«Me emociono mucho cada vez que escucho su voz», dijo su madre, Pamela Bogan, con lágrimas en los ojos.

«Creo que es fantástico poder volver a tener ese sonido», añadió Lexi Bogan, diciendo que me ayudó a «aumentar mi confianza hasta cierto punto donde estaba antes de que todo esto sucediera».

Ahora usa la aplicación unas 40 veces al día y envía comentarios que espera ayuden a futuros pacientes. Uno de sus primeros experimentos fue hablar con los niños del preescolar donde trabaja como profesora asistente. Escribió «ja, ja, ja», esperando una respuesta robótica. Para su sorpresa, sonó como su antigua risa.

Lo usó en Target y Marshall’s para preguntar dónde encontrar artículos. La ayudó a reconectarse con su padre. Y le ha resultado más fácil pedir comida rápida.

Los médicos de Bogan han comenzado a clonar las voces de otros pacientes dispuestos a hacerlo en Rhode Island y esperan llevar la tecnología a hospitales de todo el mundo. OpenAI dijo que está avanzando con cautela a la hora de ampliar el uso de Voice Engine, que aún no está disponible públicamente.

Varias empresas emergentes de inteligencia artificial más pequeñas ya venden servicios de clonación de voz a estudios de entretenimiento o los hacen disponibles más ampliamente. La mayoría de los proveedores de generación de voz dicen que prohíben la suplantación de identidad o el abuso, pero varían en la forma en que hacen cumplir sus términos de uso.

«Queremos asegurarnos de que todas las personas cuya voz se utiliza en el servicio den su consentimiento de forma continua», dijo Jeff Harris, líder del producto de OpenAI. «Queremos asegurarnos de que no se utilice en contextos políticos. Por eso hemos adoptado una estrategia de ser muy limitados en cuanto a a quién le damos la tecnología».

Harris dijo que el siguiente paso de OpenAI implica desarrollar una herramienta segura de «autenticación de voz» para que los usuarios puedan replicar sólo su propia voz. Eso podría ser «limitante para una paciente como Lexi, que tuvo una pérdida repentina de su capacidad del habla», dijo. «Así que creemos que necesitaremos tener relaciones de alta confianza, especialmente con los proveedores médicos, para dar un acceso un poco más ilimitado a la tecnología».

Bogan ha impresionado a sus médicos por su enfoque en pensar en cómo la tecnología podría ayudar a otras personas con impedimentos del habla similares o más graves.

«Parte de lo que ha hecho durante todo este proceso es pensar en formas de modificar y cambiar esto», dijo Mirza. «Ella ha sido una gran inspiración para nosotros».

Si bien por ahora debe manipular su teléfono para que el motor de voz hable, Bogan imagina un motor de voz con IA que mejore remedios más antiguos para la recuperación del habla, como la electrolaringe con sonido robótico o una prótesis de voz, al fusionarse con el cuerpo humano. o traducir palabras en tiempo real.

Está menos segura de lo que sucederá a medida que crezca y su voz de IA sigue sonando como cuando era adolescente. Tal vez la tecnología podría «envejecer» su voz de IA, dijo.

Por ahora, «aunque no recuperé completamente mi voz, tengo algo que me ayuda a encontrarla nuevamente», dijo.

Fuente: techxplore.com