Con IA devuelven el habla a mujer con parálisis grave del cerebro
Investigadores de la Universidad de California en San Francisco (UCSF) y de la Universidad de Berkeley, en Estados Unidos, desarrollaron una interfaz cerebro-computadora (BCI, por sus siglas en inglés) que permitió hablar a través de un avatar digital a una mujer con parálisis grave provocada por un derrame cerebral.
Es la primera vez que se sintetizan el habla y las expresiones faciales a partir de señales cerebrales, aseguraron los investigadores en la revista Nature. El sistema también puede descodificar estas señales en texto a casi 80 palabras por minuto, lo que supone una gran mejora respecto de la tecnología disponible en el mercado.
Edward Chang, catedrático de cirugía neurológica de la UCSF, que desde hace más una década trabaja en esta tecnología, conocida como interfaz cerebro-computadora (BCI, por sus siglas en inglés), espera que este avance de la investigación conduzca en un futuro próximo a un sistema aprobado por la Administración de Alimentos y Medicamentos que permita hablar a partir de señales cerebrales.
“Nuestro objetivo es restablecer una forma de comunicación plena y corporal, realmente la forma más natural de hablar con los demás, agregó Chang, miembro del Instituto Weill de Neurociencia de la UCSF y Catedrático Distinguido de Siquiatría Jeanne Robertson.
Estos avances acercan mucho más a convertirlo en una solución real para los pacientes, destacó.
El equipo de Chang demostró anteriormente que era posible descodificar las señales cerebrales en texto en un hombre que también había sufrido una interrupción brusca de la circulación cerebral (Ictus) en el tronco encefálico muchos años antes. El estudio actual muestra algo más ambicioso: descodificar las señales cerebrales en la riqueza del habla, junto con los movimientos que animan el rostro de una persona durante la conversación.
Chang implantó un rectángulo fino como el papel de 253 electrodos en la superficie del cerebro de la mujer, en zonas que su equipo ha descubierto que son fundamentales para el habla.
Banco de cómputo
Los electrodos interceptaron las señales cerebrales que, de no haber sido por el Ictus, habrían ido a parar a los músculos de la lengua, la mandíbula y la laringe, así como a la cara. Un cable, conectado a un puerto fijado a la cabeza, conectaba los electrodos a un banco de cómputo.
Durante semanas, la participante trabajó con el equipo para entrenar los algoritmos de inteligencia artificial (IA) del sistema a reconocer sus señales cerebrales únicas para el habla. Para ello, repitió una y otra vez distintas frases de un vocabulario conversacional de mil 24 palabras, hasta que la computadora reconoció las pautas de actividad del cerebro asociados a los sonidos.
En lugar de entrenar a la IA para que reconociera palabras enteras, los expertos crearon un sistema que descodifica palabras a partir de fonemas. Éstos son las subunidades del habla que forman palabras habladas del mismo modo que las letras hacen palabras escritas. Hola, por ejemplo, contiene cuatro fonemas: HH, AH, L y OW.
Con este método, la computadora sólo necesitaba aprender 39 fonemas para descifrar cualquier palabra en inglés. Esto mejoró la precisión del sistema y lo hizo tres veces más rápido.
La precisión, la velocidad y el vocabulario son cruciales. Es lo que da a un usuario la posibilidad, con el tiempo, de comunicarse casi tan rápido como nosotros y mantener conversaciones mucho más naturalistas y normales, aseguró Sean Metzger, que desarrolló el descodificador de texto junto con Alex Silva, ambos estudiantes de posgrado del Programa Conjunto de Bioingeniería de la UC Berkeley y la UCSF
Para crear la voz, el equipo ideó un algoritmo para sintetizar el habla, que personalizaron para que sonara como la voz de Ann antes de la lesión, utilizando una grabación de ella hablando en su boda.
El equipo animó el avatar con la ayuda de un software que simula y anima los movimientos musculares de la cara, desarrollado por Speech Graphics, empresa que realiza animaciones faciales basadas en IA.
Los investigadores crearon procesos personalizados de aprendizaje automático que permitieron al software de esa empresa engranar las señales que enviaba el cerebro de la mujer, mientras intentaba hablar y convertirlas en los movimientos de la cara del avatar, haciendo que la mandíbula se abriera y cerrara, los labios sobresalieran y se fruncieran y la lengua subiera y bajara, así como los movimientos faciales de felicidad, tristeza y sorpresa.
Estamos compensando las conexiones entre el cerebro y el tracto vocal que interrumpió el Ictus. Cuando el sujeto utilizó por primera vez este sistema para hablar y mover la cara del avatar a la vez, supe que esto iba a ser algo que tendría un impacto real, sostuvo Kaylo Littlejohn, estudiante de posgrado que trabaja con Chang y Gopala Anumanchipalli, catedrático de ingeniería eléctrica e informática de la UC Berkeley.
Un próximo paso importante para el equipo es crear una versión inalámbrica que no requiera que el usuario esté físicamente conectado a la BCI.
Dar a las personas la capacidad de controlar libremente sus propias computadoras y teléfonos con esta tecnología tendría profundos efectos en su independencia y sus interacciones sociales, concluyó David Mo.
Fuente: EP