La tecnología de conversión de texto a voz ayuda a producir más audiolibros para personas ciegas o con problemas de visión
Al y la nube generan una voz sintética que se parece mucho a una emisora de Beijing
Cuando Lina Dong perdió la vista a los 10 años, quedó excluida del mundo visual que la rodeaba y también del imaginario que había disfrutado en sus lecturas.
Sin inmutarse, continuó con su trabajo escolar con la ayuda de otros que le leían libros de texto en voz alta. Con los años, ganó confianza en sí misma, se graduó de la universidad y se convirtió en una locutora certificada, una novedad para una persona ciega en China.
Dong ahora enseña artes del lenguaje en el Centro de Servicios para Personas con Discapacidades Visuales de Beijing Hongdandan, una institución educativa sin fines de lucro donde una vez tomó clases. Conocedora de primera mano de la importancia de la palabra hablada para el aprendizaje, también crea audiolibros para sus alumnos y otras personas ciegas o con problemas de visión.
Pero la producción puede ser lenta y limitada. Ella debe capacitar a los voluntarios en técnicas de estudio y la mejor manera de leer el texto impreso para que los oyentes puedan entenderlo con facilidad. Las sesiones de grabación y edición pueden durar horas.
Ahora, Hongdandan y Microsoft han desarrollado una nueva forma: utilizar inteligencia artificial (IA) y la nube para crear una versión sintética de la voz de Dong.
De manera reciente, ella ofreció con gusto muestras de su discurso para que Custom Neural Voice, una nueva capacidad de conversión de texto a voz en Microsoft Azure Cognitive Services, pudiera generar una voz real que se acerca a la de ella. A partir de ahí, la plataforma Audio Content Creation crea audiolibros de alta calidad que casi suenan como si los leyera la propia Dong.
Este proceso aumenta y es mucho más rápido que la forma estándar en que Hongdandan y Dong han hecho audiolibros. Y eso significa que las personas ciegas o con baja visión ahora pueden acceder a una gama mucho más amplia de libros más rápido que antes.
“Hongdandan y yo compartimos el mismo objetivo: ayudar a las personas ciegas o con baja visión a integrarse mejor en la sociedad.
“Entonces, cuando alguien tiene un sueño, podemos abrirle un camino”.
Dong dice que tener más audiolibros disponibles ayuda a los estudiantes del centro a obtener calificaciones más altas y habilidades valiosas que impulsarán sus perspectivas laborales futuras
“Hongdandan y yo compartimos el mismo objetivo: ayudar a las personas ciegas o con baja visión a integrarse mejor en la sociedad. Entonces, cuando alguien tiene un sueño, podemos abrirle un camino; por ejemplo, para ayudar a un adolescente… a aprender y conseguir un empleo”.
En China, las oportunidades de empleo han estado muy limitadas durante mucho tiempo para las personas ciegas o con problemas de visión. De manera tradicional, muchos solo podían encontrar trabajo en centros de masajes terapéuticos populares en todo el país y otras partes de Asia. De hecho, durante muchos años, la mayoría de los libros chinos en braille trataban sobre técnicas profesionales de masaje.
La fundadora de Hongdandan, Zheng Xiaojie, decidió cambiar eso. En 2006, creó la biblioteca Eyes of the Soul, un proyecto que describe como el “sueño de su vida”. La idea de producir una amplia gama de audiolibros de fácil acceso provino de jóvenes ciegos o con problemas de visión.
“Sabían que hacíamos comentarios de películas y capacitamos para el trabajo a personas ciegas”, recuerda Zheng. “Y querían ayuda para grabar audiolibros sobre temas como derecho y educación infantil, para poder estudiar y aprobar exámenes.
“En ese momento, no teníamos equipo de grabación especializado. Instalamos una computadora y usamos micrófonos del programa de nuestros niños. Después de la grabación, les dimos a los jóvenes los archivos de audio. Entonces, puedes imaginar que fue un proceso muy simple y básico”.
La fundadora de Hongdandan, Zheng Xiaojie, comparte algunos audiolibros con un grupo de escolares.
En la actualidad, la biblioteca distribuye contenido a través de Microsoft Azure en 105 escuelas de China para estudiantes ciegos o con problemas de visión. También pueden acceder a más de mil títulos en la propia aplicación de la biblioteca y a un miniprograma en WeChat, la popular plataforma de redes sociales de China.
Microsoft ha sido socio de Hongdandan durante unos 15 años. Y el centro produce sus audiolibros en línea con el compromiso de Microsoft con la inteligencia artificial responsable, que protege contra el uso indebido de la tecnología y prioriza la transparencia, la equidad, la responsabilidad, la privacidad y la seguridad.
“Microsoft ha estado en contacto con nosotros todo el tiempo”, dice Zheng. “Apoyar todos los aspectos de la biblioteca Eyes of the Soul, incluido el servicio de voz de IA que usamos ahora, que antes era inimaginable para nosotros. En los trabajos de primera línea, conocíamos las necesidades de las personas ciegas, pero no sabíamos cómo utilizar métodos de alta tecnología para resolver sus necesidades. De hecho, la tecnología es un método en particular bueno para la educación de personas ciegas o con baja visión. Nos acerca más”.
Además de la docencia y el voluntariado, Dong se encuentra en la actualidad en un programa de posgrado en la Universidad de Comunicación de China, donde investiga la creación y el uso de voces sintéticas. “Como persona ciega, el desarrollo de la tecnología ha cambiado mi vida”, dice.
Entonces, con su experiencia y su oído atento a las voces, ¿Cómo califica las creaciones de inteligencia artificial de Microsoft, incluida la suya propia?
“Custom Neural Voice de Microsoft simula una voz real mucho mejor que las voces sintéticas más generales”, dice. “Por ejemplo, hay algunos cambios de tono y más detalles en las voces; estos detalles son en verdad buenos”.
Dong dice que, ya sea real o sintética, una voz de audio ideal debe sonar cálida y clara, con un sentido de confianza e incluso un sentimiento de amor y afecto. “El punto más similar entre una voz humana y la Custom Neural Voice de Microsoft es el timbre: el timbre de la Custom Neural Voice es en verdad vívido”.
Tanto Dong como Zheng enfatizan la importancia de la Biblioteca Eyes of the Soul para mejorar las perspectivas de educación y empleo de las personas ciegas o con baja visión. Pero también ven otro beneficio crucial: un sentido de conexión que infunde confianza y autosuficiencia.
Zheng dice que muchas personas ciegas o con baja visión ahora pueden “aprovechar las oportunidades en la era de Internet y encontrar las profesiones y puestos en las que son buenos”.
“Les damos un canal para adquirir conocimientos y conocer el mundo. Tener la compañía de una voz ha eliminado la distancia entre ellos y el mundo, por lo que muchos se han vuelto más positivos y confiados. Ya no tienen una sensación de aislamiento o miedo al mundo. Creen que pueden hacer muchas cosas por sí mismos “.
Fuente: microsoft.com