Crean una red neuronal que identifica melodías mediante los movimientos de los músicos

6 julio, 2020 Alberto Vazquez

La música no solo es una experiencia auditiva sino también visual. Cuando vemos un conjunto de músicos las señales visuales nos ayudan a diferenciar quién toca cada instrumento. Ahora, una red neuronal es capaz de identificar una melodía a través de los movimientos corporales de los intérpretes

Las redes neuronales de deep learning nos están trayendo de un tiempo a esta parte muchas alegrías y descubrimientos aplicables a disciplinas tan diversas y variadas como el arte, la educación, la medicina o la conducción. Desde algoritmos que saben diferenciar falsificaciones de obras reales a otras capaces de resucitar videojuegos clásicos como el PACMAN o incluso obtener petróleo sintético, estos sistema inteligentes hacen maravillas y nos ahorran tiempo y trabajo.

En este caso, investigadores del MIT-IBM Watson AI Lab acaban de desarrollar una nueva herramienta de IA que permite identificar melodías a través del movimiento de la mano y el cuerpo de los músicos, capturados en vídeo. Una red neuronal recopila todos los datos y otra de separación audiovisual divide cada fuente de sonido gracias a la información de la anterior.

Las aplicaciones prácticas en la industria musical y otros campos pueden ser punteras t revolucionarias: por ejemplo, al mezclar el audio de la grabación de un conciero, sería posible mejorar con creces su calidad, aislando un instrumento y cambiando su volumen, algo clave para remasterizar grabaciones antiguas. La tecnología también podría corregir los problemas que acontecen en videoconferencias cuando varias personas hablan de forma simultánea, mientras que robots dotados con este software podrían comprender sonidos ambientales procedentes del paisaje, personas, vehículos o animales.

La base del análisis visual en el proyecto, el llamado análisis de puntos clave, también puede aplicarse al campo deportivo, proporcionando una solución de seguimiento del rendimiento. Otras ventajas serían el entrenamiento de sistemas de seguridad para que puedan reaccionar al sonido de vidrios cuando rompen una ventana, o la capacidad de ejercitar coches autónomos para que pronostiquen el camino de una ambulancia y se aparten.

Investigaciones previas del MIT han demostrado que se puede enseñar a los sistemas de emparejamiento de audio y visión a reconocer y diferenciar una amplia gama de fuentes de sonido, desde las olas hasta los pájaros.

Fuente: ticbeat.com