Investigadores del Ejército estadounidense desarrollaron un método de aprendizaje de refuerzo que permitirá a los enjambres de vehículos aéreos y terrestres no tripulados cumplir de forma óptima varias misiones, al tiempo que se minimiza la incertidumbre de su rendimiento.
Un enjambre es un método de operaciones en el que múltiples sistemas autónomos actúan como una unidad cohesiva coordinando activamente sus acciones.
Los investigadores del Ejército dijeron que las futuras batallas en múltiples dominios requerirán enjambres de plataformas móviles heterogéneas coordinadas y acopladas dinámicamente para superar las capacidades del enemigo y sus amenazas.
El Ejército está examinando tecnología de enjambres para poder ejecutar tareas largas y peligrosas, dijo el Dr. Jemin George del Laboratorio de Investigación del Ejército del Mando de Desarrollo de Capacidades de Combate del Ejército de los Estados Unidos.
«Encontrar políticas de guiado óptimas para estos vehículos en enjambre en tiempo real es un requisito clave para mejorar el conocimiento de la situación táctica de los combatientes, permitiendo al Ejército de los Estados Unidos dominar en un entorno competitivo», dijo George.
El aprendizaje de refuerzo proporciona una forma de controlar de forma óptima a agentes inciertos para lograr objetivos múltiples cuando no se dispone del modelo preciso para el agente; sin embargo, los planes de aprendizaje de refuerzo existentes solo pueden aplicarse de forma centralizada, lo que requiere reunir la información de estado de todo el enjambre en un sistema central. Esto aumenta drásticamente la complejidad computacional y los requisitos de comunicación, lo que resulta en un tiempo de aprendizaje poco razonable, según George.
Para resolver este problema, en colaboración con la Prof. Aranya Chakrabortty de la Universidad Estatal de Carolina del Norte y el Prof. He Bai de la Universidad Estatal de Oklahoma, George creó un esfuerzo de investigación para abordar el problema del aprendizaje de refuerzo a gran escala y con múltiples agentes.
El principal objetivo de este esfuerzo es desarrollar una base teórica para un control óptimo basado en datos para las redes de enjambres a gran escala, en las que las acciones de control se llevarán a cabo sobre la base de datos de medición de baja dimensión en lugar de modelos dinámicos.
El enfoque actual se denomina Aprendizaje de Refuerzo Jerárquico, o HRL, y descompone el objetivo de control global en múltiples jerarquías, a saber, un control microscópico múltiple a nivel de pequeños grupos y un control macroscópico a nivel de enjambre amplio.
«Cada jerarquía tiene su propio bucle de aprendizaje», dijo George. «Pudimos reducir significativamente el tiempo de aprendizaje ejecutando estos bucles de aprendizaje en paralelo».
Los experimentos han demostrado que, en comparación con un enfoque centralizado, el HRL fue capaz de reducir el tiempo de aprendizaje en un 80%, limitando al mismo tiempo la pérdida de optimización al 5%.
«Nuestros esfuerzos actuales alrededor del HRL nos permitirán desarrollar políticas de control para enjambres de vehículos aéreos y terrestres no tripulados, de modo que puedan cumplir óptimamente diferentes conjuntos de misiones, aunque se desconozca la dinámica individual de los agentes del enjambre», dijo George.
Fuente: noticiasdelaciencia.com