Военные исследователи США разработали подход к обучению с подкреплением, который позволит группам беспилотных воздушных и наземных транспортных средств оптимально выполнять различные задачи, сведя к минимуму неопределенность характеристик объектов противника.
ВС США ищут технологии роя дронов или роевого интеллекта. В перспективе беспилотники будут выполнять опасные задания. Для работы в неизвестных условиях дронам потребуется тратить много ресурсов на обмен данными друг с другом, вычислительные мощности и т.д. Все это приведет к неоправданному увеличению времени обучения.
Решением проблемы, по мнению ученых, станет разработка теоретической основы. Предполагается, что оптимальное управление на основе данных для крупномасштабных сетей роев будет возможным, если управляющие действия будут предприниматься не динамическими моделями.
Подобный подход назвали иерархическим обучением с подкреплением, или HRL. Подход разделяет цель на несколько иерархий, а именно: микроконтроль на множестве малых групп и макроскопический – на уровне роя.
У каждой иерархии – свой цикл обучения. Рой разделяется на несколько подгрупп и параллельно реализовывает обучение с локальным подкреплением на уровне группы. Эксперименты показали: по сравнению с централизованным подходом HRL удалось сократить время обучения на 80%, ограничив потерю оптимальности до 5%.
Сейчас команда исследователей работает над дальнейшим улучшением своей схемы управления HRL. Ученые также исследуют использование нейронных сетей, которые помогут в:
изучении и прогнозировании лучших шаблонов для роя беспилотников,
оптимальной координации автономных воздушных и наземных транспортных средств в густонаселенной городской местности.