Машинное обучение упростит координацию роботов в сложных средах

Ученые Института AIRI, ФИЦ ИУ РАН и МФТИ разработали MAPF-GPT — новый подход, который решает задачу многоагентного планирования эффективнее существующих обучаемых методов. Работа представлена исследователями в ходе ежегодной конференции по искусственному интеллекту AAAI 2025.

Этот процесс широко используется в автоматизированных логистических системах и умных складах. Ключевая сложность таких систем — синхронизация действий агентов. Оптимальный маршрут должен не только учитывать начальные координаты, но и обеспечивать безопасное и плавное движение в динамической среде.

Ранее большинство решений в этой области базировалось на статических графах, где маршруты рассчитываются заранее. Такой подход гарантирует достижение цели, но плохо адаптируется к изменениям в реальном времени.

Новый метод — MAPF-GPT — позволяет моделям принимать решения о действиях агентов непосредственно в процессе выполнения задачи. Вместо заранее заданного маршрута система адаптируется к неожиданным изменениям — например, появлению человека в рабочей зоне или изменению карты.

Архитектура MAPF-GPT основана на модели трансформера, которая анализирует наблюдения и строит оптимальные решения на их основе. Входные данные обрабатываются в виде последовательностей фиксированного размера (256 токенов), что позволяет эффективно кодировать информацию о среде и действиях агентов. Ключевой элемент трансформера — механизм внимания, который выделяет значимую информацию и помогает учитывать поведение других агентов, повышая точность решений.

В отличие от традиционных методов, MAPF-GPT прогнозирует последствия своих решений и корректирует действия в реальном времени, что делает его особенно перспективным для динамичных сценариев.

Будущие версии MAPF-GPT могут применяться в задачах многоагентного обучения с подкреплением (MARL), где агенты обучаются в среде, аналогичной SMAC, основанной на популярной игре StarCraft II.

В ходе работы исследователи подготовили самый большой на сегодняшний день датасет для мультиагентного принятия решений. Его объем составил 1 миллиард пар «наблюдение-действие».

Датасет размещен в открытом доступе для поддержки научного сообщества — его можно использовать для воспроизведения результатов или улучшения модели.