Ученые Института AIRI, ФИЦ ИУ РАН и МФТИ разработали MAPF-GPT — новый подход, который решает задачу многоагентного планирования эффективнее существующих обучаемых методов. Работа представлена исследователями в ходе ежегодной конференции по искусственному интеллекту AAAI 2025.
Этот процесс широко используется в автоматизированных логистических системах и умных складах. Ключевая сложность таких систем — синхронизация действий агентов. Оптимальный маршрут должен не только учитывать начальные координаты, но и обеспечивать безопасное и плавное движение в динамической среде.
Ранее большинство решений в этой области базировалось на статических графах, где маршруты рассчитываются заранее. Такой подход гарантирует достижение цели, но плохо адаптируется к изменениям в реальном времени.
Новый метод — MAPF-GPT — позволяет моделям принимать решения о действиях агентов непосредственно в процессе выполнения задачи. Вместо заранее заданного маршрута система адаптируется к неожиданным изменениям — например, появлению человека в рабочей зоне или изменению карты.
Архитектура MAPF-GPT основана на модели трансформера, которая анализирует наблюдения и строит оптимальные решения на их основе. Входные данные обрабатываются в виде последовательностей фиксированного размера (256 токенов), что позволяет эффективно кодировать информацию о среде и действиях агентов. Ключевой элемент трансформера — механизм внимания, который выделяет значимую информацию и помогает учитывать поведение других агентов, повышая точность решений.
В отличие от традиционных методов, MAPF-GPT прогнозирует последствия своих решений и корректирует действия в реальном времени, что делает его особенно перспективным для динамичных сценариев.
Будущие версии MAPF-GPT могут применяться в задачах многоагентного обучения с подкреплением (MARL), где агенты обучаются в среде, аналогичной SMAC, основанной на популярной игре StarCraft II.
В ходе работы исследователи подготовили самый большой на сегодняшний день датасет для мультиагентного принятия решений. Его объем составил 1 миллиард пар «наблюдение-действие».
Датасет размещен в открытом доступе для поддержки научного сообщества — его можно использовать для воспроизведения результатов или улучшения модели.