Группа исследователей из Google Brain, Google X и Калифорнийского Университета Беркли предложила расширить существующие методы AI по принятию решений роботами. В частности, робот может совершить новое действие с учетом предыдущего.
Моделирование поведения агента (то есть робота) будет строится на поведении человека или животных.
Сейчас AI-алгоритмы достигли определенного успеха в сегментах видеоигр и сортировке объектов манипуляторами. Большая часть из них использует блокирующий фрэймворк «наблюдай-думай-действуй (observe-think-act)». Агент предполагает, что окружающая обстановка остается во время обработки данных статичной. Такой подход ученые считаю допустимым, и вместе с тем отмечают: от машин потребуется обработка наблюдаемой информации и планирование последующих действий. Это позволит расширить их потенциал.
С этой целью группа ученых предлагает совместить стандартные формулировки: обучение (достижение целей через вознаграждение) и обработку параллельных сред. Исследователи включили в структуру две дополнительные функции — время выбора действия и vector-to-go (VTG). Они помогают в краткой форме аккумулировать данные, получаемые параллельно (исследователи определяют VTG как последнее действие, которое должно быть выполнено в момент измерения состояния среды.)
Ученые провели эксперименты с использованием роботизированного манипулятора. Машина захватывала и перемещала различные предметы из мусорного ведра. Такая структура оказалась на 49% быстрее, чем базовый фреймворк. К тому же благодаря использованию параллельной модели машина двигала объекты по более плавным и кратким траекториям, чем при базовой.
Предложенный подход поддержит разработку роботов, которые выполняют операции в режиме реального времени. Один из таких сценариев: транспортировка материалов между многоуровневыми складами и фулфилмент-центрами.