Объединённая Александром Пановым команда учёных Института проблем искусственного интеллекта ФИЦ ИУ РАН, Центра когнитивного моделирования МФТИ и AIRI поделилась своей новой разработкой. Это метод управления роботизированной системой, которая выполняет свои действия, опираясь на текстовые инструкции и визуальную информацию.
«В качестве модели мы задействовали роборуку с шестью степенями свободы. Нашей целью было научить её самостоятельно сортировать объекты на столе по цветам и собирать их в заданную область. Свои действия роборука должна была выбирать на основе текстовой инструкции и данных с видеокамер», — рассказал младший научный сотрудник ИСА РАН.
Была проведена тонкая настройка языковой модели, для чего авторы дообучили нейронную сеть, чтобы она могла различала цвета кубиков, расстояния до них и другие параметры окружения. Настройку производили в виртуальной среде (специальном игровом пространстве), в итоге модель овладела манипулятором и стала решать задачи самостоятельно в реальном окружении.
«Языковая модель выдает гипотезу о том, что что-то произойдет, а мы превращаем её в выполнимый на роботе план. В дальнейшем модель его реализует и проверяет, достигнута цель или нет. Например, схватил манипулятор кубик или нужно еще тянуться. Для этого следует учитывать визуальную информацию. Эти данные с камер видеонаблюдения поступают в ЭВМ и переводятся на понятный машине язык.
«Робототехника изначально подразумевает мультимодальный подход к обработке информации. То есть машинному интеллекту необходимо учитывать и синхронизировать, например, кадры с видеокамер, с данными от лидаров (приборов для определения расстояний). Это обычно называется комплексированием информации. Такие задачи решаются разными методами. Однако применение для этих целей языковых моделей продемонстрировало перспективность метода», — отметил старший научный сотрудник Института проблем искусственного интеллекта ФИЦ ИУ РАН Александр Панов.