Центр робототехники Сбера совместно с AIRI и МФТИ разрабатывает систему управления роботами на естественном языке

Центр робототехники Сбера совместно с коллективом учёных из AIRI и МФТИ работает над созданием системы планирования действий роботов, которая позволит им выполнять бытовые задачи по командам на естественном языке. Об этом рассказали на конференции AI Journey 2023.

Научить роботов понимать человеческую речь — это настоящий вызов для разработчиков. Однозначное восприятие естественного языка, на котором люди говорят каждый день, — непростая задача для роботов. Абстракции, обобщения, контекст или сленг могут изменять смысл слов и предложения и, как следствие, запутать робота. Управление роботами с помощью языковых команд усложняется ещё и тем, что, хотя искусственный интеллект добился значительных успехов в понимании письменного текста, идеально переводить это понимание на разговорный язык с его вариациями акцента, скорости и интонации он пока не умеет.

Кроме того, роботы с трудом понимают неоднозначные команды и не «читают между строк», что является естественным для человека. А ещё современные роботы, даже самые простые, управляются набором из написанных команд — программного кода.

Воплощённый искусственный интеллект позволит роботу самостоятельно формировать последовательности действий для решения задач, взаимодействуя с внешней средой в реальном мире. Система, построенная на основе такой технологии, обрабатывает информацию, ориентируется в пространстве и принимает решения. В результате робот должен уметь выполнять задачи по перемещению предметов по запросу пользователя на естественном языке, а не по заранее заданному разработчиком алгоритму в виде последовательности команд на языке программирования, как раньше.

Чтобы использовать прогресс генеративных технологий для успешного применения ИИ в робототехнике, Центр робототехники Сбера, Институт AIRI и Центр когнитивного моделирования МФТИ разрабатывают универсальный подход для планирования поведения роботов на основе больших языковых моделей. Так получилось, что для задачи предсказания текста большим языковым моделям пришлось неявным образом выучить представления об окружающем мире — какие предметы в нём бывают, что с ними можно и нельзя делать. Это свойство команды используют для генерации планов действий роботов.

В будущем решение, позволяющее машинам понимать команды людей, можно будет подключить к роботам разного типа. В настоящее время учёные проводят эксперименты с использованием исследовательского робота-ровера.

Одна из сложностей в реализации такого проекта — получение обратной связи от среды, в которой действует робот. Каждая квартира или офис уникальны, и привычные нам объекты — чашки, компьютеры, мебель — отличаются друг от друга. Чтобы решить эту проблему, предложенная учёными система разбивает задачу на несколько частей в зависимости от ситуации. Например, простая даже для ребёнка просьба «положить все игрушки в ящик» оказывается совсем нетривиальной для ИИ. Он не обладает «здравым смыслом» и не знает, что такое «все игрушки».

В такой ситуации робот должен преобразовать запрос в требование «сегментировать игрушки», собрать список найденных в комнате предметов и разбить задачу на этапы, то есть самостоятельно написать себе руководство по уборке каждого конкретного объекта.