Коллектив учёных из Сколтеха и других организаций предложил новый быстрый способ распознавания товаров на развес в магазине.Исследование опубликовано в журнале IEEE Access.
В магазинах продолжают внедрять технологии, которые помогают упростить работу персонала и ускорить процесс взвешивания товаров и их оплаты. В одних магазинах покупатели, запомнив код, сами взвешивают товар на весах в зале, а в других это делают кассиры, которые определяют сорт овощей или фруктов на вид или спрашивают об этом самого покупателя. На кассах самообслуживания со встроенными весами покупателю также нужно запоминать все коды, а проконтролировать, правильно ли покупатель взвешивает товар, сложно. Исследователи из Сколтеха предлагают упростить этот процесс с помощью системы компьютерного зрения.
По словам учёных, у существующих инструментов есть ряд недостатков: «Сложность в том, что в магазинах много визуально похожих сортов фруктов или овощей, часто появляются новые. Классические системы компьютерного зрения нужно переобучать каждый раз, когда появляется новый сорт. Это долго, поскольку нужно собирать много данных о нём, потом вручную размечать их», — объясняет первый автор работы, инженер-программист и аспирант Центра технологий искусственного интеллекта в Сколтехе Сергей Нестерук.
Разработанный подход PseudoAugment позволяет настраивать нейронную сеть для работы с новыми классами без длительного процесса сбора и разметки данных. Систему можно настроить даже до того, как новые сорта окажутся на полке магазина.
«Ящик с новым сортом можно поставить под камеру и сфотографировать. Далее, используя всего лишь несколько фотографий, алгоритм без ручной разметки извлекает отдельные объекты, потом мы аугментируем (дополняем) изображения, на основе которых можно дообучать нейронную сеть. Мы увидели, что при добавлении новых классов деградация качества распознавания гораздо меньше, чем при обучении без аугментации. Когда будет добавляться много классов, деградация качества всё равно начнётся, но систему можно переобучать всего раз в несколько недель. Самое главное, что она сможет работать сразу, как только в магазине появится новый продукт», — продолжает Сергей Нестерук.
Аугментация изображений подразумевает их дополнение синтезированными изображениями, то есть визуальную трансформацию исходных данных. К таким трансформациям относится, например, переворачивание изображений, изменение их яркости, добавление шума и так далее. С помощью аугментации повышается разнообразие данных, а сама модель становится более надёжной. Работа, по словам учёных, вносит вклад в активное развитие датацентрического подхода, когда исследователи работают над улучшением данных и применяют их в уже готовых моделях. Сфера применения алгоритма не ограничивается супермаркетами. Его можно использовать для обучения распознавания однородных объектов, например, на конвейерах для сортировки семян или твёрдых бытовых отходов.