Специалисты Центра практического Искусственного Интеллекта Сбербанка и Высшей школы экономики разработали инновационную систему распознавания эмоций, которая анализирует мимику, голос и речь одновременно. Исследование под названием «Временное моделирование с использованием TCN и трансформера для аудиовизуального распознавания эмоций» (Temporal Modeling via TCN and Transformer for Audio-Visual Emotion Recognition) опубликовано в материалах международной конференции AIST’24.
Новая технология сочетает временные свёрточные сети (TCN) и трансформерные мультимодальные архитектуры, что позволяет точнее учитывать изменения эмоционального состояния во времени. Система демонстрирует рост точности более чем на 10% по сравнению с лучшими моделями, которые анализируют только выражения лиц. Такую разработку можно использовать в бизнесе, безопасности и социальной сфере.
Разработка актуальна для кол-центров, чтобы анализировать настроения клиентов, в маркетинговых исследованиях для оценки реакции на продукты, системах безопасности для выявления агрессии или паники, образовательных и медицинских сервисах.