Команда исследователей показала, как побороть дипфейки. Исследователи создали программное обеспечение, которое использовало состязательные примеры* в каждом кадре видео. Кроме того, ученые показали, что такой вариант атаки эффективен после сжатия видео.
Ученые создали состязательный пример для каждого лица в видеокадре. Сжатие и изменение размера видео обычно удаляют из изображения подозрительные данные. Но ученые научили обходить такие ограничения. Алгоритм атаки оценивает набор входных преобразований. Затем он использует сформированную оценку для преобразования изображений так, чтобы состязательное изображение оставалось эффективным даже после сжатия и распаковки.
Далее измененная версия лица вставляется во все кадры видео и тем самым создается дипфейк. Атака также может быть применена к детекторам, которые работают с целыми видеокадрами, а не только с фрагментами лиц.
Исследователи протестировали новый тип атаки в двух сценариях:
- когда злоумышленники имеют полный доступ к модели детектора, включая конвейер извлечения лиц, а также архитектуру и параметры модели классификации;
- когда злоумышленники могут подбирать механизм работы модели машинного обучения только для определения вероятности того, что кадр будет классифицирован как настоящий или поддельный.
В первом сценарии вероятность успеха атаки для несжатого видео превысила 99%, для сжатых — 84,96%. Во втором сценарии коэффициент успеха составил 86,43% для несжатого видео и 78,33% — для сжатого. Это первая работа, доказавшая успешные атаки на современные детекторы дипфейков.
Для улучшения детекторов разработчики рекомендуют подход, аналогичный методу состязательного обучения: во время тестирования адаптивный противник продолжает генерировать новые дипфейки, которые способны обойти современный детектор; исходя из этого детектор продолжает совершенствоваться, чтобы обнаруживать новые подделки.
Команда разработчиков отказалась открыто разместить свой код, чтобы его не использовали в противоправных целях.
* Состязательные примеры — это слегка измененные входные данные, которые заставляют AI-системы, а именно модели машинного обучения, допускать ошибки