Искусственный интеллект обучают распознаванию древних текстов

Александр Гозман

5 лет назад

Библиотека аббатства Св. Галла в Швейцарии хранит около 160 тыс. томов литературных и исторических рукописей периода восьмого века. Эти произведения на пергаменте созданы на редких языках. Подобные наследия прошлого насчитывают миллионы единиц по всему миру и надежно хранятся в библиотеках и монастырях. Многие рукописи оцифрованы и доступны в онлайн. Однако большинство материалов не изданы.

Ученые из Университета Нотр-Дам разрабатывают нейронную сеть. Задачей алгоритмов станет чтение и восприятие сложного древнего почерка. Исследователи изучили оцифрованные рукописи девятого века на латинице.

Для этого читатели вводили расшифровки в специально разработанный программный интерфейс. Ученые же в свою очередь измерили время реакции процесса транскрипции. Это позволило выявить сложные и простые для восприятия нейросетями символы. Это позволило сократить количество ошибок при машинном распознавании.

Исследователи говорят о необходимости доработки решения. Особенно сложно технологии воспринимают поврежденные документы, а иллюстрации сбивают алгоритмы с толку.

Однако ими удалось настроить программу для расшифровки эфиопских текстов, адаптировав ее к языку с совершенно другим набором символов.

Материалы исследования опубликованы в журнале Transaction on Pattern Analysis and Machine Intelligence.