Искусственный интеллект Microsoft проверяет орфографию на ста языках

Microsoft представила языковую систему Speller100. Задача разработки, состоящей из нескольких моделей искусственного интеллекта (AI) — понимать речь на более чем 100 языках и давать рекомендации по исправлению орфографии. Воспользоваться решением можно в поисковике Bing.

Для языков с небольшими примерами использования в Интернете сложно собрать объем данных, достаточный для обучения модели коррекции орфографии. Кроме этого, системы не могут полагаться только на данные обучения для изучения орфографии языка. По сути, исправление орфографии связано с построением модели ошибок и языковой модели. Однако в этом случае не все ошибки однородны. Например, ошибки, не связанные со словом, возникают, когда слова нет в словаре данного языка (слово “apple”, произносимое как “appll”, где последнее отсутствует в словаре). А ошибки в реальном слове возникают, когда слово существует, но не подходит для более широкого контекста.

Фото: pixabay.com

Speller100 построен на концепции языковых семей или больших групп языков. Решение учитывает общие черты, присущие нескольким языкам (например, романской группы). Система также использует метод машинного обучение с нулевым выстрелом (zero-shot learning), который позволяет модели учиться и исправлять орфографию без дополнительных данных для обучения конкретному языку.

Для масштабирования Speller100 создан подход к предварительному обучению для исправления орфографии. Он применяется для извлечения текста с веб-страниц и преднамеренном создании ошибок, таких как удаление, добавление, поворот и замена. Это устранило необходимость в сборе объемных датасетов о поиске с ошибками. В итоге Speller100 достигает 50% отклика об исправлениях для нечасто используемых языков, для которых не существовало обучающих данных. 

Специалисты Microsoft для повышения производительности решения использовали орфографические, морфологические и семантические сходства между языками для разработки 12 моделей на основе языковых семей. Это позволило сохранить компактность Speller100 для исправления орфографии при использовании языков с относительно небольшим объемом обучающих данных, таких как африкаанс и люксембургский.

В системе Bing Speller100 сократил количество страниц без результатов на 30%, а количество раз, когда пользователи переформулировать свой запрос, на 5%. Система также увеличила количество нажатий на предложенные варианты исправлений с 8% до 67%, отметили разработчики.

«Коррекция орфографии — самый первый компонент в стеке поиска Bing, потому что обнаружение правильного написания того, что подразумевают пользователи, улучшает все компоненты последующего поиска. Поскольку для нас важно предоставить всем клиентам доступ к точной и современной коррекции орфографии, мы улучшаем поиск, чтобы он включал больше языков со всего мира с помощью широкомасштабного AI», — написали разработчики в блоге.