Microsoft представила языковую систему Speller100. Задача разработки, состоящей из нескольких моделей искусственного интеллекта (AI) — понимать речь на более чем 100 языках и давать рекомендации по исправлению орфографии. Воспользоваться решением можно в поисковике Bing.
Для языков с небольшими примерами использования в Интернете сложно собрать объем данных, достаточный для обучения модели коррекции орфографии. Кроме этого, системы не могут полагаться только на данные обучения для изучения орфографии языка. По сути, исправление орфографии связано с построением модели ошибок и языковой модели. Однако в этом случае не все ошибки однородны. Например, ошибки, не связанные со словом, возникают, когда слова нет в словаре данного языка (слово “apple”, произносимое как “appll”, где последнее отсутствует в словаре). А ошибки в реальном слове возникают, когда слово существует, но не подходит для более широкого контекста.
Speller100 построен на концепции языковых семей или больших групп языков. Решение учитывает общие черты, присущие нескольким языкам (например, романской группы). Система также использует метод машинного обучение с нулевым выстрелом (zero-shot learning), который позволяет модели учиться и исправлять орфографию без дополнительных данных для обучения конкретному языку.
Для масштабирования Speller100 создан подход к предварительному обучению для исправления орфографии. Он применяется для извлечения текста с веб-страниц и преднамеренном создании ошибок, таких как удаление, добавление, поворот и замена. Это устранило необходимость в сборе объемных датасетов о поиске с ошибками. В итоге Speller100 достигает 50% отклика об исправлениях для нечасто используемых языков, для которых не существовало обучающих данных.
Специалисты Microsoft для повышения производительности решения использовали орфографические, морфологические и семантические сходства между языками для разработки 12 моделей на основе языковых семей. Это позволило сохранить компактность Speller100 для исправления орфографии при использовании языков с относительно небольшим объемом обучающих данных, таких как африкаанс и люксембургский.
В системе Bing Speller100 сократил количество страниц без результатов на 30%, а количество раз, когда пользователи переформулировать свой запрос, на 5%. Система также увеличила количество нажатий на предложенные варианты исправлений с 8% до 67%, отметили разработчики.
«Коррекция орфографии — самый первый компонент в стеке поиска Bing, потому что обнаружение правильного написания того, что подразумевают пользователи, улучшает все компоненты последующего поиска. Поскольку для нас важно предоставить всем клиентам доступ к точной и современной коррекции орфографии, мы улучшаем поиск, чтобы он включал больше языков со всего мира с помощью широкомасштабного AI», — написали разработчики в блоге.