Нейросеть томских лингвистов сможет писать новости для информагентств

Сотрудники лаборатории лингвистической антропологии филологического факультета ТГУ разработали онлайн-сервис по автоматическому анализу и созданию новостных текстов «WORLD2NEWS». Он должен ускорить сбор информации, публикации новости и решить вопрос с достоверностью журналистских материалов.

Два ключевых признака СМИ с хорошей репутацией – это оперативность и достоверность, особенно это касается новостей. Общеизвестно, что машина находит, обрабатывает, компонует и перепроверяет информацию в разы быстрее человека, при этом исключает фактические ошибки. То есть, если рутинную работу с новостями возьмет на себя искусственный интеллект, ценность журналиста как творческой единицы, способной к аналитике и интерпретации, вырастет в разы, а времени на подготовку авторских материалов станет куда больше.

Сотрудники лаборатории и магистранты автономной магистерской программы «Компьютерная и когнитивная лингвистика» разрабатывают онлайн-сервис, способный создавать и проверять новости с помощью нейронных сетей и синтаксических парсеров, основанных на формальных грамматиках. На основе лингвистического преданализа структурных особенностей текста, создания тематических словарей и формальных грамматик программы автоматического анализа извлекают из неструктурированных текстов  факты (кто, что, где, когда) и синтезируют заголовок новости. Если у человека на это уходит минимум 5 минут, то у нейросети – несколько секунд.

Фото: Franck V. on Unsplash

В отличие от большинства аналогичных программ, в разработке молодых ученых ТГУ функционал создаваемого сервиса гораздо шире. Например, пользователь может выбрать вариант заголовка как полностью сгенерированного нейросетью, так и созданного при помощи формальных грамматик, что позволяет формировать и стиль новостного текста. Преимуществом «WORLD2NEWS» является высокая формальная точность по показателям  BLEU-score, следовательно, сгенерированные тексты максимально схожи с журналистскими.

BLEU-score – это алгоритм оценки качества текста, который был автоматически переведен с одного естественного языка на другой. Качество перевода определяется соответствием между производительностью машины и человека: «чем ближе машинный перевод к профессиональному человеческому переводу, тем лучше»

Как ранее рассказывали члены команды, работа над приложением начиналась как обычный студенческий проект, но в процессе его реализации был создан действующий сервис с набором функций, востребованных при решении задач автоматической обработки текстовой информации.

– Пока что «WORLD2NEWS» – это действующий прототип с минимальным набором функций. Предстоит еще немало работы по оптимизации формальных грамматик и разработке новых решений, основанных на нейронных сетях, – добавляет сотрудник лаборатории лингвистической антропологии ФилФ ТГУ Андрей Степаненко.