Автоматическое выделение сленговых выражений в сети Интернет для обогащения словарей именованных сущностей


Автоматическое выделение сленговых выражений в сети Интернет для обогащения словарей именованных сущностей

Авторы

Турдаков Д.Ю., Архипенко К.В.

Аннотация

Сообщения пользователей социальных медиа, таких как ВКонтакте, содержат сленговые выражения, что затрудняет автоматический поиск упоминаний объектов интереса. В большинстве задач объектами интереса являются именованные сущности, такие как персоны, организации и пр.

В данной работе мы ограничились автоматическим поиском именованных сущностей, описанных в заранее заданных словарях (например, Викиданных --- \url{www.wikidata.org}). Мы разработали алгоритмы автоматического выявления сленговых выражений в социальных медиа с дальнейшим обогащением ими словарей именованных сущностей. Алгоритмы основаны на активном обучении логистической регрессии и глубоких нейронных сетей [1].

Отличиями от существующих работ являются: поддержка русского языка; учет специфики сленга (морфологической близости и совместной встречаемости с соответствующими литературными выражениями) при помощи моделей векторного представления слов [2]; использование информации о тематике сообщества и автора, которым принадлежит текст, получаемой на основе обученных тематических моделей с аддитивной регуляризацией [3].

Обогащенные словари позволяют, помимо выделения сленговых именованных сущностей в текстах, устанавливать соответствие между выделенными сущностями и объектами словарей (конкретных персон, организаций и пр. из заранее известного множества, определяемого словарем), решая проблему множественности текстовых представлений одного и того же объекта.

В работе продемонстрировано улучшение точности и полноты выделения именованных сущностей и сопоставления их с объектами в сравнении с существующими подходами на тестовых данных с ручной экспертной разметкой.

Издание

Тезисы доклада. Ломоносовские чтения-2018, секция "Вычислительная математика и кибернетика", МГУ имени М.В. Ломоносова, Россия, 16-27 апреля 2018

Научная группа

Информационные системы

Все публикации за 2018 год Все публикации