Сбор и извлечение данных с веб-сайтов СМИ

Авторы

А.К. Яцков, М.И. Варламов, Д.Ю. Турдаков

Аннотация

Для понимания текущего состояния и динамики развития информационного пространства сети Интернет необходимы инструменты массового сбора и извлечения данных с сайтов СМИ, обладающие высокими скоростью и покрытием. Однако далеко не все сайты предоставляют синдикацию данных в RSS формате, а разработка специализированных инструментов извлечения данных для каждого веб-сайта является трудозатратной. В работе предлагаются методы, позволяющие автоматически собирать тексты новостей с произвольных сайтов СМИ. За счет классификации типов веб-страниц и последующей группировки их URL адресов, удалось повысить качество извлечения текстов новостей. Также предложена стратегия обхода сайта с выявлением страниц, содержащих списки ссылок на новостные страницы, позволяющая сократить число запросов и снизить нагрузку на сайт.

Издание

Программирование, №5, стр. 68-80

DOI: 10.31857/S013234740001216-2

Научная группа

Информационные системы

Все публикации за 2018 год

Все публикации