Конференции и научные мероприятия
в Нижневартовском государственном университете

ИНФОРМАЦИОННАЯ СИСТЕМА АВТОМАТИЧЕСКОЙ РУБРИКАЦИИ НОВОСТНЫХ ТЕКСТОВ С ИСПОЛЬЗОВАНИЕМ МАШИННОГО ОБУЧЕНИЯ

Раскатова М.В., канд. техн. наук, Челышев Э.А., ORCID: 0000-0001-8417-8823, Национальный исследовательский университет «МЭИ», г. Москва, Россия

ИНФОРМАЦИОННАЯ СИСТЕМА АВТОМАТИЧЕСКОЙ РУБРИКАЦИИ НОВОСТНЫХ ТЕКСТОВ С ИСПОЛЬЗОВАНИЕМ МАШИННОГО ОБУЧЕНИЯ

Аннотация. В докладе рассмотрен процесс разработки информационной системы автоматической рубрикации новостных текстов. Представлена структура системы и схема взаимосвязи её компонентов. Подробно описан процесс подготовки текстовых данных для задачи классификации. Рассмотрен процесс построения и обучения классификаторов, а также оценки их обобщающей способности. Описан разработанный в рамках системы веб-сайт и его пользовательский интерфейс.

Ключевые слова: информационная система; рубрикация; классификатор; метрика; веб-сайт.

 

Raskatova M.V., Ph. D., Chelyshev E.A., ORCID: 0000-0001-8417-8823, National Research University “Moscow Power Engineering Institute”, Moscow, Russia

INFORMATION SYSTEM FOR AUTOMATIC CATEGORIZATION OF NEWS TEXTS USING MACHINE LEARNING

Abstract. The report examines the process of developing an information system for automatic categorization of news texts. The structure of the system and the scheme of the relationship of its components are presented. The process of preparing text data for the classification task is described in detail. The process of constructing and training classifiers, as well as evaluating their generalizing ability, is considered. The website developed within the framework of the system and its user interface are described.

Keywords: information system; categorization; classifier; metric; website.