Конференции и научные мероприятия в Нижневартовском государственном университете

Конференции и научные мероприятия
в Нижневартовском государственном университете

https://doi.org/10.36906/AP-2022/47
УДК: 004.912:004.896

ВЕКТОРИЗАЦИЯ ТЕКСТОВ В ЗАДАЧАХ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА: ИСТОРИЯ И РАЗВИТИЕ

Раскатова М.В., канд. техн. наук, Челышев Э.А., ORCID: 0000-0001-8417-8823, Национальный исследовательский университет «МЭИ», г. Москва, Россия

ВЕКТОРИЗАЦИЯ ТЕКСТОВ В ЗАДАЧАХ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА: ИСТОРИЯ И РАЗВИТИЕ

Аннотация. В докладе рассмотрены история и развитие векторизации текстов как одного из важнейших этапов машинной обработки текстов на естественном языке. Представлены некоторые частотные алгоритмы векторизации: one-hot encoding, мешок слов, TF-IDF, а также word embedding модели векторизации. Кратко рассмотрены языковые модели как средство векторизации текстов. Описываются также достоинства и недостатки рассматриваемых подходов.

Ключевые слова: векторизация; one-hot encoding; мешок слов; TF-IDF; word embedding; языковая модель.

Raskatova M.V., Ph. D., Chelyshev E.A., ORCID: 0000-0001-8417-8823, National Research University “Moscow Power Engineering Institute”, Moscow, Russia

VECTORIZATION OF TEXTS IN NATURAL LANGUAGE PROCESSING TASKS: HISTORY AND DEVELOPMENT

Abstract. The report examines the history and development of text vectorization as one of the most important stages of natural language texts machine processing. Some frequency vectorization algorithms are presented: one-hot encoding, a bag of words, TF-IDF, as well as word embedding vectorization models. Language models as a means of text vectorization are briefly considered. The advantages and disadvantages of the approaches under consideration are also described.

Keywords: vectorization; one-hot encoding; bag of words; TF-IDF; word embedding; language model.