МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ
ВЫЧИСЛИТЕЛЬНЫЕ СИСТЕМЫ
НАНОТЕХНОЛОГИИ
ПРИКЛАДНЫЕ АСПЕКТЫ ИНФОРМАТИКИ
Э. Мбайкоджи, А.А. Драль, И.В. Соченков "Метод автоматической классификации коротких текстовых сообщений "
Э. Мбайкоджи, А.А. Драль, И.В. Соченков "Метод автоматической классификации коротких текстовых сообщений "

Аннотация.

В статье представлены результаты исследования в области классификации коротких текстовых документов. Проанализированы методы классификации на основе анализа распределения лексических дескрипторов естественного языка. Описан метод оценки информационной значимости в текстах естественного языка. Представлен метод классификации текстовых документов на основе характеристики тематической значимости.

Ключевые слова:

классификация коротких текстовых документов, классификация по метаданным, мультиномиальная модель, метод опорных векторов, TF, IDF, характеристика тематической значимости.

Стр. 93-102.

E. Mbaykodzhi, A.A. Dral, I.V. Sochenkov

"Short text messages classification method"

The article covers short text classification method based on different measures of similarity word distribution. The work presents the text classification method based on a new lexical descriptor information gain concept and a topic importance characteristic. The results of experiments are presented.

Keywords: short text classification, metadata based classification, SVM, TF, IDF, topic importance characteristic.

Полная версия статьи в формате pdf.

2017 / 02
2017 / 01
2016 / 04
2016 / 03

© ФИЦ ИУ РАН 2008-2016. Создание сайта "РосИнтернет технологии".