ВЫСОКОПРОИЗВОДИТЕЛЬНЫЕ ВЫЧИСЛИТЕЛЬНЫЕ СИСТЕМЫ
ИНТЕРНЕТ-ТЕХНОЛОГИИ
INFORMATION PROCESSING METHODS
Д.А. Девяткин, Р.Е. Суворов, И.В. Соченков "Метод тематической кластеризации масштабных коллекций научно-технических документов"
PROGRAMMING
APPLIED ASPECTS OF COMPUTER SCIENCE
НОВОСТИ
Д.А. Девяткин, Р.Е. Суворов, И.В. Соченков "Метод тематической кластеризации масштабных коллекций научно-технических документов"

Аннотация.

В статье представлены результаты исследования в области методов тематической кластеризации научно-технических документов. Сформулированы требования к реализации методов кластеризации масштабных коллекций документов в поисково-аналитических системах. Предложен метод и разработан алгоритм тематической кластеризации масштабных коллекций научно-технических документов в поисково-аналитической системе. Выполнено экспериментальное сравнение результатов работы предложенного метода с несколькими классическими методами кластеризации текстов.

Ключевые слова:

кластеризация, классификация, дескриптор, спектральный индекс, тематическая значимость.

D.A. Deviatkin, R.E. Suvorov, I.V. Sochenkov

"A method for topic clustering for large science publication collections"

The article covers research in the field of topic clustering for large science publication collections. Demands of developing such methods are considered. The method and the algorithm for topic clustering for large science publication amounts are presented. A comparison of the proposed method with classic clustering approaches is performed.

Keywords: text clustering, text classification, lexical descriptors, text spectral index, inverted spectral index, TF, IDF, topic importance characteristic, assessment of clustering methods.

Полная версия статьи в формате pdf.
 

2023 / 04
2023 / 03
2023 / 02
2023 / 01

© ФИЦ ИУ РАН 2008-2018. Создание сайта "РосИнтернет технологии".