УПРАВЛЕНИЕ И ПРИНЯТИЕ РЕШЕНИЙ
СИСТЕМЫ УПРАВЛЕНИЯ
ПРОГРАММНАЯ ИНЖЕНЕРИЯ
ОБРАБОТКА ИНФОРМАЦИИ И АНАЛИЗ ДАННЫХ
Э. А. Головастова, Д.Н. Красотин "Задача эффективной кластеризации текстовой выборки в зависимости от различной параметризации этой выборки"
РАСПОЗНАВАНИЕ ОБРАЗОВ
ПРОБЛЕМЫ БЕЗОПАСНОСТИ
Э. А. Головастова, Д.Н. Красотин "Задача эффективной кластеризации текстовой выборки в зависимости от различной параметризации этой выборки"

Аннотация.

Данное исследование посвящено проблеме необходимости проведения быстрой и качественной автоматизированной кластеризации больших объемов текстовых выборок в условиях постоянно разрастающегося объёма информации, в том числе получаемых из сети Интернет. В статье рассмотрены различные способы параметризации текстовой выборки и различные алгоритмы кластеризации. Качество работы методов оценивалось по скорости их выполнения, значению коэффициента Силуэт (формальному показателю качества кластеризации) и полноты финального отображения кластеров. В статье приведены результаты работы методов кластеризации, проведен их анализ и сравнение.

Ключевые слова:

Кластеризация, текстовая выборка, параметризация выборки, tf-idf-мера, ключевые слова, эффективный метод.

Стр. 60-69.

DOI 10.14357/20718632190406

Полная версия статьи в формате pdf. 

Литература

1. Aggarwal C. C. A framework for diagnosing changes in evolving data streams. // In Proceedings of the ACM SIGMOD International Conference on Management of Data. ––2003. –– P. 575–586.
2. Guha S. Mishra N.-Motwani R., O’Callaghan L. Clustering data streams. // In Proceedings of the IEEE Symposium on Foundations of Computer Science. –– 2000. ––P. 359–366.
3. O’Callaghan L. Mishra N.-Meyerson A. Guha S., Motwani R. Streaming data algorithms for high-quality clustering. // In Proceedings of the 18th International Conference on Data Engineering. –– 2002. –– P. 685–694.
4. Jones K. S. A statistical interpretation of term specificity and its application in retrieval // Journal of Documentation. MCB University: MCB University Press. –– 2004. — Vol. 60, no. 5. — P. 493-502.
5. [Электронный ресурс]— https://www.python.org/
6. Bird S. NLTK: the natural language toolkit // In Proceedings of the COLING/ACL on Interactive presentation sessions. Association for Computational Linguistics. — 2006.— P. 69-72.
7. Ester M., Kriegel H.P., Sander J., XiaoweiXu A. Density- Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise // In Proceedings of 2nd International Conference on Knowledge Discovery and Data Mining. AAAI Press. — 1996.— P. 264-323.
8. [Электронный ресурс]— https://scikit-learn.org/
9. William H. Press, Saul A. Teukolsky, William T. Vetterling, Brian P. Flannery. Numerical Recipes in C. — Cambridge: Cambridge University Press. 1997.— 1018p.
10. K-means vs Mini Batch K-means: a comparison. / Bejar, J. http://hdl.handle.net/2117/23414 (дата обращения - 10.05.2019).
11. Martin Ester, Hans-Peter Kriegel, J&g Sander, Xiaowei Xu. A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise —KDD— 1996. – Р. 226-231.
12. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика / Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. // В.А. Галактионов, Е.Б. Козеренко — Москва: МИЭМ.2011. — 272 с.
13. Jaccard P. Distribution de la flore alpine dans le Bassin des Dranses et dans quelques regions voisines // Bull. Soc. Vaudoise sci. Natur. V. 37. Bd. 140. — 1901. — S. 241-272.
14. Peter J. Rousseeuw Silhouettes: a Graphical Aid to the Interpretation and Validation of Cluster Analysis // Computational and Applied Mathematics. — 1987. — Vol. 20.— P.53–65. doi:10.1016/0377-0427(87)90125-7.
 

 

2024 / 01
2023 / 04
2023 / 03
2023 / 02

© ФИЦ ИУ РАН 2008-2018. Создание сайта "РосИнтернет технологии".