|
Э. А. Головастова, Д.Н. Красотин "Задача эффективной кластеризации текстовой выборки в зависимости от различной параметризации этой выборки" |
|
Аннотация. Данное исследование посвящено проблеме необходимости проведения быстрой и качественной автоматизированной кластеризации больших объемов текстовых выборок в условиях постоянно разрастающегося объёма информации, в том числе получаемых из сети Интернет. В статье рассмотрены различные способы параметризации текстовой выборки и различные алгоритмы кластеризации. Качество работы методов оценивалось по скорости их выполнения, значению коэффициента Силуэт (формальному показателю качества кластеризации) и полноты финального отображения кластеров. В статье приведены результаты работы методов кластеризации, проведен их анализ и сравнение. Ключевые слова: Кластеризация, текстовая выборка, параметризация выборки, tf-idf-мера, ключевые слова, эффективный метод. Стр. 60-69. DOI 10.14357/20718632190406 Полная версия статьи в формате pdf. Литература 1. Aggarwal C. C. A framework for diagnosing changes in evolving data streams. // In Proceedings of the ACM SIGMOD International Conference on Management of Data. ––2003. –– P. 575–586. 2. Guha S. Mishra N.-Motwani R., O’Callaghan L. Clustering data streams. // In Proceedings of the IEEE Symposium on Foundations of Computer Science. –– 2000. ––P. 359–366. 3. O’Callaghan L. Mishra N.-Meyerson A. Guha S., Motwani R. Streaming data algorithms for high-quality clustering. // In Proceedings of the 18th International Conference on Data Engineering. –– 2002. –– P. 685–694. 4. Jones K. S. A statistical interpretation of term specificity and its application in retrieval // Journal of Documentation. MCB University: MCB University Press. –– 2004. — Vol. 60, no. 5. — P. 493-502. 5. [Электронный ресурс]— https://www.python.org/ 6. Bird S. NLTK: the natural language toolkit // In Proceedings of the COLING/ACL on Interactive presentation sessions. Association for Computational Linguistics. — 2006.— P. 69-72. 7. Ester M., Kriegel H.P., Sander J., XiaoweiXu A. Density- Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise // In Proceedings of 2nd International Conference on Knowledge Discovery and Data Mining. AAAI Press. — 1996.— P. 264-323. 8. [Электронный ресурс]— https://scikit-learn.org/ 9. William H. Press, Saul A. Teukolsky, William T. Vetterling, Brian P. Flannery. Numerical Recipes in C. — Cambridge: Cambridge University Press. 1997.— 1018p. 10. K-means vs Mini Batch K-means: a comparison. / Bejar, J. http://hdl.handle.net/2117/23414 (дата обращения - 10.05.2019). 11. Martin Ester, Hans-Peter Kriegel, J&g Sander, Xiaowei Xu. A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise —KDD— 1996. – Р. 226-231. 12. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика / Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. // В.А. Галактионов, Е.Б. Козеренко — Москва: МИЭМ.2011. — 272 с. 13. Jaccard P. Distribution de la flore alpine dans le Bassin des Dranses et dans quelques regions voisines // Bull. Soc. Vaudoise sci. Natur. V. 37. Bd. 140. — 1901. — S. 241-272. 14. Peter J. Rousseeuw Silhouettes: a Graphical Aid to the Interpretation and Validation of Cluster Analysis // Computational and Applied Mathematics. — 1987. — Vol. 20.— P.53–65. doi:10.1016/0377-0427(87)90125-7.
|