Журнал «Информационные технологии и вычислительные системы» - Э. А. Головастова, Д.Н. Красотин "Задача эффективной кластеризации текстовой выборки в зависимости от различной параметризации этой выборки"

Просматривается номер 2019 / 04

English (United Kingdom)

Russian (CIS)

УПРАВЛЕНИЕ И ПРИНЯТИЕ РЕШЕНИЙ

М. А. Кудров, К. Д. Бухаров, Э. А. Захаров, Д. Р. Махоткин, Н. Е. Кривошеин, Н. А. Гришин, В. Семенкин "Интеллектуальный алгоритм управления группой беспилотных аппаратов"

СИСТЕМЫ УПРАВЛЕНИЯ

С. А. Илюхин, Т. С. Чернов, Д. В. Полевой "Повышение точности нейросетевых методов верификации лиц за счет пространственновзвешенной нормализации яркости изображения"

ПРОГРАММНАЯ ИНЖЕНЕРИЯ

А. С. Сулейкин, Н. Н. Бахтадзе "Модели архитектуры цифровых экосистем в сфере управления цепочками поставок"

ОБРАБОТКА ИНФОРМАЦИИ И АНАЛИЗ ДАННЫХ

R. N. Ermakov, V. V. Alekseev "Primary Data Processing for Constructing Network Package Classifiers in Deep Packet Inspection Analysis and in the Intrusion Detection Systems"

Р. К. Классен, В. А. Райхлин "Повышение эффективности Clusterixподобных СУБД для аналитической обработки больших данных"

Э. А. Головастова, Д.Н. Красотин "Задача эффективной кластеризации текстовой выборки в зависимости от различной параметризации этой выборки"

В. Н. Гридин , Д. С. Смирнов, В. А. Перепелов "Развитие современных инструментальных средств для проведения морфометрического анализа гиппокампа головного мозга по данным МРТ"

РАСПОЗНАВАНИЕ ОБРАЗОВ

E. I. Andreeva, V. V. Arlazarov, A. V. Gayer, E. P. Dorokhov, A.V. Sheshkus, O.A. Slavin "Document Recognition Method Based on Convolutional Neural Network Invariant to 180 Degree Rotation Angle"

I. M. Janiszewski, V. V. Arlazarov, D. G. Slugin "Achieving Statistical Dependence of the CNN Response on the Input Data Distortion for OCR Problem"

ПРОБЛЕМЫ БЕЗОПАСНОСТИ

Г. П. Акимова, А. Ю. Даниленко, Е. В. Пашкина, М. А. Пашкин, А. А. Подрабинович, А. В. Соловьев, И.В. Туманова "Обеспечение безопасности при цифровизации учебных заведений"


	Э. А. Головастова, Д.Н. Красотин "Задача эффективной кластеризации текстовой выборки в зависимости от различной параметризации этой выборки"
Аннотация. Данное исследование посвящено проблеме необходимости проведения быстрой и качественной автоматизированной кластеризации больших объемов текстовых выборок в условиях постоянно разрастающегося объёма информации, в том числе получаемых из сети Интернет. В статье рассмотрены различные способы параметризации текстовой выборки и различные алгоритмы кластеризации. Качество работы методов оценивалось по скорости их выполнения, значению коэффициента Силуэт (формальному показателю качества кластеризации) и полноты финального отображения кластеров. В статье приведены результаты работы методов кластеризации, проведен их анализ и сравнение. Ключевые слова: Кластеризация, текстовая выборка, параметризация выборки, tf-idf-мера, ключевые слова, эффективный метод. Стр. 60-69. DOI 10.14357/20718632190406 Полная версия статьи в формате pdf. Литература 1. Aggarwal C. C. A framework for diagnosing changes in evolving data streams. // In Proceedings of the ACM SIGMOD International Conference on Management of Data. ––2003. –– P. 575–586. 2. Guha S. Mishra N.-Motwani R., O’Callaghan L. Clustering data streams. // In Proceedings of the IEEE Symposium on Foundations of Computer Science. –– 2000. ––P. 359–366. 3. O’Callaghan L. Mishra N.-Meyerson A. Guha S., Motwani R. Streaming data algorithms for high-quality clustering. // In Proceedings of the 18th International Conference on Data Engineering. –– 2002. –– P. 685–694. 4. Jones K. S. A statistical interpretation of term specificity and its application in retrieval // Journal of Documentation. MCB University: MCB University Press. –– 2004. — Vol. 60, no. 5. — P. 493-502. 5. [Электронный ресурс]— https://www.python.org/ 6. Bird S. NLTK: the natural language toolkit // In Proceedings of the COLING/ACL on Interactive presentation sessions. Association for Computational Linguistics. — 2006.— P. 69-72. 7. Ester M., Kriegel H.P., Sander J., XiaoweiXu A. Density- Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise // In Proceedings of 2nd International Conference on Knowledge Discovery and Data Mining. AAAI Press. — 1996.— P. 264-323. 8. [Электронный ресурс]— https://scikit-learn.org/ 9. William H. Press, Saul A. Teukolsky, William T. Vetterling, Brian P. Flannery. Numerical Recipes in C. — Cambridge: Cambridge University Press. 1997.— 1018p. 10. K-means vs Mini Batch K-means: a comparison. / Bejar, J. http://hdl.handle.net/2117/23414 (дата обращения - 10.05.2019). 11. Martin Ester, Hans-Peter Kriegel, J&g Sander, Xiaowei Xu. A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise —KDD— 1996. – Р. 226-231. 12. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика / Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. // В.А. Галактионов, Е.Б. Козеренко — Москва: МИЭМ.2011. — 272 с. 13. Jaccard P. Distribution de la flore alpine dans le Bassin des Dranses et dans quelques regions voisines // Bull. Soc. Vaudoise sci. Natur. V. 37. Bd. 140. — 1901. — S. 241-272. 14. Peter J. Rousseeuw Silhouettes: a Graphical Aid to the Interpretation and Validation of Cluster Analysis // Computational and Applied Mathematics. — 1987. — Vol. 20.— P.53–65. doi:10.1016/0377-0427(87)90125-7.

2024 / 01

2023 / 04

2023 / 03

2023 / 02

© ФИЦ ИУ РАН 2008-2018. Создание сайта "РосИнтернет технологии".