ПРИКЛАДНЫЕ АСПЕКТЫ ИНФОРМАТИКИ
СИСТЕМЫ УПРАВЛЕНИЯ
ПРОГРАММНАЯ ИНЖЕНЕРИЯ
БИОИНФОРМАТИКА И МЕДИЦИНА
ОБРАБОТКА ИНФОРМАЦИИ И АНАЛИЗ ДАННЫХ
Д. Р. Потапов "Реализация модуля определения параметров сложной нагрузки на самоадаптирующиеся контейнеры данных"
ПРОБЛЕМЫ БЕЗОПАСНОСТИ
Д. Р. Потапов "Реализация модуля определения параметров сложной нагрузки на самоадаптирующиеся контейнеры данных"

Аннотация.

В работе приведены результаты реализации модуля определения параметров сложной нагрузки на самоадаптирующиеся контейнеры данных. Представлено обоснование выбора модификации алгоритма ЕМ и алгоритма инициализации kmeans++, дано краткое описание работы программы. Помимо этого, проведен анализ качества кластеризации (для одного и нескольких кластеров, смещения и устаревания данных) и времени работы модуля. Исходя из результатов тестирования, можно сказать, что модуль хорошо справляется с задачей определения параметров сложной нагрузки и может быть эффективно использован в самоадаптирующихся контейнерах данных.

Ключевые слова:

хранение данных, эффективность кэша, самоадаптирующийся контейнер данных, нагрузка на контейнер, смесь нормальных распределений, кластеризация, ЕМ алгоритм, алгоритм k-средних.

Стр. 87-95.

DOI 10.14357/20718632190108

Полная версия статьи в формате pdf. 

Литература

1. Потапов Д. Р., Артемов М.А., Барановский Е.С. Обзор условий адаптации самоадаптирующихся ассоциативных контейнеров данных // Вестник вгу, серия: системный анализ и информационные технологии. Воронеж, 2017. №1. С. 112-119.
2. Зобов В. В., Селезнев К.Е. Инструмент для моделирования нагрузки на контейнеры данных // Материалы четырнадцатой научно-методической конференции «Информатика: проблемы, методология, технологии». — Воронеж, 2014. – Т. 3. – С. 154–161.
3. Потапов Д. Р. Обзор методов построения многомерных контейнеров данных «ключ-значение» для использования в самоадаптирующихся контейнерах данных // Прикладная информатика, 2018. №2(74). С. 69-82.
4. Потапов Д. Р., Артемов М.А., Барановский Е.С., Селезнев К.Е. Обзор методов построения контейнеров данных «ключ-значение» для использования в самоадаптирующихся контейнерах данных // Кибернетика и программирование, 2017. №5. С. 14-45.
5. Потапов Д. Р. Исследование эффективности применения кеша для использования в самоадаптирующихся контейнерах данных // ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ // Принято к печати.
6. Bishop C. Pattern Recognition and Machine Learning. — Heidelberg: Springer, 2006. 738 p.
7. McLachlan G., Peel D. Finite Mixture Models. — NY: John Wiley & Sons, 2004. 419 p.
8. Королёв В.Ю. ЕМ-алгоритм, его модификации и их применение к задаче разделения смесей вероятностных распределений. Теоретический обзор. — М.: Изд-во ИПИ РАН, 2007. 102 с.
9. McLachlan G., Krishnan T. The EM algorithm and extensions. Wiley series in probability and statistics. — NY: John Wiley & Sons, 1997. 400 p.
10. Blomer J., Bujna K. Simple methods for initializing the EM algorithm for Gaussian mixture models. // Computing Research Repository, 2013. http://arxiv.org/abs/1312.5946
11. Baudry J.-P., G. Celeux. EM for Mixtures. // Statistics and Computing, 2015. Vol. 25. No. 4. P. 713–726.
12. Melnykov V., Melnykov I. Initializing the EM algorithm in Gaussian mixture models with an unknown number of components. // Computational Statistics & Data Analysis, 2012. Vol. 56. No.6. P. 1381-1395.
13. Biernacki C., Celeux G., Govaert G. Choosing starting values for the EM algorithm for getting the highest likelihood in multivariate Gaussian mixture models. // Computational Statistics & Data Analysis, 2003. Vol. 41. No. 3-4. P. 561–575.
14. Meila M., Heckerman D. An Experimental Comparison of Several Clustering and Initialization Methods. // Proceedings of the Fourteenth Conference on Uncertainty in Artificial Intelligence, 1998. P. 386–395.
15. Arthur D., Vassilvitskii S. K-means++: The Advantages of Careful Seeding. // Proceedings of the 8th Annual ACMSIAM Symposium on Discrete Algorithms, 2007. P. 1027–1035.
16. Bahmani B., Moseley B., Vattani A., Kumar R., Vassilvitskii S. Scalable k-means++. // Proceedings of the VLDB Endowment, 2012. Vol.5. No.7. P.622-633.
17. Zhao W., Ma H., He Q. Parallel K-means clustering based on mapReduce. // Proceedings of the 1st International Conference on Cloud Computing, 2009. Vol. 5931. P. 674–679.
18. Xu Y., Qu W., Li Z., Ji C., Li Y., Wu Y. Fast Scalable kmeans++Algorithm with MapReduce. // Algorithms and Architectures for Parallel Processing. ICA3PP 2014, 2014. Vol. 8631. P. 15-28.
19. Aggarwal C.C., Han J., Wang J., Yu P.S. A framework for clustering evolving data streams. // Proceedings of the 29th international conference on Very large data bases, 2003. P. 81-92.
20. Liang P., Klein D. Online EM for unsupervised models //Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, 2009. P. 611-619.
21. Unsupervised machine learning with multivariate Gaussian mixture model which supports both offline data and real-time data stream. https://github.com/lukapopijac/gaussian-mixture-model
22. Круглов В. М., Королев В. Ю. Предельные теоремы для случайных сумм. М.: Изд-во Моск. ун-та, 1990. 269 с.
23. Гмурман В. Е. Теория вероятностей и математическая статистика: учебник для прикладного бакалавриат. М.: Издательство Юрайт, 2014. 479 с.
24. Bradley P.S., Fayyad U. M., Reina C. A. Scaling EM (Expectation-Maximization) Clustering to Large Databases. Microsoft Research Technical Report MSR-TR-98-35, 1999.
 

2024 / 03
2024 / 02
2024 / 01
2023 / 04

© ФИЦ ИУ РАН 2008-2018. Создание сайта "РосИнтернет технологии".