|
Р. К. Классен, В. А. Райхлин "Повышение эффективности Clusterixподобных СУБД для аналитической обработки больших данных" |
|
Аннотация. Коммерческие OLAP-системы экономически недоступны организациям с ограниченными финансовыми возможностями. Аналитическую обработку данных значительных объемов в этих организациях можно осуществить с использованием open source программных систем на экономичной кластерной платформе. Ранее созданные Clusterix-подобные СУБД были недостаточно эффективны по критерию «производительность/стоимость». С целью повышения эффективности подобных систем в статье рассматривается их дальнейшее развитие путем полной загрузки процессорных ядер в комплексе с GPU-акселерацией (системы Clusterix-N, N – от New) вплоть до разработки системы, сравнимой по эффективности с открытой системой Spark, полагаемой в настоящее время наиболее перспективной. За основу развития была принята методология конструктивного моделирования систем. Ключевые слова: аналитическая обработка данных значительных объемов, open source программные системы на кластерной платформе, повышение эффективности Clusterix-подобных СУБД, полная загрузка процессорных ядер, GPU-акселерация, сравнение со Spark, принятая методология. Стр. 43-59. DOI 10.14357/20718632190405 Полная версия статьи в формате pdf. Литература 1. E. F. Codd. Providing olap to user-analysts: an it mandate, Apr. 1993. Technical Report, E. F. Codd and Associates. 2. Microsoft. Parallel Query Processing //Resources and Tools for IT Professionals | TechNet. 2018. URL: https://technet.microsoft.com/enus/ library/ms178065(v=sql.105).aspx (дата обращения: 05.04.2018). 3. Lenovo System x3950 X6 // TPC-H Result Highlights. 2016. URL: http://www.tpc.org/3321 (дата обращения: 10.08.2018). 4. Lenovo. System x3950 X6 Rack Server //Официальный сайт Lenovo в России. 2017. URL: https://www3.lenovo.com/ru/ru/datacenter/servers/mission-critical/System-x3950-X6/p/WMD00000002 (дата обращения: 15.07.2018). 5. Oracle Exadata Database Machine X7 //Oracle Россия и СНГ. 2018. URL: https://www.oracle. com/ru/engineeredsystems/exadata/database-machine-x7/index.html (дата обращения: 10.08.2018). 6. EMC Education Services. Data Science and Big Data Analytics: Discovering, Analyzing, Visualizing and Presenting Data // John Wiley & Sons. 432 p. 7. Xin, Reynold & Rosen, Josh & Zaharia, Matei & J. Franklin, Michael & Shenker, Scott & Stoica, Ion. (2012). Shark: SQL and Rich Analytics at Scale. Proceedings of the ACM SIGMOD International Conference on Management of Data. 10.1145/2463676.2465288. 8. Российская отрасль СУБД продвигается на «слонах» //Connect. 2017. №5-6. C.34-38. 9. Российская СУБД Postgres Pro //Postgres Professional. 2018. URL: https://postgrespro.ru/products/postgrespro (дата обращения: 03.05.2018). 10. Hellerstein J.M., Stonebraker M., Hamilton J. Architecture of a Database System //Foundations and Trends in Databases. 2007. Vol. 1. No. 2. pp. 141-259. 11. Raikhlin V.A. Simulation of Distributed Database Machines //Programming and Computer Software, Vol. 22, No. 2, 1996. pp. 68-74. 12. Райхлин В.А., Классен Р.К. Сравнительно недорогие гибридные технологии консервативных СУБД больших объемов //Информационные технологии и вычис- лительные системы. 2018. Т. 68. №1. С. 46-59. 13. Райхлин В.А., Минязев Р.Ш. Мультикластеризация распределенных СУБД консервативного типа //Нелинейный мир,2011. №8. С.473-481. 14. Классен Р.К. Особенности эффективной обработки SQL-запросов к базам данных консервативного типа //Информационные технологии и вычислительные системы. 2018. Т.68.№4. С.108-118. 15. Oracle. The MySQL Plugin API //MySQL Documentation. 2018. URL: https://dev.mysql.com/doc/refman/5.7/en/plugin-api.html (дата обращения: 09.04.2018). 16. Райхлин В.А. Конструктивное моделирование систем. – Казань: Изд-во «Фэн» («Наука»), 2005. – 304 с. 17. Haken, Hermann. (2004). Synergetics: Introduction and Advanced Topics. 10.1007/978-3-662-10184-1. 18. Klassen R.K.: PerformSys. https://github.com/rozh1/PerformSys/ (2018). (дата обращения: 09.12.2018) 19. Martin J. Computer database organization. 2nd ed. New Jersey 07632: Prentice-Hall, Inc., Englewood Cliffs, 1977. 713 pp. 20. Raikhlin V.A., Klassen R.K. Can GPU-accelerator significantly increase the effectiveness of conservative DBMS considerable volumes on cluster platforms? //2017 International Siberian Conference on Control and Communications (SIBCON). 2017. DOI: 10.1109/SIBCON.2017.7998474 21. CoGaDB – Column-oriented GPU-accelerated DBMS. URL: http://cogadb.cs.tudortmund.de/wordpress. (дата обращения: 29.01.2019) 22. PGStrom 2016. URL: https://wiki.postgresql.org/index.php?title=PGStrom&oldid=25517. (дата обращения: 05.10.2018) 23. Rauhe H. Finding the Right Processor for the Job Co-Processors in a DBMS, Ilmenau University of Technology, Ilmenau, Dissertation urn:nbn:de:gbv:ilm1-2014000240, 2014. 24. Wenbin F., Bingsheng H., Qiong L. Database Compression on Graphics Processors //Proc. VLDB Endow., Vol. 3, No. 1-2, Sep 2010. P.670-680. 25. Bres S. Efficient query processing in co-processoraccelerated database. PhD dissertation, University of Magdeburg (2015). 26. Klassen R.K.: Clusterix-N. https://bitbucket.org/rozh/clusterixn/ (2019). (дата обращения: 10.03.2019)
|