|
Р.Н. Арифулов, Н.В. Попова, С.А. Науменко "Оптимизация потоков данных в центре обработки геномных данных при помощи распределенной файловой системы Lustre" |
|
Аннотация. Описывается архитектура центра обработки данных высокопроизводительного секвенирования. Для повышения производительности подсистемы ввода-вывода предлагается использование специализированных хранилищ данных с аппаратными RAID-контроллерами, распределение нагрузки по нескольким серверам данных с помощью распределенной файловой системы Lustre, выделение специализированных томов под ресурсоемкие задачи при помощи инфраструктуры Fiber Channel и кластерной файловой системы OCFS2. Ключевые слова: центр обработки данных, big data, геномика, оптимизация, распределенная файловая система. Стр. 35-45. R.N. Arifulov, N.V. Popova, S.A. Naumenko"Optimization of data flows in genomics data center using Lustre distributed file system."We present the architecture of the datacenter for processing of high throughput sequencing data. To improve the I/O performance we use specialized storage systems with hardware RAID controllers, distributed filesystem Lustre for load balancing among several data servers and cluster filesystem OCFS2 for dedicated volumes built on Fiber Channel infrastructure for high-load tasks. Keywords: sequencing, cluster supercomputer, treating genomic data, Lustre. Полная версия статьи в Формате pdf. REFERENCES 1. Human genome project information // http://web.ornl.gov/sci/techresources/Human_Genome/index.shtml (data obrashcheniya: 30 sentyabrya 2013 g.). 2. International Human Genome Sequencing Consortium (IHGSC). Finishing the euchromatic sequence of the human genome. // Nature. - 2004. - 431. - 931.-945. 3. Miller J.R., Koren S., Sutton G.. Assembly algorithms for next-generation sequencing data. // Genomics. - 2010. - 95. - 315-327. 4. Specifications sheet illumina sequensing // http://res.illumina.com/documents/systems/hiseq/datasheet_hiseq_systems.pdf (data obrashcheniya: 30 sentyabrya 2013 g.) 5. Soon W.W., Hariharan M. and Snyder M.P. High-throughput sequencing for biology and medicine. // Molecular Systems Biology. - 2013. - 9. - 640. 6. BGI // http://www.genomics.cn/en/index (data obrashche-niya: 30 sentyabrya 2013 g.). 7. Home page – Wellcome Trust Sanger Institute // http://www.sanger.ac.uk/ (data obrashcheniya: 30 sentyabrya 2013 g.). 8. Broad Institute of MIT and Harvard // http://www.broadinstitute.org/(data obrashcheniya: 30 sen-tyabrya 2013 g.). 9. Laboratoriya evolyutsionnoy genomiki FBB MGU // http://evolgenomics.fbb.msu.ru (data obrashcheniya: 30 sen-tyabrya 2013 g.). 10. Tsentralnyy nauchno-issledovatelskiy institut epidemiologii Rospotrebnadzora // www.pcr.ru (data obrashcheniya: 30 sentyabrya 2013 g.). 11. Laboratory of Evolutionary Genomics // http://rogaevlab.ru (data obrashcheniya: 30 sentyabrya 2013 g.). 12. Otdel genetiki i selektsii - Tsentr zashchity lesa Krasnoyarskogo kraya // http://www.czl24.ru/struktura/otdel-genetiki-i-selektsii.html (data obrashcheniya: 30 sentyabrya 2013 g.). 13. Superkompter "Lomonosov" // http://www.msu.ru/lomonosov/science/computer.html (data obrashcheniya: 30 sentyabrya 2013 g.). 14. MSU SUPERCOMPUTERS: "CHEBYSHEV" // http://hpc.msu.ru/?q=node/60 (data obrashcheniya: 30 sen-tyabrya 2013 g.). 15. Nauchno-issledovatelskiy vychislitelnyy tsentr MGU //http://www.srcc.msu.ru/news.htm (data obrashche-niya: 30 sentyabrya 2013 g.). 16. MSTs RAN – Glavnaya stranitsa // http://www.jscc.ru (data obrashcheniya: 30 sentyabrya 2013 g.) 17. Informatsionno-analiticheskiy tsentr po parallel-nym vychisleniyam // http://parallel.ru/ (data obrashcheniya: 30 sentyabrya 2013 g.). 18. Zhurnal "Superkompyutery" // http://supercomputers.ru/ (data obrashcheniya: 30 sentyabrya 2013 g.). 19. Arifulov R.N., Naumenko S.A. Opyt sozdaniya tsentra obrabotki dannykh i vychislitelnogo klastera dlya laboratorii evolyutsionnoy genomiki. //Informa-tsionnye tekhnologii i sistemy (ITiS'12): sbornik trudov konferentsii. - M.: IPPI RAN, 2012, s. 324-327. ISBN 978-5-901158-19-7. // http://itas2012.iitp.ru/pdf/1569601141.pdf (data obrashche-niya: 08.10.2013). 20. Scientific Linux // https://www.scientificlinux.org/ (data obrashcheniya: 30.09.2013). 21. Torque Resource Manager // http://www.adaptivecomputing.com/products/open-source/torque/ (data obrashcheniya: 30.09.2013). 22. Puppet Labs: The Leading IT Automation Software Solu-tion // http://puppetlabs.com (data obrashcheniya: 30.09.2013). 23. James Turnbull, Jeffrey McCune. Pro Puppet. — Apress 2011. 24. Nagios. // http://www.nagios.org/. (data obrashcheniya: 30.09.2013). 25. Shepler S., Eisler M., Noveck D. Network File System (NFS) Version 4 Minor Version 1 Protocol. IETF RFC 5661. - January 2010. 26. Troppens U., Muller-Friedt W., Wolafka R., Erkens R., Haustein N. Storage Networks Explained. Basics and Application of Fibre Channel SAN,NAS, iSCSI, InfiniBand and FcoE, Second Edition. - 2009 John Wiley & Sons Ltd. 27. Lustre. // http://wiki.lustre.org/index.php/Main_Page (data obrashcheniya: 30.09.2013). 28. Lustre File System | Sun | Oracle // http://www.oracle.com/us/products/032293.htm (data ob-rashcheniya: 30.09.2013). 29. Whamcloud Lustre 2.4. // http://wiki.whamcloud.com/display/PUB/Lustre+2.4 (data obrashcheniya: 30.09.2013). 30. Development | Lustre – OpenSFS // http://lustre.opensfs.org/contribute-code/ (data obrashche-niya: 30.09.2013). 31. Arifulov R.N., Naumenko S.A. Opyt ekspluatatsii tsentra obrabotki dannykh i vychislitelnogo klastera v laboratorii evolyutsionnoy genomiki. //Informatsionnye tekhnologii i sistemy (ITiS'13): sbornik trudov konferentsii. - M.: IPPI RAN, 2013, s. 248-250. ISBN 978-5-901158-23-4. // http://itas2013.iitp.ru/pdf/1569759149.pdf (data obrashche-niya: 08.10.2013).
|