|
Ю. А. Котов "Методика и результаты сравнительного анализа четырех методов идентификации букв текстов" |
|
Аннотация. В статье приведены результаты сравнения четырех известных частотных методов идентификации букв текстов, необходимые для прикладного решения задач криптоанализа, стеганографии и задач общего анализа текстов, известных в информатике под названием text mining. Для проведения сравнения и получения полной и унифицированной характеристики методов предложена методика оценки, которая включает измерение трех ошибок идентификации и формирование интегральной характеристики на их основе, названной добротностью метода. По данной методике проведено экспериментальное сравнение и качественный анализ одного униграммного и трех биграммных методов идентификации букв текстов. Сравнение выполнено на представительных выборках фрагментов русскоязычных текстов. Определены качественные и количественные особенности методов, границы их эффективного применения, взаимосвязь с типом и объемом обрабатываемого текста. Ключевые слова: текст, буква, униграмма, биграмма, идентификация, простая замена, шифр, анализ текста. Стр. 41-56. DOI 10.14357/20718632190304 Полная версия статьи в формате pdf. Литература 1. Shannon C. Communication theory of secrecy systems // Bell System Technical Journal. 1949. vol. 28. no. 4. pp. 656–715. 2. Jakobsen T. A fast Method for Cryptanalysis of Substitution Ciphers // Cryptologia. 1995. vol.19. no 3. pp. 265-274. 3. Corlett E. An Exact A* Method for Solving Letter Substition Ciphers //University of Toronto. 2011.- ftp://ftp.cs.toronto.edu/pub/gh/Corlett-MSc-2011.pdf. 4. Maya Mohan, M. K. Kavitha Devi, V. Jeevan Prakash Security Analysis and Modification of Classical Encryption Scheme // Indian Journal of Science and Technology. 2015. vol. 8 no. 8. pp. 542–548. 5. Bradly Haner, Ryan Hayward, Grzegorz Kondrak Solving Substitution Ciphers with Combined Language Models // Proceedings of COLING 2014, the 25th International Conference of Computational Linguistics: Technical Papers. Dublin, Ireland, August 23-29. 2014. pp. 2314-2325. 6. Rohit Vobbilisetty, Fabio Di Troia, Richard M. Low, Corrado Aaron Visaggio, Mark Stamp Classic cryptanalysis using hidden Markov models // Criptologia. 2017. vol. 41. no.1. pp.1–28. 7. Bidisha Goswami, Ravichandra G. Public cloud user authentication and data confidentiality using image steganography with hash function // American Journal of Applied Mathematics. 2015. vol.3. no. 1-2. pp. 1-8. 8. James Collins, Sos Agaian High Capacity Image Steganography Using Adjunctive Numerical Representations with Multiple Bit-Plane Decomposition Methods // International Journal on Cryptography and Information Security (IJCIS). 2016. Vol. 6, No. 1-2. pp. 1-21. 9. Воробьева А.А. Методика идентификации интернет-пользователя на основе стилистических и лингвистических характеристик коротких электронных сообщений // Информация и космос. 2017. № 1. С.127-130. 10. Razieh Nokhbeh Zaeem, Monisha Manoharan, Yongpeng Yang, K. Suzanne Barber Modeling and analysis of identity threat behaviors through text mining of identity theft stories // Computers & Security. 2017. no. 65. pp.50-63. 11. Weiming Liang , Haoran Xie, Yanghui Rao , Raymond Y.K. Lau, Fu Lee Wang Universal affective model for Readers’ emotion classification over short texts // Expert Systems with Applications. 2018. No. 114. pp. 322—333. 12. Attila Novak, Borbala Siklosi Grapheme-to-Phoneme Transcription in Hungarian // International Journal of Computational Linguistics and Applications. 2016. vol. 7. no. 1, pp. 161—173. 13. Haithem Afli, Loic Barrault, Holger Schwenk OCR Error Correction Using Statistical Machine Translation // International Journal of Computational Linguistics and Applications. 2016. vol. 7. no. 1, pp. 175—191. 14. Grigori Sidorov. Syntactic Dependency Based N-grams in Rule Based Automatic English as Second Language Grammar Correction // International Journal of Computational Linguistics and Applications, Vol. 4, No. 2, pp. 169—188, 2013. 15. Alireza Yousefpour, Roliana Ibrahim, HazaNuzlyAbdel Hamed Ordinal-based and frequency-based integration of feature selection methods for sentiment analysis // Expert Systems with Applications. 2017. no. 75. pp. 80–93. 16. Sanja Štajner, Horacio Saggion, Simone Paolo Ponzetto Improving lexical coverage of text simplification systems for Spanish // Expert Systems with Applications. 2019. no. 118. pp. 80–91. 17. Silvia García-Méndez, Milagros Fernández-Gavilanes, Enrique Costa-Montenegro, Jonathan Juncal-Martínez, F. Javier González-Castaño A library for automatic natural language generation of spanish texts // Expert Systems with Applications. 2019. no. 120. pp. 372–386. 18. Третьяков Ф.И., Серебряная Л.В. Методы автоматического построения рефератов на основе частотного анализа текстов // Доклады Белорусского государственного университета информатики и радиоэлектроники. 2014. № 3. С.40-44. 19. Фомин В.В., Флегонтов А.В., Осочкин А.А. Метод частотно-морфологической классификации текстов // Программные продукты и системы. 2017. №3. С.478-486. 20. Nadir Zanini, Vikas Dhawan Text Mining: An introduction to theory and some applications // A Cambridge Assessment publication. 2015. http://www.cambridgeassessment.org.uk/researchmatters/. 21. Абденов А. Ж., Котов Ю. А., Санина О. В. Значения некоторых униграммных характеристик русскоязычных текстов // Научный вестник Новосибирского государственного технического университета. 2017. № 2. С.146-162. 22. Котов Ю. А., Санина О. В. Значения некоторых биграммных характеристик русскояхычных текстов // Вестник СибГУТИ (Сибирский государственный университет телекоммуникации и информатики). 2017. № 4. С.24-34. 23. Котов Ю. А., Санина О. В. Идентификация пробела при неизвестной знаковой кодировке русскоязычных текстов // Вестник СибГУТИ (Сибирский государственный университет телекоммуникации и информатики). 2018. № 4. С.48-60. 24. Котов Ю.А. Детерминированная идентификация буквенных биграмм в русскоязычных текстах // Труды СПИИРАН. 2016. №1. С.181-197. 25. Котов Ю.А. Аппроксимация распределений частот буквенных биграмм текста для идентификации букв // Труды СПИИРАН. 2017. №1. С.190-208.
|