ОБРАБОТКА ИНФОРМАЦИИ И АНАЛИЗ ДАННЫХ
А. Л. Ткаченко, Л. А. Денисова "Автоматическая классификация текстовых документов в системе электронного документооборота вуза"
МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ
ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ И ТЕХНОЛОГИИ
УПРАВЛЕНИЕ И ПРИНЯТИЕ РЕШЕНИЙ
МАТЕМАТИЧЕСКИЕ ОСНОВЫ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ
А. Л. Ткаченко, Л. А. Денисова "Автоматическая классификация текстовых документов в системе электронного документооборота вуза"
Аннотация. 

Рассмотрены вопросы автоматической классификации текстовых документов вуза в системе электронного документооборота. Представлен метод двухэтапной классификации на основе машинного обучения и числовой модели коллекции документов. Предлагается на первом этапе метода сокращать объем коллекции за счет отсеивания документов, не принадлежащих принятым классам (по оценке вероятности новизны документов). На втором этапе проводится отбор документов с наибольшими частотами вхождения слов, характерных для документов данного класса (формирование опорных векторов). Документу присваивается класс, к которому принадлежит большинство ближайших документов в соответствии с принятой метрикой расстояния. Реализован комплекс программ классификации текстовых документов, положенный в основу информационного обеспечения системы электронного документооборота вуза, и выполнены исследования, подтверждающие эффективность предлагаемого метода.

Ключевые слова: 

классификация документов, новизна текстовых документов, вероятностная тематическая модель, метод опорных векторов, метод k-ближайших соседей.

Стр. 3-19.

DOI 10.14357/20718632230101
 
Литература

1. Wan Ch. H. et al. A Hybrid text classification approach with low dependency on parameter by integrating Knearest neighbour and support vector machine // Expert Systems with Applications, elsevier journal. – 2012. – Vol. 39. – no. 15. – P. 11880–11888.
2. Su Y., Huang Y., Kuo Jay C.-C. Efficient Text Classification Using Tree-structured Multi-linear Principal Component Analysis // 24th International Conference on Pattern Recognition. – 2018. – С. 585-590.
3. Nguyen L. Text classification based on support vector machine // Dalat University Journal Of Science. – 2019. – Vol. 9. – no. 2. – P. 3–19.
4. Shah K. et al. A Comparative Analysis of Logistic Regression, Random Forest and KNN Models for the Text Classification // Augmented Human Research. – 2020. – Vol. 5. – № 1. – P. 1-12.
5. Tkachenko A. L., Denisova L. A. Designing an information system for the electronic document management of a university: Automatic classification of documents // Journal of Physics: Conference Series. – 2022. – P. 012035.
6. Shichao Z. Efficient kNN Classification With Different Numbers of Nearest Neighbors // IEEE Transactions on Neural Networks and Learning Systems. – 2018. – Vol. 29. – no. 5. – P. 1774–1785.
7. Wahdan A. et al. A systematic review of text classification research based on deep learning models in Arabic language // International Journal of Electrical and Computer Engineering (IJECE). – 2020. – Vol. 10. – no. 6. – P. 6629–6643.
8. Zulqarnain M. et al. A comparative review on deep learning models for text classification // Indonesian Journal of Electrical Engineering and Computer Science. – 2020. – Vol. 19. – no. 1. – P. 325-335.
9. Воронцов К. В., Потапенко А. А. Регуляризация, робастность и разреженность вероятностных тематических моделей // Компьютерные исследования и моделирование. – 2012. – Т. 4. – №. 4. – С. 693-706.
10. Карпович С. Н., Смирнов А. В., Тесля Н. Н. Учет неизвестных слов в вероятностной тематической модели // Информационные технологии и вычислительные системы. – 2020. – № 4. – С. 111-124.
11. Свидетельство № 2022612195. Программа двухэтапной классификации текстовых документов высшего учебного заведения: программа для ЭВМ / А.Л. Ткаченко; право- обладатель ФГБОУ ВО СибАДИ (RU). Заявл. 24.01.2022; опубл. 25.01.2022, Бюл. № 2 2022, 1,43 Кб.
12. Ткаченко А. Л., Мещеряков В. А., Денисова Л. А. Проектирование информационно-аналитической системы для поддержки образовательного процесса технического вуза // Автоматизация в промышленности. – 2022. – № 4. – С. 7-14..
13. Морфологический анализатор pymorphy2. URL: https://pymorphy2.readthedocs.io/en/stable/index.html (дата обращения: 30.05.2022).
14. Костров Б. В., Баранчиков А. И., Клюева И. А. Ансамблевые методы в задаче мнококлассовой SVM-классификации // XXI век: итоги прошлого и проблемы настоящего плюс. – 2021. – Т. 10. – №. 2 (54). – С. 105-108.
15. Ткаченко А. Л. Решение задачи классификации документов вуза на основе методов интеллектуального анализа // Вестник кибернетики. – 2021. – № 1 (41). – С. 12-19.
16. Russian News 2020. News in Russian, collected from four sources. URL: https://www.kaggle.com/datasets/vfomenko/russian-news-2020 (дата обращения: 30.05.2022).
 
2024 / 03
2024 / 02
2024 / 01
2023 / 04

© ФИЦ ИУ РАН 2008-2018. Создание сайта "РосИнтернет технологии".