СИСТЕМЫ УПРАВЛЕНИЯ
ПРОБЛЕМЫ БЕЗОПАСНОСТИ
МАТЕМАТИЧЕСКИЕ ОСНОВЫ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ
РАСПОЗНАВАНИЕ ОБРАЗОВ
ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ И ТЕХНОЛОГИИ
ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ТЕКСТОВ
С. Н. Карпович, А. В. Смирнов, Н. Н. Тесля "Учет неизвестных слов в вероятностной тематической модели"
С. Н. Карпович, А. В. Смирнов, Н. Н. Тесля "Учет неизвестных слов в вероятностной тематической модели"
Аннотация. 

В работе рассмотрены подходы к учету неизвестных слов в языковых моделях алгоритмов обработки естественного языка. Предложен метод учета неизвестных слов в вероятностном тематическом моделировании, который позволяет определить вероятность новизны документа без обновления параметров модели. Тематические модели рассчитывают вероятностную оценку отнесения слова к темам. Матрица вероятностных отношений слово тема, заполнена апостериорными значениями вероятностей слов, введя в модель понятие штрафа за неизвестность или априорную оценку вероятности для неизвестных слов, можем рассчитать вероятностную оценку новизны документа. Разработан программный прототип метода позволяющий рассчитывать вероятность новизны документа. Проведены эксперименты на корпусе текстов SCTM-ru, демонст-рирующие возможности метода для классификации коллекций и потоков текстовых документов, содержащих неизвестные слова, отражающие влияние неизвестных слов на тему документов, сравнивающие результаты классификации тематической модели и модели классификатора.

Ключевые слова: 

вероятностное тематическое моделирование, обработка текста на естественном языке, учет неизвестных слов, новизна текстовых документов.

Стр. 111-124.

DOI 10.14357/20718632200410
 
 
Литература

1. Крылова М. Н. Язык как динамическая система //Модели, системы, сети в экономике, технике, природе и обществе. – 2014. – №. 1 (9).
2. Wang C., Blei D., Heckerman D. Continuous time dynam-ic topic models. preprint arXiv:1206.3298. – 2012.
3. Hoffman M., Bach F. R., Blei D. M. Online learning for latent dirichlet allocation. Advances in neural information processing systems. – 2010. – С. 856-864.
4. Zhai K., Boyd-Graber J. L. Online Latent Dirichlet Allo-cation with Infinite Vocabulary. ICML (1). – 2013. – Т. 28. – С. 561-569.
5. Lau J. H., Collier N., Baldwin T. On-line Trend Analysis with Topic Models: \# twitter Trends Detection Topic Model Online. COLING. – 2012. – С. 1519-1534.
6. Карпович С.Н. Тематическая модель с бесконечным словарем // Информационно-управляющие системы. 2016. No6С. 43-49. doi:10.15217/issn1684-8853.2016.6.43(ВАК)
7. Карпович С. Н., Смирнов А. В., Тесля Н. Н. Одноклассовая классификация текстовых документов с использованием вероятностного тематического моделирования //Искусственный интеллект и принятие решений. – 2018. – №. 3. – С. 69-77.
8. Гольдберг Й. Нейросетевые методы в обработке естественного языка. – ДМК-Пресс, 2019.
9. Berger A., Lafferty J. Information retrieval as statistical translation //ACM SIGIR Forum. – New York, NY, USA: ACM, 2017. – Т. 51. – №. 2. – С. 219-226.
10. Wallach H. M. Topic modeling: beyond bag-of-words //Proceedings of the 23rd international conference on Machine learning. – 2006. – С. 977-984.
11. Mikolov T. et al. Efficient estimation of word representations in vector space //arXiv preprint arXiv:1301.3781. – 2013.
12. Rong X. Word2vec parameter learning explained //arXiv preprint arXiv:1411.2738. – 2014.
13. Pennington J., Socher R., Manning C. D. Glove: Global vectors for word representation //Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). – 2014. – С. 1532-1543.
14. Devlin J. et al. Bert: Pre-training of deep bidirectional transformers for language understanding //arXiv preprint arXiv:1810.04805. – 2018.
15. Joulin A. et al. Fasttext. zip: Compressing text classification models //arXiv preprint arXiv:1612.03651. – 2016.
16. Brown T. B. et al. Language models are few-shot learners //arXiv preprint arXiv:2005.14165. – 2020.
17. Lau J. H., Baldwin T. An empirical evaluation of doc2vec with practical insights into document embedding generation //arXiv preprint arXiv:1607.05368. – 2016.
18. Le Q., Mikolov T. Distributed representations of sentences and documents //International conference on machine learning. – 2014. – С. 1188-1196.
19. Reimers N., Gurevych I. Sentence-bert: Sentence embeddings using siamese bert-networks //arXiv preprint arXiv:1908.10084. – 2019.
20. Chen W. et al. How large a vocabulary does text classification need? a variational approach to vocabulary selection //arXiv preprint arXiv:1902.10339. – 2019.
21. Chirkova N., Lobacheva E., Vetrov D. Bayesian compression for natural language processing //arXiv preprint arXiv:1810.10927. – 2018.
22. Hoffman T. Probabilistic Latent Semantic Indexing // Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval. — 1999. – С. 50-57.
23. Blei D.M., Ng A.Y., Jordan M. I. Latent Dirichlet Allocation // Journal of Machine Learning Research. — 2003. – Т. 3. – №. Jan. – С. 993-1022.
24. Moon T. K. The expectation-maximization algorithm //IEEE Signal processing magazine. – 1996. – Т. 13. – №. 6. – С. 47-60.
25. Воронцов К. В., Потапенко А. А. Модификации EM-алгоритма для вероятностного тематического моделирования //Машинное обучение и анализ данных. – 2013. – Т. 1. – №. 6. – С. 657-686.
26. Карпович С.Н. Многозначная классификация текстовых документов с использованием вероятностного тематического моделирования ml-PLSI//Труды СПИИРАН. – СПб.,2016. –Т. 4. –No. 47. –С. 92-104(ВАК, Scopus)
27. Vorontsov K., Potapenko A. Additive regularization of topic models //Machine Learning. – 2015. – Т. 101. – №. 1-3. – С. 303-323.
28. Pedregosa F. et al. Scikit-learn: Machine learning in Python //Journal of machine learning research. – 2011. – Т. 12. – №. Oct. – С. 2825-2830.
29. Карпович С.Н. Русскоязычный корпус текстов SCTM-ru для построения тематических моделей // Труды СПИИРАН. –СПб., 2015.–No39. C. 123-142. УДК 004.912(ВАК)
30. Ianina A., Vorontsov K. Regularized multimodal hierar-chical topic model for document-by-document exploratory search //2019 25th Conference of Open Innovations Association (FRUCT). – IEEE, 2019. – С. 131-138.
31. Vorontsov K. et al. Non-Bayesian additive regularization for multimodal topic modeling of large collections //Proceedings of the 2015 Workshop on Topic Models: Post-Processing and Applications. – 2015. – С. 29-37.
 
2024 / 03
2024 / 02
2024 / 01
2023 / 04

© ФИЦ ИУ РАН 2008-2018. Создание сайта "РосИнтернет технологии".