摘要:
本文以信息资源管理中的网页、图书期刊的书目或题录信息等主要数字文本为对象,使用概率主题模型(LDA)建模,通过对比分析KNN、类中心向量法、SVM等三种常见的分类算法所产生的不同分类效果,研究数字文本资源管理中的自动分类特性。实验表明LDA模型下三种分类算法的分类正确率基本都能达到80%左右,SVM算法分类准确率相较另两种算法大约高0.7~22%左右。本文的结论可为数字文本分类系统使用LDA对文本建模时选择合适的分类算法提供一定的依据。
中图分类号:
李湘东 潘练. LDA模型下文本自动分类算法比较研究——基于网页和图书期刊等数字文本资源的对比[J]. 信息资源管理学报, 2015, 5(4): 24-31, 46.
Li Xiangdong Pan Lian. Text Classification Algorithms Using the LDA Model: On the Comparison of the Applicaitons on Webpages and eTexts Including Books and Journals[J]. Journal of Information Resources Management, 2015, 5(4): 24-31, 46.