信息资源管理学报 ›› 2023, Vol. 13 ›› Issue (1): 129-139.doi: 10.13365/j.jirm.2023.01.129
李湘东1,2 孙倩茹1 石健1
Li Xiangdong1,2 Sun Qianru1 Shi Jian1
摘要: 针对商品评论文本具有短文本及表述用词不规范的特点,探讨如何实现商品评论文本按照商品种类进行自动归类并提高其分类效果。通过TF-IDF和LDA构建训练集的核心词集,利用Word2Vec相似度计算方式对短文本进行特征扩展获得的商品评论文本作为分类对象,基于BERT模型实现分类,并设计相应的对比实验证明本方法的有效性。对商品评论文本扩展后使用BERT分类时,本文方法比未扩展时的F1值提升2.1%,比使用Hownet相似度计算方式扩展时的F1值提升0.9%。从基本原理、不同相似度计算方法以及用词方式等方面分析本方法有效性的原因。本文提出的方法能有效提升商品评论文本按照商品进行信息组织时的分类效果,可以应用于电子商务信息的信息组织及其相关理论方法研究等领域。
中图分类号: