信息资源管理学报 ›› 2024, Vol. 14 ›› Issue (3): 90-103.doi: 10.13365/j.jirm.2024.03.090
刘昊坦1,2 刘家伟1,2 张帆1,2 陆伟1,2
Liu Haotan1,2 Liu Jiawei1,2 Zhang Fan1,2 Lu Wei1,2
摘要: 实现科技文献结构功能的自动识别有助于提升细粒度信息检索、关键词抽取、引文分析等任务的效率。针对当前结构功能识别研究面临的文本内部依赖关系表达能力较弱、模型泛化迁移能力不足等问题,本研究利用图卷积神经网络捕捉单词节点间存在的固有依赖信息和拓扑结构,提升模型对科技文本建模表达能力,同时,还引入对抗学习思想,提升结构功能识别模型的泛化能力。选取ScienceDirect数据集,考察多种模型方法对章节标题、章节内容、章节段落三个不同层次的结构功能的识别效果,并在PubMed-20k的医学摘要结构功能数据集上进一步测试多种模型的跨领域迁移能力。研究结果表明,在章节标题层次,BERT+GCN的识别效果最佳,值达到了88%,比基线模型提升3%;在章节内容层次,BERT+GAN的识别效果最佳,值达到了76%,比基线模型提升了3%;在章节段落层次,值达到了68%。BERT+GCN的跨领域迁移能力相比其他模型更优,在跨领域数据上取得了90%的值
中图分类号: