学术文献术语抽取方案比较研究

doi:10.13365 / j . j irm.2021.01.112

信息资源管理学报 ›› 2021, Vol. 11 ›› Issue (1): 112-122.doi: 10.13365 / j . j irm.2021.01.112

学术文献术语抽取方案比较研究

蒋婷

南京财经大学信息工程学院,南京, 210046

出版日期:2021-01-26 发布日期:2021-02-02
作者简介:蒋婷,博士,讲师,研究方向为本体学习、数据挖掘、网络信息资源管理, Email: jiangtinghaha@126.com 。
基金资助:
本文系国家自然科学基金青年项目( 71904078 )、江苏省自然科学基金( BK20190793 )以及江苏高校哲学社会科学研究基金( 2018SJA0263 )的研究成果之一。

A Comparative Study of Term Extraction Schemes in Academic Literature

Jiang Ting

School of Information Engineering , Nanjing University of Finance and Economics , Nanjing , 210046

Online:2021-01-26 Published:2021-02-02

摘要/Abstract

摘要： 术语抽取是学术文献知识挖掘的关键技术,其研究目标是提升学术文献领域术语抽取的效率。目前术语抽取主要分为三类方法,即基于规则的方法、基于统计学的方法、基于监督学习的方法。首先,本文对术语抽取中的代表方法进行了实验对比研究,包括语言学、统计学( TF-IDF 、C-value 、基于KL 散度的方法等)、 CRF 及Bi-LSTM 方法;其次,针对目前学术文献中术语抽取缺乏大量的手工标注语料的问题,提出了应用于当前学术文献术语抽取的改进模型;最后,总结了实验发现并提出了现阶段学术文献术语抽取及语料标注的方案。

关键词: 语义网, 学术文献, 术语抽取, 知识图谱, 语料标注, 概念学习

Abstract: Term extraction from research articles is one of the key technologies in literature knowledge mining . The goal is to improve the efficiency of term extraction. Nowadays , term extraction can be classified into three categories , that is , rule-based method , statistical method and supervised learning method. Firstly , this p a p er carries out the comparative stud y on term extraction by experimental methods , including linguistic method , statistical method ( TF-IDF , C-value , KL dispersion-based methods , etc. ), CRF , and BiLSTM. Secondly , since lacking of massive cor p us labeling by manual , therefore , this p a p er p resents an imp roved model for term extraction task in academic literature. Finally , this article summarizes the experimental finding s and proposes the methodologies of semantic entity recognition for the current stage.

Key words: Semantic web , Research article , Term extraction , Knowledge graph , Corpus annotation, Concept learning

中图分类号:

G203

蒋婷. 学术文献术语抽取方案比较研究[J]. 信息资源管理学报, 2021, 11(1): 112-122.

Jiang Ting. A Comparative Study of Term Extraction Schemes in Academic Literature[J]. Journal of Information Resources Management, 2021, 11(1): 112-122.

[1]	朱禹　陈关泽　叶继元. 人工智能生成内容（AIGC）的本质属性及其对信息资源管理学科的影响[J]. 信息资源管理学报, 2024, 14(6): 60-72.
[2]	王勤　黄友治　王猷文. 企业数据资产化视角下数据确权登记的地方政策研究[J]. 信息资源管理学报, 2024, 14(6): 85-98.
[3]	王嘉杰　侯万方　马亚雪　孙建军. 融合文本和引用特征的科学技术互动社区识别研究[J]. 信息资源管理学报, 2024, 14(6): 116-130.
[4]	金燕　张晓涵　孙倬　毕崇武. 在线健康信息质量如何引发网络疑病症？感知不确定性和健康焦虑的多重中介作用[J]. 信息资源管理学报, 2024, 14(6): 156-169.
[5]	张敏　韩锡晴　邵晶　严炜炜. 对症下药还是面面俱到：健康辟谣中信息呈现对说服效果的影响研究[J]. 信息资源管理学报, 2024, 14(5): 132-146.
[6]	陈梦蕾　罗颖嘉　朱侯. 基于扎根理论和机器学习的隐私政策诱导同意研究[J]. 信息资源管理学报, 2024, 14(5): 75-90.
[7]	谢子霖　宋雨杉　沈锴欣　翁文国. 复合灾害谣言治理策略研究[J]. 信息资源管理学报, 2024, 14(4): 52-58.
[8]	谢新洲　金光耀. 远程办公背景下工作不可预测性对工作与家庭冲突的影响 ——一个有调节的中介模型[J]. 信息资源管理学报, 2024, 14(3): 136-148.
[9]	黄婕　安小米　邝苗苗　吴菁. 标准化视角下的语义互操作性概念体系构建及应用 ——以智慧城市国际标准研制为例[J]. 信息资源管理学报, 2024, 14(3): 56-68，135.
[10]	安小米　张红卫　魏玮　黄婕　张晖. 复杂系统视角下数字领域“smart”概念的国际标准化共识构建及应用[J]. 信息资源管理学报, 2024, 14(3): 31-41.
[11]	安小米　徐明月. 人工智能场景下的“透明”概念研究：基于国际标准术语定义的内容分析[J]. 信息资源管理学报, 2024, 14(3): 42-55.
[12]	吴江　袁一鸣　贺超城　钱龙　杜乐　缪佳蕊. 数据要素交易多边平台研究：现状、进路与框架[J]. 信息资源管理学报, 2024, 14(3): 4-20.
[13]	张衠. “数据二十条”下探析数据资源持有权的内涵及框架构建[J]. 信息资源管理学报, 2024, 14(2): 54-67.
[14]	范佳佳. 公共数据进入数据要素市场模式研究[J]. 信息资源管理学报, 2024, 14(2): 68-81.
[15]	陈玲　蒋国银. 我国政府开放数据资源系统的三螺旋耦合模型研究[J]. 信息资源管理学报, 2024, 14(2): 121-135.

学术文献术语抽取方案比较研究

A Comparative Study of Term Extraction Schemes in Academic Literature

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价