3.
面向古文自然语言处理生成任务的大语言模型评测研究
朱丹浩 赵志枭 张一平 孙光耀 刘畅 胡蝶 王东波
信息资源管理学报
2024, 14 (5):
45-58.
DOI: 10.13365/j.jirm.2024.05.045
大语言模型的频繁发布为大语言模型的评测研究带来了机遇与挑战,针对通用领域大语言模型的评测体系日趋成熟,而面向垂直领域的大语言模型评测仍在起步阶段, 本文以古文领域评测为切入点,从语言和知识两个维度构建了一批古籍领域评测任务,并选取当前各大榜单中性能较为优越的13个通用领域大语言模型进行评测。评测结果显示,ERNIE-Bot在古籍领域知识方面遥遥领先于其他模型,而GPT-4模型在语言能力方面表现出最佳性能,在开源模型中,ChatGLM系列模型表现最为出色。通过构建评测任务和数据集,制定了一套适用于古籍领域的大语言模型评测标准,为古籍领域大语言模型性能评测提供了参考,也为后续古籍大语言模型训练过程中的基座模型选取提供了依据。
相关文章 |
多维度评价 |
评论(0)
|