信息资源管理学报 ›› 2024, Vol. 14 ›› Issue (5): 45-58.doi: 10.13365/j.jirm.2024.05.045
• 专题·大语言模型下的古籍智能信息处理 • 上一篇 下一篇
朱丹浩1 赵志枭2 张一平1 孙光耀2 刘畅2 胡蝶2 王东波2
Zhu Danhao1 Zhao Zhixiao2 Zhang Yiping1 Sun GuangYao2 Liu Chang2 Hu Die2 Wang Dongbo2
摘要: 大语言模型的频繁发布为大语言模型的评测研究带来了机遇与挑战,针对通用领域大语言模型的评测体系日趋成熟,而面向垂直领域的大语言模型评测仍在起步阶段, 本文以古文领域评测为切入点,从语言和知识两个维度构建了一批古籍领域评测任务,并选取当前各大榜单中性能较为优越的13个通用领域大语言模型进行评测。评测结果显示,ERNIE-Bot在古籍领域知识方面遥遥领先于其他模型,而GPT-4模型在语言能力方面表现出最佳性能,在开源模型中,ChatGLM系列模型表现最为出色。通过构建评测任务和数据集,制定了一套适用于古籍领域的大语言模型评测标准,为古籍领域大语言模型性能评测提供了参考,也为后续古籍大语言模型训练过程中的基座模型选取提供了依据。
中图分类号: