信息资源管理学报 ›› 2024, Vol. 14 ›› Issue (5): 23-35.doi: 10.13365/j.jirm.2024.05.023
• 专题·大语言模型下的古籍智能信息处理 • 上一篇 下一篇
左亮1,2 赵志枭3 王东波3
Zuo Liang1,2 Zhao Zhixiao3 Wang Dongbo3
摘要: 在古籍研究掀起热潮以及古籍活化成为时代要求的背景下,古籍自动分类面临更高的要求。结合当下前沿的大语言模型,以《四库全书》史部和经部的25类语料作为输入语料,探究荀子古籍大语言系列模型在古籍自动分类上的分类效果。通过与其基座模型对比实验表明,荀子古籍大语言系列模型在古籍自动分类任务中具有明显优势,其中Xunzi-Baichuan2-7B大语言模型的优势最为显著,整体分类值达到96.90%;调整训练数据规模的实验表明,荀子古籍大语言模型仅需少量的数据就能够达到与基座模型相当的分类效果。因此,本研究提出的基于荀子古籍大语言模型的古籍自动分类模型,能够实现对古籍的高效细粒度分类,并为资源受限情境下的古籍分类开辟了新途径。
中图分类号: