信息资源管理学报 ›› 2025, Vol. 15 ›› Issue (3): 108-121.doi: 10.13365/j.jirm.2025.03.108
刘晓慧 冉从敬 刘省身 李旺
Liu Xiaohui Ran Congjing Liu Xingshen Li Wang
摘要: 生成式人工智能的突破性进展催生了ChatGPT等现象级大语言模型,对传统数据效用评估方法提出了全新挑战。为此,本研究针对大语言模型的指令微调数据效用评估问题,构建了一种融合复杂性、可用性和多样性三大维度的多维评估方法,并据此设计了全新的数据效用评估函数。基于7B中等参数规模模型的实验表明,该评估方法在多个公共指令微调数据集上能够合理、有效地衡量数据质量,且在不同数据集上微调的大语言模型的推理损失与所提评估指标呈现出高度一致性。本研究首次将推理损失直接用于衡量语言模型指令微调数据的质量,并针对大语言模型指令微调的特点,引入复杂性、可用性和多样性三大关键维度来界定“好数据”的特征。通过提出全新的定量度量指标,为进一步提升大语言模型指令微调数据质量及相关研究应用提供了重要的理论支撑与实践参考。
中图分类号: