信息资源管理学报 ›› 2024, Vol. 14 ›› Issue (6): 143-155.doi: 10.13365/j.jirm.2024.06.143
吴梦成1,2,3 刘 畅1,2,3 孟凯4 王东波1,2,3
Wu Mengcheng1,2,3 Liu Chang1,2,3 Meng Kai4 Wang Dongbo1,2,3
摘要: 本研究旨在构建并验证一种基于预训练语言模型的汉语古现翻译模型,为我国古汉语研究及文化遗产传承与传播提供强有力的技术支撑。研究选取了总计30万组精加工的《二十四史》平行语料作为实验数据集,并据此开发了一种新的翻译模型——Siku-Trans,该模型创新性地结合了专门为古汉语翻译设计的Siku-RoBERTa(作为编码器)和Siku-GPT(作为解码器),构建了一个高效的encoder-decoder架构;为全面评估Siku-Trans模型的性能,研究引入OpenNMT、SikuGPT、SikuBERT_UNILM三种模型作为对照组,通过对比分析各模型在古汉语翻译任务上的表现发现,Siku-Trans在翻译准确性及流畅度方面均展现出显著优势。这一成果不仅凸显了将Siku-RoBERTa与Siku-GPT结合作为训练策略的有效性,也为古汉语翻译领域的深入研究与实际应用提供了重要参考和启示。
中图分类号: