基于检索增强和知识蒸馏的汉越跨语言查询扩展方法技术

技术编号:42815037 阅读:20 留言:0更新日期:2024-09-24 20:55
本发明专利技术涉及基于检索增强和知识蒸馏的汉越跨语言查询扩展方法,属于自然语言处理技术领域。本发明专利技术通过知识蒸馏和检索增强,将大规模语言模型的思维链生成能力和检索到的外部知识注入参数较少的多语言预训练模型中,从而提升其思维链生成能力。本发明专利技术相比查询扩展,跨语言查询扩展在多语言预训练模型在低资源语言场景下推理和生成能力表现能力。在汉越跨语言问答、汉越跨语言信息检索等下游任务中发挥着重要的作用。在MLQA、XQuAD公共数据集和构建的汉越跨语言查询扩展数据集上的实验结果表明,本发明专利技术的性能指标优于基线模型,MAP、Recall、NDCG、MRR分别提高了3.4%、1.6%、2.9%和3.4%。

【技术实现步骤摘要】

本专利技术涉及基于检索增强和知识蒸馏的汉越跨语言查询扩展方法,属于自然语言处理。


技术介绍

1、汉越跨语言查询扩展旨在增加与中文查询语句语义相同的术语和概念,并将扩展后的中文查询语句转换为越南语查询语句。汉越跨语言查询扩展是解决查询主题漂移、词不匹配等问题的核心技术之一。同时,有效的汉越跨语言查询扩展为汉越跨语言问答、汉越跨语言信息检索等下游任务提供了坚实的基础。

2、本专利技术涉及一种特定的跨语言查询扩展技术,即汉越跨语言查询扩展。近年来,该
已取得了显著的研究进展,主流方法涵盖基于机器翻译的技术、基于多语言预训练语言模型的方法,以及运用大语言模型生成的方法。在基于机器翻译的方法中,通过神经机器翻译技术,原始查询语句被转换成目标语言,随后根据翻译后的内容实施查询扩展。然而,该方法的效能深受机器翻译准确度的影响。对于资源丰富的语言,由于翻译误差相对较小,其效果较为理想;但对于如越南语等低资源语言,可能会因翻译不准确而影响扩展后的检索效果。为了解决上述问题,有研究者提出了基于多语言预训练语言模型的方法。此方法的核心理念是,在源语言上对原始查本文档来自技高网...

【技术保护点】

1.基于检索增强和知识蒸馏的汉越跨语言查询扩展方法,其特征在于:所述基于检索增强和知识蒸馏的汉越跨语言查询扩展方法的具体步骤如下:

2.根据权利要求1所述的基于检索增强和知识蒸馏的汉越跨语言查询扩展方法,其特征在于:所述Step1的具体步骤为:

3.根据权利要求2所述的基于检索增强和知识蒸馏的汉越跨语言查询扩展方法,其特征在于:所述Step2包括三个新的查询扩展任务模块:思维链生成模块、检索增强模块和跨语言查询扩展模块;具体步骤为:

4.根据权利要求3所述的基于检索增强和知识蒸馏的汉越跨语言查询扩展方法,其特征在于:所述步骤Step2.1的具体步骤为:...

【技术特征摘要】

1.基于检索增强和知识蒸馏的汉越跨语言查询扩展方法,其特征在于:所述基于检索增强和知识蒸馏的汉越跨语言查询扩展方法的具体步骤如下:

2.根据权利要求1所述的基于检索增强和知识蒸馏的汉越跨语言查询扩展方法,其特征在于:所述step1的具体步骤为:

3.根据权利要求2所述的基于检索增强和知识蒸馏的汉越跨语言查询扩展方法,其特征在于:所述step2包括三个新的查询扩展任务模块:思维链生成模块、检索增强模块和跨语言查询扩展模块;具体步骤为:

4.根据权利要求3所述...

【专利技术属性】
技术研发人员:高盛祥李京朱恩昌
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1