一种跨文化实体翻译方法、装置、设备及存储介质制造方法及图纸

技术编号:44960886 阅读:34 留言:0更新日期:2025-04-12 01:30
本发明专利技术提供一种跨文化实体翻译方法、装置、设备及存储介质,其中,该跨文化实体翻译方法包括:构建多语言知识图谱;所述多语言知识图谱包括实体名称、实体描述以及实体间的相互关系;获取源语言文本,对所述源语言文本进行编码,得到源语言向量,优化所述多语言知识图谱中实体的嵌入表示,并从所述多语言知识图谱中检索与所述源语言文本最相关的若干个目标实体;基于所述源语言文本和所述目标实体,构建知识增强源文本,并对所述目标实体在源语言和目标语言中的实体名称进行匹配。通过本发明专利技术,对数据的依赖性更低,也减少了训练数据的规模和计算资源的消耗,解决了现有的相关技术中存在的数据依赖性强和实体名称翻译效率低下的问题。

【技术实现步骤摘要】

本专利技术涉及机器翻译和检索增强,尤其涉及一种跨文化实体翻译方法、装置、设备及存储介质


技术介绍

1、随着多语言大型语言模型(large language models,llms)的出现以及海量多语言数据集的广泛可用性,机器翻译(machine translation,mt)领域得到了显著的发展。越来越多的研究致力于提高机器翻译系统的性能,使其能够在不同语言之间进行高质量的翻译。近年来,研究人员提出了通过检索增强生成的方法来改善机器翻译系统,特别是改善低频词在推理时的翻译质量。这种方法通过在生成过程中引入外部知识,使模型在翻译时参考相关的信息,提升翻译的准确性。

2、尽管指导或约束翻译过程已被证明是提高机器翻译系统翻译质量的有效方向,但翻译包含实体名称的文本仍面临着巨大的挑战。现有研究主要集中在实体名称的音译和创意翻译上,未能充分探索相同文字系统中实体名称的跨语言转化。目前的方法依赖于数据增强来覆盖更多的实体名称,即通过对原始训练数据进行某些转换或扩展,生成更多多样化的数据,从而提升模型的泛化能力。然而,这导致训练数据集庞大且计算资源消耗高。本文档来自技高网...

【技术保护点】

1.一种跨文化实体翻译方法,其特征在于,包括:

2.根据权利要求1所述的跨文化实体翻译方法,其特征在于,构建多语言知识图谱,包括:

3.根据权利要求1所述的跨文化实体翻译方法,其特征在于,对所述源语言文本进行编码,得到源语言向量,优化所述多语言知识图谱中实体的嵌入表示,并从所述多语言知识图谱中检索与所述源语言文本最相关的若干个目标实体,包括:

4.根据权利要求3所述的跨文化实体翻译方法,其特征在于,引入困难样本的采样策略,从所述多语言知识图谱中检索出正样本和负样本,包括:

5.根据权利要求4所述的跨文化实体翻译方法,其特征在于,对所述多语言...

【技术特征摘要】

1.一种跨文化实体翻译方法,其特征在于,包括:

2.根据权利要求1所述的跨文化实体翻译方法,其特征在于,构建多语言知识图谱,包括:

3.根据权利要求1所述的跨文化实体翻译方法,其特征在于,对所述源语言文本进行编码,得到源语言向量,优化所述多语言知识图谱中实体的嵌入表示,并从所述多语言知识图谱中检索与所述源语言文本最相关的若干个目标实体,包括:

4.根据权利要求3所述的跨文化实体翻译方法,其特征在于,引入困难样本的采样策略,从所述多语言知识图谱中检索出正样本和负样本,包括:

5.根据权利要求4所述的跨文化实体翻译方法,其特征在于,对所述多语言知识图谱中的实体进行检索时,采用对比学习的方式进行无监督密集信息检索。

6.根据权利要求1所述的跨文化实体...

【专利技术属性】
技术研发人员:汪曼杨秀隆
申请(专利权)人:华中师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1