【技术实现步骤摘要】
本专利技术涉及机器翻译和检索增强,尤其涉及一种跨文化实体翻译方法、装置、设备及存储介质。
技术介绍
1、随着多语言大型语言模型(large language models,llms)的出现以及海量多语言数据集的广泛可用性,机器翻译(machine translation,mt)领域得到了显著的发展。越来越多的研究致力于提高机器翻译系统的性能,使其能够在不同语言之间进行高质量的翻译。近年来,研究人员提出了通过检索增强生成的方法来改善机器翻译系统,特别是改善低频词在推理时的翻译质量。这种方法通过在生成过程中引入外部知识,使模型在翻译时参考相关的信息,提升翻译的准确性。
2、尽管指导或约束翻译过程已被证明是提高机器翻译系统翻译质量的有效方向,但翻译包含实体名称的文本仍面临着巨大的挑战。现有研究主要集中在实体名称的音译和创意翻译上,未能充分探索相同文字系统中实体名称的跨语言转化。目前的方法依赖于数据增强来覆盖更多的实体名称,即通过对原始训练数据进行某些转换或扩展,生成更多多样化的数据,从而提升模型的泛化能力。然而,这导致训练数据集庞
...【技术保护点】
1.一种跨文化实体翻译方法,其特征在于,包括:
2.根据权利要求1所述的跨文化实体翻译方法,其特征在于,构建多语言知识图谱,包括:
3.根据权利要求1所述的跨文化实体翻译方法,其特征在于,对所述源语言文本进行编码,得到源语言向量,优化所述多语言知识图谱中实体的嵌入表示,并从所述多语言知识图谱中检索与所述源语言文本最相关的若干个目标实体,包括:
4.根据权利要求3所述的跨文化实体翻译方法,其特征在于,引入困难样本的采样策略,从所述多语言知识图谱中检索出正样本和负样本,包括:
5.根据权利要求4所述的跨文化实体翻译方法,其特
...【技术特征摘要】
1.一种跨文化实体翻译方法,其特征在于,包括:
2.根据权利要求1所述的跨文化实体翻译方法,其特征在于,构建多语言知识图谱,包括:
3.根据权利要求1所述的跨文化实体翻译方法,其特征在于,对所述源语言文本进行编码,得到源语言向量,优化所述多语言知识图谱中实体的嵌入表示,并从所述多语言知识图谱中检索与所述源语言文本最相关的若干个目标实体,包括:
4.根据权利要求3所述的跨文化实体翻译方法,其特征在于,引入困难样本的采样策略,从所述多语言知识图谱中检索出正样本和负样本,包括:
5.根据权利要求4所述的跨文化实体翻译方法,其特征在于,对所述多语言知识图谱中的实体进行检索时,采用对比学习的方式进行无监督密集信息检索。
6.根据权利要求1所述的跨文化实体...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。