基于主题融合的语义一致性篇章级神经机器翻译方法技术

技术编号:43515378 阅读:27 留言:0更新日期:2024-12-03 12:06
本发明专利技术提出了基于主题融合的语义一致性篇章级神经机器翻译方法,通过引入主题词以捕捉文本的全局语义信息,从而有效减少翻译过程中的主题漂移现象,并增强句子间的逻辑联系,显著提高翻译的一致性与准确性。该方法采用了由主题词软提示引导的提示学习策略,其中每个软提示被视为一个“专家”,通过多个软提示的融合形成了一个混合专家模型;通过使用BERT模型对主题词进行编码,生成高质量的词向量表示,并引入主题词感知的多层次动态融合机制,将这些主题信息与源语言信息进行有效融合,进而实现主题迁移效果。本发明专利技术还引入了一种以主题词为引导的语义一致性损失,用以平衡源语言信息与主题信息的贡献,避免模型过度依赖主题词。

【技术实现步骤摘要】

本专利技术涉及基于主题融合的语义一致性篇章级神经机器翻译方法,属于自然语言处理领域。


技术介绍

1、在现代机器翻译技术的发展过程中,神经机器翻译(neural machinetranslation,nmt)凭借其端到端的训练方式和较强的语义捕捉能力,逐渐成为主流。然而,传统的nmt模型在面对长篇文档或篇章级别的翻译任务时,常常会面临主题漂移现象,导致翻译结果在句子间逻辑连贯性和语义一致性方面表现不佳。这种主题漂移现象的产生主要是因为nmt模型在翻译过程中对文本的全局语义信息捕捉不足,尤其在处理涉及多种主题转换的文本时,模型难以有效保持主题的一致性,进而影响翻译的准确性和一致性。

2、近年来研究人员提出了多种改进方法,例如通过上下文信息增强模型的语义捕捉能力,或通过特定的策略减少句子间的语义偏差。然而,现有的方法在实际应用中仍存在诸多不足,主要表现为以下几点:主题信息捕捉不足:大多数现有模型主要依赖于局部上下文信息,无法充分利用篇章级别的全局主题信息。这导致模型在面对复杂文本时,容易出现主题不连贯的现象,影响翻译质量;全局语义一致性不足:由于缺乏本文档来自技高网...

【技术保护点】

1.基于主题融合的语义一致性篇章级神经机器翻译方法,其特征在于,包括以下步骤:

2.如权利要求1所述的基于主题融合的语义一致性篇章级神经机器翻译方法,其特征在于:所述步骤Step1包括:使用隐含狄利克雷分布LDA模型对篇章级数据进行主题词提取。

3.如权利要求2所述的基于主题融合的语义一致性篇章级神经机器翻译方法,其特征在于:所述使用隐含狄利克雷分布LDA模型对篇章级数据进行主题词提取的具体步骤如下:

4.如权利要求1所述的基于主题融合的语义一致性篇章级神经机器翻译方法,其特征在于:所述步骤Step2的具体步骤如下:

5.如权利要求1所述的...

【技术特征摘要】

1.基于主题融合的语义一致性篇章级神经机器翻译方法,其特征在于,包括以下步骤:

2.如权利要求1所述的基于主题融合的语义一致性篇章级神经机器翻译方法,其特征在于:所述步骤step1包括:使用隐含狄利克雷分布lda模型对篇章级数据进行主题词提取。

3.如权利要求2所述的基于主题融合的语义一致性篇章级神经机器翻译方法,其特征在于:所述使用隐含狄利克雷分布lda模型对篇章级数据进行主题词提取的具体步骤如下:

4.如权利要求1所述的基于主题融合的语义一致性篇章级神经机器翻译方法,其特征在于:所述步骤step2的具体步骤如下:

5.如权利要求1所述的基于主题融合的语义...

【专利技术属性】
技术研发人员:郭军军刘春娇
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1