一种基于领域虚拟视觉场景的多模态融合方法技术

技术编号:41233737 阅读:20 留言:0更新日期:2024-05-09 23:48
本发明专利技术提出了一种基于领域虚拟视觉场景的多模态融合方法,旨在解决领域神经机器翻译中出现的视觉不平衡问题。所提出的方法在多种领域场景中展现了卓越的领域机器翻译改进效果,包括一对一、一对多的文本‑图像数据场景,甚至是仅文本的场景,属于自然语言处理技术领域。本发明专利技术采用领域虚拟视觉策略,在不同场景下利用多模态领域数据的监督来生成与领域相关的虚拟视觉场景。随后,本发明专利技术设计了一个领域视觉虚拟增强的跨模态融合模块,以将领域相关的视觉幻觉整合入文本中,从而增强领域表征能力,进而提升领域特定的机器翻译性能。此外,本发明专利技术提出的模型仅在训练过程中需要视觉信息。在推理过程中,它可以适应多模态和仅文本的领域机器翻译场景。

【技术实现步骤摘要】

本专利技术提供基于领域虚拟视觉场景的多模态融合方法,旨在捕获面向特定领域的多模态信息来促进领域文本的机器翻译性能,属于自然语言处理。


技术介绍

1、领域特定多模态神经机器翻译旨在通过整合图像作为额外的上下文信息,将源语言句子翻译成目标语言。这一领域特定任务已受到越来越多的关注,特别是在跨境电子商务购物、跨境旅游、跨境教育等领域。在特定领域场景中,图像和文本经常遇到视觉不平衡问题。例如,在产品描述页面和产品用户评论的文本翻译任务中,一句话可能对应多个图像,或者只有文本可用。此外,句子中包含的领域特定术语与传统领域中的词汇显著不同。领域特定术语,如“褶皱缝”、“绉布”和“蓬松肩膀”,与其他词汇相比展现出独特的特性。因此,如何整合视觉信息以增强机器翻译性能,尤其是对于领域特定术语,是dmnmt的核心挑战之一。许多多模态神经机器翻译研究已证明整合视觉信息确实可以显著提升机器翻译性能。这些mnmt工作试图通过多模态融合策略将视觉信息融入文本中,如跨模态注意力机制,多模态预训练框架,双层视觉特征交互等。遗憾的是,上述大多数mnmt工作主要关注传统领域的视觉-文本融合,本文档来自技高网...

【技术保护点】

1.一种基于领域虚拟视觉场景的多模态融合方法,其特征在于,所述方法包括以下步骤:

2.如权利要求1所述的基于领域虚拟视觉场景的多模态融合方法,其特征在于:

3.如权利要求1所述的基于领域虚拟视觉场景的多模态融合方法,其特征在于:

4.如权利要求1所述的基于领域虚拟视觉场景的多模态融合方法,其特征在于:

5.如权利要求1所述的基于领域虚拟视觉场景的多模态融合方法,其特征在于:

6.如权利要求4所述的基于领域虚拟视觉场景的多模态融合方法,其特征在于:

【技术特征摘要】

1.一种基于领域虚拟视觉场景的多模态融合方法,其特征在于,所述方法包括以下步骤:

2.如权利要求1所述的基于领域虚拟视觉场景的多模态融合方法,其特征在于:

3.如权利要求1所述的基于领域虚拟视觉场景的多模态融合方法,其特征在于:

【专利技术属性】
技术研发人员:郭军军侯振宇
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1