一种基于文图注意力机制的多模态机器翻译方法及装置制造方法及图纸

技术编号:41799715 阅读:39 留言:0更新日期:2024-06-24 20:22
本发明专利技术涉及机器翻译技术领域,特别是指一种基于文图注意力机制的多模态机器翻译方法及装置。方法包括:将源语言文本输入到训练好的文图生成模型,基于文图生成过程、源语言文本的文本向量、对应的生成图像,得到扩散注意力矩阵;根据翻译训练样本和初始的基于文图注意力机制的多模态机器翻译模型,得到训练过程中注意力矩阵;使用MSE损失函数,根据扩散注意力矩阵和训练过程中注意力矩阵计算第一损失函数;根据多模态机器翻译模型的预测输出以及输出文本真值,确定第二损失函数;根据第一损失函数以及第二损失函数,对初始的多模态机器翻译模型进行训练。采用本发明专利技术,可以提高训练文图生成模型的效率。

【技术实现步骤摘要】

本专利技术涉及机器翻译,特别是指一种基于文图注意力机制的多模态机器翻译方法及装置


技术介绍

1、文图注意力矩阵在是跨模态交互时产生的,反映文本对图片当中哪个部分较为重视的注意力信息矩阵,跨模态交互中的文图注意力矩阵决定了图片中哪些信息需要被重视,从而能够更好地利用视觉信息。现有的文图注意力矩阵往往在训练过程中产生,随着模型的训练过程不断优化,让文本对图片中相对应的区域进行关注,从而将图片的信息融入文本模型当中。虽然现有的模型架构能够将文本和图片进行融合,学习文图对应关系,但是通过训练过程学习到的注意力机制仍然存在关注不到位,关注区域错误等问题。

2、已有的技术为了优化文图注意力机制,提取更加有效的视觉信息,在设计更加合理的模型架构,过滤视觉特征的噪声等方面做了很多尝试。在模型架构方面,multimodaltransformer, selective attention, merge-attention等架构被广泛应用在跨模态交互任务中,在多模态机器翻译,跨模态匹配,隐藏图片区域检测等任务上取得了良好的效果。在过滤视觉特征噪声方面,为了取得和文本文档来自技高网...

【技术保护点】

1.一种基于文图注意力机制的多模态机器翻译方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于文图注意力机制的多模态机器翻译方法,其特征在于,所述训练好的文图生成模型为训练好的Stable Diffusion模型;

3.根据权利要求1所述的基于文图注意力机制的多模态机器翻译方法,其特征在于,所述初始的基于文图注意力机制的多模态机器翻译模型包括Efficientnet、Transformer编码器以及选择注意力机制;

4.根据权利要求3所述的基于文图注意力机制的多模态机器翻译方法,其特征在于,所述S53的基于双线性插值算法,对所述视觉特征进行插...

【技术特征摘要】

1.一种基于文图注意力机制的多模态机器翻译方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于文图注意力机制的多模态机器翻译方法,其特征在于,所述训练好的文图生成模型为训练好的stable diffusion模型;

3.根据权利要求1所述的基于文图注意力机制的多模态机器翻译方法,其特征在于,所述初始的基于文图注意力机制的多模态机器翻译模型包括efficientnet、transformer编码器以及选择注意力机制;

4.根据权利要求3所述的基于文图注意力机制的多模态机器翻译方法,其特征在于,所述s53的基于双线性插值算法,对所述视觉特征进行插值处理,得到插值后视觉特征,包括:

5.根据权利要求3所述的基于文图注意力机制的多模态机器翻译方法,其特征在于,所述s54的根据注意力机制,对插值后视觉特征进行选择,得到选择后视觉特征,包括:

<...

【专利技术属性】
技术研发人员:于东郭雯钰刘鹏远
申请(专利权)人:北京语言大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1