【技术实现步骤摘要】
本专利技术涉及机器翻译,特别是指一种基于文图注意力机制的多模态机器翻译方法及装置。
技术介绍
1、文图注意力矩阵在是跨模态交互时产生的,反映文本对图片当中哪个部分较为重视的注意力信息矩阵,跨模态交互中的文图注意力矩阵决定了图片中哪些信息需要被重视,从而能够更好地利用视觉信息。现有的文图注意力矩阵往往在训练过程中产生,随着模型的训练过程不断优化,让文本对图片中相对应的区域进行关注,从而将图片的信息融入文本模型当中。虽然现有的模型架构能够将文本和图片进行融合,学习文图对应关系,但是通过训练过程学习到的注意力机制仍然存在关注不到位,关注区域错误等问题。
2、已有的技术为了优化文图注意力机制,提取更加有效的视觉信息,在设计更加合理的模型架构,过滤视觉特征的噪声等方面做了很多尝试。在模型架构方面,multimodaltransformer, selective attention, merge-attention等架构被广泛应用在跨模态交互任务中,在多模态机器翻译,跨模态匹配,隐藏图片区域检测等任务上取得了良好的效果。在过滤视觉特征噪
...【技术保护点】
1.一种基于文图注意力机制的多模态机器翻译方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于文图注意力机制的多模态机器翻译方法,其特征在于,所述训练好的文图生成模型为训练好的Stable Diffusion模型;
3.根据权利要求1所述的基于文图注意力机制的多模态机器翻译方法,其特征在于,所述初始的基于文图注意力机制的多模态机器翻译模型包括Efficientnet、Transformer编码器以及选择注意力机制;
4.根据权利要求3所述的基于文图注意力机制的多模态机器翻译方法,其特征在于,所述S53的基于双线性插值算法,
...【技术特征摘要】
1.一种基于文图注意力机制的多模态机器翻译方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于文图注意力机制的多模态机器翻译方法,其特征在于,所述训练好的文图生成模型为训练好的stable diffusion模型;
3.根据权利要求1所述的基于文图注意力机制的多模态机器翻译方法,其特征在于,所述初始的基于文图注意力机制的多模态机器翻译模型包括efficientnet、transformer编码器以及选择注意力机制;
4.根据权利要求3所述的基于文图注意力机制的多模态机器翻译方法,其特征在于,所述s53的基于双线性插值算法,对所述视觉特征进行插值处理,得到插值后视觉特征,包括:
5.根据权利要求3所述的基于文图注意力机制的多模态机器翻译方法,其特征在于,所述s54的根据注意力机制,对插值后视觉特征进行选择,得到选择后视觉特征,包括:
<...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。