基于循环共同注意力Transformer的多模态蒙汉翻译方法技术

技术编号:30822829 阅读:37 留言:0更新日期:2021-11-18 12:09
一种基于循环共同注意力Transformer的多模态蒙汉翻译方法,利用YOLO

【技术实现步骤摘要】
基于循环共同注意力Transformer的多模态蒙汉翻译方法


[0001]本专利技术属于计算机视觉与机器翻译
,特别涉及一种基于循环共同注意力Transformer的多模态蒙汉翻译方法。

技术介绍

[0002]机器翻译能够将一种语言转换为目标语言,是解决语言障碍的有效方式。随着深度学习的日渐发展,使用深度学习进行机器翻译任务已成为主流,谷歌、百度、有道、科大讯飞等公司针对机器翻译进行了大量研究,并已开发出实用化的应用程序。
[0003]在深度学习出现前,机器翻译经历了基于规则方法、基于语料库方法及多方法融合的发展历程。蒙古语机器翻译相较其他语言研究起步较晚,数据稀少,使得实现高质量的译文难度很大。2017年,L JINTING et al.提出NMT与Discrete Lexicon Probabilities相结合的蒙汉翻译模型,解决神经网络在翻译蒙汉低频词出错问题,在蒙汉平行语料库上BLEU提高了4.02。2020年RQINGDAOERJI et al.提出基于形态素编码和LSTM的蒙汉翻译模型,采用GRU

...

【技术保护点】

【技术特征摘要】
1.一种基于循环共同注意力Transformer的多模态蒙汉翻译方法,其特征在于,包括:步骤1,目标检测利用YOLO

V4对输入图像进行目标检测,输入图像是蒙古文本的图像描述,通过相关性检测对比蒙古文本与目标标签,剔除与蒙古文本不相关的目标图像,保留与蒙古文本相关的目标图像,并利用编码层将蒙古文本编码为张量;步骤2,特征提取利用重参数化VGG网络和三重注意力机制提取并关注目标图像特征,采用形变双向长短期记忆网络对目标图像特征与编码后的蒙古文本特征即张量分别进行数次交互,之后送入到循环共同注意力Transformer网络中;步骤3,多模态翻译以经过数次交互之后得到的目标图像特征与编码后的蒙古文本特征为输入,利用循环共同注意力Transformer网络进行蒙汉翻译,通过数次循环交互,将蒙古语言特征与视觉特征充分融合,输出目标语言。2.根据权利要求1所述基于循环共同注意力Transformer的多模态蒙汉翻译方法,其特征在于,所述YOLO

V4网络由CSPDenseNet、路径聚合网络、回归预测网络组成,其中CSPDenseNet作为主干网络提取图像特征,路径聚合网络作为颈部网络,并将空间金字塔池化加入CSPDenseNet,产生固定大小的输出。3.根据权利要求2所述基于循环共同注意力Transformer的多模态蒙汉翻译方法,其特征在于,所述CSPDenseNet由CBM模块和跨阶段局部模块构成,CBM模块由卷积层、批归一化层、Mish激活函数组成,跨阶段局部模块将输入的视觉信息划分为两部分,一部分与原始网络计算相同,另一部分不参与计算,直接与第一部分计算的结果进行拼接,其由两条支路构成,一条对主干部分进行卷积,另一条用来产生一个残差边,通过对两条支路的跨级拼接与通道整合以增强卷积神经网络的学习能力;所述路径聚合网络采用自下而上的方式,创建一条从底层特征到顶层特征的路径,从而缩短底层特征信息到顶层特征信息的传播路径,准确地保存空间信息,正确定位像素点;所述空间金字塔池化通过使用三个不同尺寸的最大池化层对全连接层前的卷积层进行池化操作并进行拼接,输出一个一维的向量,以此使得输入图像尺寸不受约束。4.根据权利要求1所述基于循环共同注意力Transformer的多模态蒙汉翻译方法,其特征在于,所述重参数化VGG将VGG网络分为训练阶段与推理阶段,在训练阶段采用多分支网络结构提升模型精度,在推理阶段采用单分支网络结构,使用重参数化将多分支网络的权值转换到单分支网络中;所述三重注意力机制通过使用三分支结构捕获跨维度交互来计算注意力权重,通过旋转操作与残差变换建立维度间的依存关系;所述形变双向长短期记忆网络通过将当前时间的输入x
t
和上一个时间的隐藏状态h
t
‑1在输入长短期记忆网络之前进行多次交互,然后将所得向量作为长短期记忆网络的输入,获得上下文的相关表达。5.根据权利要求4所述基于循环共同注意力Transformer的多模态蒙汉翻译方法,其特征在于,所述多分支网络由大量小网络组成,所述重参数化VGG在VGG网络的基础上应用重参数化技术,在网络中使用3
×
3卷积层、批归一化层、Relu激活函数,并引入残差分支和1
×
1卷积分支,取消残差网络的跨层连接,改为直接连接,通过融合分支,将推理网络变为单路结构;所述三重注意力机制中,给定一个输入张量x∈R
C
×
H
×
W
,表示经过卷积神经网络提取的目标图像特征,C、H、W分别表示输入特征集合R的通道数、高度、宽度,在第一个分支中,C与H进行交互,输入x首先沿高度方向逆时针旋转90
°
得到形状为(W
×
H
×
C),之后经过Z

池化形状变为(2
×
H
×
C),记为C),记为通过k
×
k的卷积层与批归一化层,得到形状为(1
×
H
×
C))的输出并经过sigmoid激活函数生成注意力权值,...

【专利技术属性】
技术研发人员:苏依拉崔少东仁庆道尔吉吉亚图李雷孝石宝梁衍锋吕苏艳
申请(专利权)人:内蒙古工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1