一种基于预训练的多模态机器翻译方法技术

技术编号:34133020 阅读:67 留言:0更新日期:2022-07-14 15:55
本发明专利技术提供一种基于预训练的多模态机器翻译方法,步骤为:处理多模态机器翻译数据集Multi30k,包含文本描述和图像两部分输入;构建Vision Transformer模型,处理图片输入,得到图片编码表示;继承Huggingface的预训练参数,构建基于Transformer结构的mBart模型;mBart模型的文本编码模块处理文本输入,得到文本编码表示;设计提示模板,连接图片编码表示和文本编码表示,送入mBart模型的编码器模块;固定mBart模型的预训练参数,将KL散度引入损失函数计算,进行模型的微调。本发明专利技术通过继承大规模文本预训练模型的参数,微调图像编码表示模块,有效地将大规模文本预训练知识应用到多模态机器翻译,提升多模态机器翻译的性能,为后续其他多模态任务的研究提供思路。为后续其他多模态任务的研究提供思路。为后续其他多模态任务的研究提供思路。

【技术实现步骤摘要】
一种基于预训练的多模态机器翻译方法


[0001]本专利技术涉及一种多模态机器翻译技术,具体为基于预训练的多模态机器翻译方法。

技术介绍

[0002]机器翻译是利用计算机将一种自然语言转换成另一种自然语言的过程。机器翻译是自然语言处理领域的传统任务,它的发展经历了基于规则的方法、基于实体的方法、统计机器翻译再到现在的神经机器翻译。在近几年的主流模型框架Transformer的基础上,已有大量的研究者对其进行了优化改进,如今的机器翻译技术已经相当成熟,应用到了日常生活中。
[0003]多模态机器翻译是将文本对应的图片信息引入传统的机器翻译过程的一项多模态任务。不同于机器翻译数十年的发展历程,多模态机器翻译课题作为传统神经机器翻译课题的延申,只发展了几年的时间。当前的多模态机器翻译任务,旨在利用与双语文本匹配的图片信息,来补充额外信息、增强翻译,是一项跨模态、跨领域的研究任务。
[0004]对于多模态机器翻译的图片部分,由于现有的多模态机器翻译数据集规模有限,很难从头训练一个图片特征抽取器。现有的方法都是基于预训练的模型,如Resne本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于预训练的多模态机器翻译方法,其特征包括以下步骤:1)处理多模态机器翻译数据集,包含文本描述和对应图片两部分输入数据;2)构建Vision Transformer模型,处理图片输入数据,得到图片编码表不;3)利用现有的预训练模型参数,用于构建基于Transformer结构的预训练模型,文本输入数据经过预训练模型的编码层,得到文本编码表示;4)设计提示模板,连接图片编码表示和文本编码表示,送入预训练模型的编码器模块;5)固定预训练模型的预训练参数,将KL散度引入损失函数计算,进行模型的微调,将微调后得到的模型输入图片和文本,实现多模态机器翻译。2.按权利要求1所述的基于预训练的多模态机器翻译方法,其特征在于:步骤1)中,从公开多模态机器翻译数据集中获得训练数据,将图片数据划分成固定大小的子图片,每个子图片称作patch,再调整其维度至对于模型的输入大小合适,得到对每一个patch的编码,即图片嵌入向量,具体为:101)以输入(batch,c,h,w),每个patch分辨率为p1*p2,划分为子图片的过程的具体过程:首先,将每张图片切分成(h/p1)*(w/p2)个小块,即从(batch,c,p1*(h/p1),p2*(w/p2))到(batch,c,(h/p1)*(w/p2),p1*p2),再将其转换成(batch,(h/p1)*(w/p2),p1*p2*c),相当于分成了(h/p1)*(w/p2)个patch,每个patch的维度是p1*p2*c;这一过程的实现通过以下公式计算:x=rearrange(img,

b c(h p1)(w p2)

b(h w)(p1 p2 c)

)其中,rearrange函数是einops库的算子,p1、p2是一个patch高和宽的像素数,c是通道数,b是batch数,batch代表模型训练时数据划分的批次,h,w分别是图像的高和宽的像素数。102)划分子图片后,得到图片的嵌入向量,并对其维度进行调整,图片嵌入向量经过一层全连接层调整维度至所需长度,作为模型的输入。3.按权利要求1所述的基于预训练的多模态机器翻译方法,其特征在于:步骤2)中,构建Vision Tr...

【专利技术属性】
技术研发人员:刘兴宇张秋林
申请(专利权)人:沈阳雅译网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1