当前位置: 首页 > 专利查询>天津大学专利>正文

一种通过预训练弥合模态差异的端到端图片翻译方法技术

技术编号:39134433 阅读:8 留言:0更新日期:2023-10-23 14:52
本发明专利技术的目的是提供一种通过预训练弥合模态差异的端到端图片翻译方法,所述方法分为两个阶段,第一阶段是文本翻译预训练,第二阶段为图片翻译预训练;所述文本翻译预训练,使用大规模双语数据训练一个基于Transformer结构的编码器

【技术实现步骤摘要】
一种通过预训练弥合模态差异的端到端图片翻译方法


[0001]本专利技术涉及图片翻译
,具体涉及一种通过预训练弥合模态差异的端到端图片翻译方法。

技术介绍

[0002]随着跨境电商的兴起,对于宣传广告、视频中广告语等文字的翻译需求越来越大。当前的图片翻译主要以光学字符识别(OCR)与机器翻译(MT)两个系统进行级联从而对图片中的文字进行识别、翻译。具体而言,OCR系统会对图片中的文字区域进行文本检测,从而确定需要进行翻译的图片位置,将该位置的图片进行截取之后,输入到文本识别模型中进行识别。常见的文本识别模型包括CRNN模型,能够提取图片中的序列信息进行文字识别。得到文字之后,级联系统将文字输入到机器翻译系统中进行翻译,得到最终的目标语言文本,实现图片翻译的需求。
[0003]虽然级联系统能够满足图片翻译的需求,但这种级联系统需要依次输入到两个系统中进行推理,在这个过程中容易产生误差传递,一旦OCR系统的识别发生错误,机器翻译系统无法进行校正。此外,级联系统中的两个子系统具有不同的优化目标,分别进行训练,这会导致性能的次优性。最后,级联系统的速度较慢,对于大规模的图片翻译需求而言成本更高。

技术实现思路

[0004]本专利技术的目的是提供一种通过预训练弥合模态差异的端到端图片翻译方法,以提高图片翻译的性能。
[0005]为实现本专利技术的目的,本专利技术提供的技术方案如下:
[0006]一种通过预训练弥合模态差异的端到端图片翻译方法,所述方法分为两个阶段,第一阶段是文本翻译预训练,第二阶段为图片翻译预训练;
[0007]所述文本翻译预训练,使用大规模双语数据训练一个基于Transformer结构的编码器

解码器翻译模型;
[0008]所述图片翻译预训练,图片翻译模型使用中编码器

解码器翻译模型作为初始化,然后为模型配置一个视觉编码器,视觉编码器由CRNN结构构成,能够有效提取图片中的序列信息,并形成序列向量输入共享编码器中;共享编码器能够同时接受视觉序列信息与文本序列信息,需要在共享编码器中促进相同语义的图片和文字的表示进行对齐;
[0009]在图片翻译预训练的过程中引入图片翻译训练和文本翻译训练,在统一的共享编码器的作用下,两种模态在训练过程中由于参数共享,会逐渐产生统一的跨模态表示,同时图片翻译能够继续吸收文本翻译的翻译知识。
[0010]其中,使用对比学习显式地促进跨模态表示的融合。
[0011]其中,通过跨模态知识蒸馏,提取文本翻译的细粒度知识。
[0012]其中,进行JS散度融合,进一步融合两种模态的翻译性能。
[0013]与现有技术相比,本专利技术一种通过预训练弥合模态差异的端到端图片翻译方法,所述方法分为两个阶段,第一阶段是文本翻译预训练,第二阶段为图片翻译预训练;且针对共享编码器中促进相同语义的图片和文字的表示需要进行对齐,提供了改进方式,大大提高了端到端图片翻译模型的性能,达到并超过了级联系统,同时相比传统级联其速度有了显著的提高。
附图说明
[0014]图1为本专利技术实施例提供的方法流程示意图。
具体实施方式
[0015]下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0016]如图1所示,本实施例通过了一种通过预训练弥合模态差异的端到端图片翻译算法(Bridging the Modality Gap with Pre

trained Models for End

to

End Image Translation,PEIT)。
[0017]PEIT分为两个阶段,第一阶段是文本翻译预训练,第二阶段为图片翻译预训练,下面将详细描述这两个阶段的具体算法。
[0018]1.文本翻译预训练。由于图片翻译的数据量相对于文本翻译数据更小,本方法通过文本翻译数据作为图片翻译的前置训练方法,将大规模双语文本的优势迁移到图片翻译之中。具体而言,本方法首先使用大规模双语数据训练一个基于Transformer结构的编码器

解码器翻译模型,然后使用该翻译模型为后续的图片翻译模型提供初始化。
[0019]2.图片翻译预训练。图片翻译模型首先使用上面阶段中的翻译模型作为初始化,然后为模型配置一个视觉编码器。
[0020]其中,视觉编码器由CRNN结构构成,能够有效提取图片中的序列信息,并形成序列向量输入共享编码器中。
[0021]对于文本而言,文本编码器就是一个词向量嵌入矩阵,同样使用文本翻译模型的嵌入矩阵进行初始化。共享编码器能够同时接受视觉序列信息与文本序列信息,需要在共享编码器中促进相同语义的图片和文字的表示进行对齐,即弥合模态差异。
[0022]为实现这一目的,本申请通过4个方面促进跨模态的统一表示:
[0023](1)多任务训练。通过在图片翻译预训练的过程中引入图片翻译训练和文本翻译训练,在统一的共享编码器的作用下,两种模态在训练过程中由于参数共享,会逐渐产生统一的跨模态表示,同时图片翻译能够继续吸收文本翻译的翻译知识,促进翻译性能的进一步提高。训练目标如下所示,其中L
IT
代表图片翻译的训练目标,v代表视觉编码器提取的视觉向量序列表示,θ代表模型的参数。L
MT
即为文本翻译训练目标。这两个训练目标同时训练模型参数θ,使得模型能够同时具备图片翻译和文本翻译的能力。
[0024][0025]。
[0026](2)对比学习。通过参数共享实现的统一表示是潜在完成的,为了进一步促进表示统一性,本方法提出使用对比学习显式地促进跨模态表示的融合。具体而言,本方法将图片中的文字与图片本身组成一个图片文字对,这一对图片和文字在经过共享编码器后产生的表示要尽可能地相似,这样在解码器解码时,就能够根据从图片中抽取的语义表示,对图片进行正确的翻译。如下式所示:
[0027][0028]其中,s是相似度度量,v
i
是视觉向量序列进入共享编码器后的上下文表示,x
i
是文本上下文表示,对比学习的训练目标就是要最大化同一语义的跨模态表示。
[0029]s可以使用余弦相似度来度量两个向量的相似度:
[0030][0031](3)知识蒸馏。为了进一步从文本翻译模型中提取知识,本方法除了使用文本翻译模型进行初始化,还提出通过跨模态知识蒸馏,提取文本翻译的细粒度知识。具体而言,本方法在图片翻译训练的过程中,不仅使用训练数据中的真实标签,还会使用来自文本翻译模型的预测结果作为训练目标,从而能够提取文本翻译模型的细粒度知识。知识蒸馏的训练目标如下所示:
[0032][0033]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种通过预训练弥合模态差异的端到端图片翻译方法,其特征在于,所述方法分为两个阶段,第一阶段是文本翻译预训练,第二阶段为图片翻译预训练;所述文本翻译预训练,使用大规模双语数据训练一个基于Transformer结构的编码器

解码器翻译模型;所述图片翻译预训练,图片翻译模型使用中编码器

解码器翻译模型作为初始化,然后为模型配置一个视觉编码器,视觉编码器由CRNN结构构成,能够有效提取图片中的序列信息,并形成序列向量输入共享编码器中;共享编码器能够同时接受视觉序列信息与文本序列信息,需要在共享编码器中促进相同语义的图片和文字的表示进行对...

【专利技术属性】
技术研发人员:熊德意朱少林李上杰雷易锟
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1