基于视觉语言预训练的图像文本翻译方法及装置制造方法及图纸

技术编号:39440920 阅读:7 留言:0更新日期:2023-11-19 16:23
本发明专利技术提供一种基于视觉语言预训练的图像文本翻译方法及装置,方法包括:确定源语言图像;将源语言图像输入至图像文本翻译模型,得到图像文本翻译模型输出的源语言图像对应的目标语言文本;其中,图像文本翻译模型的损失值基于样本预测源语言文本与样本源语言图像对应的样本源语言标签之间的差异,以及样本预测目标语言文本与样本目标语言标签之间的差异确定。本发明专利技术的图像文本翻译模型基于样本图像特征向量以及样本预测源语言文本对样本源语言图像进行图像文本翻译时,样本图像特征向量能够补充提供相应的视觉信息,对文本识别错误进行校正,以增强图像文本翻译,准确得到样本预测目标语言文本,进而提高图像文本翻译模型的图像文本翻译精度。模型的图像文本翻译精度。模型的图像文本翻译精度。

【技术实现步骤摘要】
基于视觉语言预训练的图像文本翻译方法及装置


[0001]本专利技术涉及自然语言处理
,尤其涉及一种基于视觉语言预训练的图像文本翻译方法及装置。

技术介绍

[0002]图像文本翻译旨在将嵌入图像中的源语言文本翻译成目标语言文本,具有广泛的实际应用场景:如旅游时对海报、路牌、店铺门面和广告牌等的拍照翻译导航等。目前图像文本翻译多使用图像文本识别和机器翻译级联模型实现。图像文本识别模型用于将嵌入在图像中的源语言文本提取转录为可编辑文本,机器翻译模型用于将可编辑文本翻译成目标语言文本。
[0003]然而,由于级联模型相互独立,未能考虑模型之间的互补信息增强,存在误差累积,导致图像文本翻译精度较低。例如,输入图像中“beer”文字风格复杂,图像文本识别模型错误地将“beer”识别成“13ee2”,而在机器翻译阶段,机器翻译模型依赖于文字识别模型提取的文本信息,将输入图片“beer”翻译成了“13ee2”,导致了错误累计。

技术实现思路

[0004]本专利技术提供一种基于视觉语言预训练的图像文本翻译方法及装置,用以解决现有技术中图像文本翻译精度较低的缺陷。
[0005]本专利技术提供一种基于视觉语言预训练的图像文本翻译方法,包括:
[0006]确定源语言图像;
[0007]将所述源语言图像输入至图像文本翻译模型,得到所述图像文本翻译模型输出的所述源语言图像对应的目标语言文本;
[0008]其中,所述图像文本翻译模型的损失值基于样本预测源语言文本与样本源语言图像对应的样本源语言标签之间的差异,以及样本预测目标语言文本与所述样本目标语言标签之间的差异确定,所述样本预测源语言文本是所述图像文本翻译模型对所述样本源语言图像进行文字识别得到的,所述样本预测目标语言文本是所述图像文本翻译模型基于所述样本源语言图像对应的样本图像特征向量,以及所述样本预测源语言文本对所述样本源语言图像进行图像文本翻译得到的,所述图像文本翻译模型是基于视觉语言预训练模型初始化后得到的。
[0009]根据本专利技术提供的一种基于视觉语言预训练的图像文本翻译方法,所述图像文本翻译模型的损失值基于如下步骤确定:
[0010]将所述样本源语言图像输入至初始图像文本翻译模型的图像编码层,得到所述图像编码层输出的样本图像特征向量;
[0011]将所述样本图像特征向量输入至所述初始图像文本翻译模型的文字识别解码层,得到所述文字识别解码层输出的所述样本预测源语言文本;
[0012]将所述样本图像特征向量以及所述样本预测源语言文本输入至所述初始图像文
本翻译模型的图像文本翻译层,得到所述图像文本翻译层输出的所述样本预测目标语言文本;
[0013]基于所述样本预测源语言文本与所述样本源语言标签之间的差异,以及所述样本预测目标语言文本与所述样本目标语言标签之间的差异,确定所述图像文本翻译模型的损失值。
[0014]根据本专利技术提供的一种基于视觉语言预训练的图像文本翻译方法,所述将所述样本图像特征向量输入至所述初始图像文本翻译模型的文字识别解码层,得到所述文字识别解码层输出的所述样本预测源语言文本,包括:
[0015]将所述样本源语言图像的位置向量以及所述样本图像特征向量输入至所述文字识别解码层,由所述文字识别解码层基于所述位置向量进行位置注意力计算,以及基于所述样本图像特征向量进行上下文注意力计算,得到所述文字识别解码层输出的所述样本预测源语言文本。
[0016]根据本专利技术提供的一种基于视觉语言预训练的图像文本翻译方法,所述将所述样本图像特征向量以及所述样本预测源语言文本输入至所述初始图像文本翻译模型的图像文本翻译层,得到所述图像文本翻译层输出的所述样本预测目标语言文本,包括:
[0017]将所述样本预测源语言文本输入至所述图像文本翻译层的文本编码层,得到所述文本编码层输出的样本文本特征向量;
[0018]将所述样本图像特征向量以及所述样本文本特征向量输入至所述图像文本翻译层的跨语言解码层,得到所述跨语言解码层输出的所述样本预测目标语言文本。
[0019]根据本专利技术提供的一种基于视觉语言预训练的图像文本翻译方法,所述将所述样本预测源语言文本输入至所述图像文本翻译层的文本编码层,得到所述文本编码层输出的样本文本特征向量,包括:
[0020]将所述样本预测源语言文本输入至所述文本编码层,由所述文本编码层对所述样本预测源语言文本中各分词进行归一化处理后,线性投影到联合图像文本嵌入空间,得到所述文本编码层输出的样本文本特征向量。
[0021]根据本专利技术提供的一种基于视觉语言预训练的图像文本翻译方法,所述将所述样本图像特征向量以及所述样本文本特征向量输入至所述图像文本翻译层的跨语言解码层,得到所述跨语言解码层输出的所述样本预测目标语言文本,包括:
[0022]将所述样本图像特征向量以及所述样本文本特征向量输入至所述跨语言解码层的向量组合层,得到所述向量组合层输出的跨模态向量;
[0023]将所述跨模态向量输入至所述跨语言解码层的跨模态解码层,得到所述跨模态解码输出的所述样本预测目标语言文本。
[0024]根据本专利技术提供的一种基于视觉语言预训练的图像文本翻译方法,所述基于所述样本预测源语言文本与所述样本源语言标签之间的差异,以及所述样本预测目标语言文本与所述样本目标语言标签之间的差异,确定所述图像文本翻译模型的损失值,包括:
[0025]基于所述样本预测源语言文本与所述样本源语言标签之间的差异,确定文字识别解码损失值;
[0026]基于所述样本预测目标语言文本与所述样本目标语言标签之间的差异,确定跨语言解码损失值;
[0027]基于所述文字识别解码损失值,以及所述跨语言解码损失值,确定所述图像文本翻译模型的损失值。
[0028]本专利技术还提供一种基于视觉语言预训练的图像文本翻译装置,包括:
[0029]确定单元,用于确定源语言图像;
[0030]翻译单元,用于将所述源语言图像输入至图像文本翻译模型,得到所述图像文本翻译模型输出的所述源语言图像对应的目标语言文本;
[0031]其中,所述图像文本翻译模型的损失值基于样本预测源语言文本与样本源语言图像对应的样本源语言标签之间的差异,以及样本预测目标语言文本与所述样本目标语言标签之间的差异确定,所述样本预测源语言文本是所述图像文本翻译模型对所述样本源语言图像进行文字识别得到的,所述样本预测目标语言文本是所述图像文本翻译模型基于所述样本源语言图像对应的样本图像特征向量,以及所述样本预测源语言文本对所述样本源语言图像进行图像文本翻译得到的,所述图像文本翻译模型是基于视觉语言预训练模型初始化后得到的。
[0032]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述基于视觉语言预训练的图像文本翻译方法。
[0033]本专利技术还提供一种非暂态计算机可读存储介质本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于视觉语言预训练的图像文本翻译方法,其特征在于,包括:确定源语言图像;将所述源语言图像输入至图像文本翻译模型,得到所述图像文本翻译模型输出的所述源语言图像对应的目标语言文本;其中,所述图像文本翻译模型的损失值基于样本预测源语言文本与样本源语言图像对应的样本源语言标签之间的差异,以及样本预测目标语言文本与所述样本目标语言标签之间的差异确定,所述样本预测源语言文本是所述图像文本翻译模型对所述样本源语言图像进行文字识别得到的,所述样本预测目标语言文本是所述图像文本翻译模型基于所述样本源语言图像对应的样本图像特征向量,以及所述样本预测源语言文本对所述样本源语言图像进行图像文本翻译得到的,所述图像文本翻译模型是基于视觉语言预训练模型初始化后得到的。2.根据权利要求1所述的基于视觉语言预训练的图像文本翻译方法,其特征在于,所述图像文本翻译模型的损失值基于如下步骤确定:将所述样本源语言图像输入至初始图像文本翻译模型的图像编码层,得到所述图像编码层输出的样本图像特征向量;将所述样本图像特征向量输入至所述初始图像文本翻译模型的文字识别解码层,得到所述文字识别解码层输出的所述样本预测源语言文本;将所述样本图像特征向量以及所述样本预测源语言文本输入至所述初始图像文本翻译模型的图像文本翻译层,得到所述图像文本翻译层输出的所述样本预测目标语言文本;基于所述样本预测源语言文本与所述样本源语言标签之间的差异,以及所述样本预测目标语言文本与所述样本目标语言标签之间的差异,确定所述图像文本翻译模型的损失值。3.根据权利要求2所述的基于视觉语言预训练的图像文本翻译方法,其特征在于,所述将所述样本图像特征向量输入至所述初始图像文本翻译模型的文字识别解码层,得到所述文字识别解码层输出的所述样本预测源语言文本,包括:将所述样本源语言图像的位置向量以及所述样本图像特征向量输入至所述文字识别解码层,由所述文字识别解码层基于所述位置向量进行位置注意力计算,以及基于所述样本图像特征向量进行上下文注意力计算,得到所述文字识别解码层输出的所述样本预测源语言文本。4.根据权利要求2所述的基于视觉语言预训练的图像文本翻译方法,其特征在于,所述将所述样本图像特征向量以及所述样本预测源语言文本输入至所述初始图像文本翻译模型的图像文本翻译层,得到所述图像文本翻译层输出的所述样本预测目标语言文本,包括:将所述样本预测源语言文本输入至所述图像文本翻译层的文本编码层,得到所述文本编码层输出的样本文本特征向量;将所述样本图像特征向量以及所述样本文本特征向量输入至所述图像文本翻译层的跨语言解码层,得到所述跨语言解码层输出的所述样本预测目标语言文本。5.根据权利要求4所述的基于视觉语言预训练的图像文本翻译方法,其特征在于,所述将所...

【专利技术属性】
技术研发人员:张亚萍向露刘宇宸周玉宗成庆
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1