一种通过预训练弥合模态差异的端到端图片翻译方法技术

技术编号：39134433 阅读：8 留言：0更新日期：2023-10-23 14:52

本发明专利技术的目的是提供一种通过预训练弥合模态差异的端到端图片翻译方法，所述方法分为两个阶段，第一阶段是文本翻译预训练，第二阶段为图片翻译预训练；所述文本翻译预训练，使用大规模双语数据训练一个基于Transformer结构的编码器

全部详细技术资料下载

【技术实现步骤摘要】
一种通过预训练弥合模态差异的端到端图片翻译方法

[0001]本专利技术涉及图片翻译
，具体涉及一种通过预训练弥合模态差异的端到端图片翻译方法。

技术介绍

[0002]随着跨境电商的兴起，对于宣传广告、视频中广告语等文字的翻译需求越来越大。当前的图片翻译主要以光学字符识别(OCR)与机器翻译(MT)两个系统进行级联从而对图片中的文字进行识别、翻译。具体而言，OCR系统会对图片中的文字区域进行文本检测，从而确定需要进行翻译的图片位置，将该位置的图片进行截取之后，输入到文本识别模型中进行识别。常见的文本识别模型包括CRNN模型，能够提取图片中的序列信息进行文字识别。得到文字之后，级联系统将文字输入到机器翻译系统中进行翻译，得到最终的目标语言文本，实现图片翻译的需求。
[0003]虽然级联系统能够满足图片翻译的需求，但这种级联系统需要依次输入到两个系统中进行推理，在这个过程中容易产生误差传递，一旦OCR系统的识别发生错误，机器翻译系统无法进行校正。此外，级联系统中的两个子系统具有不同的优化目标，分别进行训练，这会导致性能的次优性。最后，级联系统的速度较慢，对于大规模的图片翻译需求而言成本更高。

技术实现思路

[0004]本专利技术的目的是提供一种通过预训练弥合模态差异的端到端图片翻译方法，以提高图片翻译的性能。
[0005]为实现本专利技术的目的，本专利技术提供的技术方案如下：
[0006]一种通过预训练弥合模态差异的端到端图片翻译方法，所述方法分为两个阶段，第一阶段是文本翻译预...

【技术保护点】

【技术特征摘要】
1.一种通过预训练弥合模态差异的端到端图片翻译方法，其特征在于，所述方法分为两个阶段，第一阶段是文本翻译预训练，第二阶段为图片翻译预训练；所述文本翻译预训练，使用大规模双语数据训练一个基于Transformer结构的编码器
‑
解码器翻译模型；所述图片翻译预训练，图片翻译模型使用中编码器
‑
解码器翻译模型作为初始化，然后为模型配置一个视觉编码器，视觉编码器由CRNN结构构成，能够有效提取图片中的序列信息，并形成序列向量输入共享编码器中；共享编码器能够同时接受视觉序列信息与文本序列信息，需要在共享编码器中促进相同语义的图片和文字的表示进行对...

【专利技术属性】
技术研发人员：熊德意，朱少林，李上杰，雷易锟，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人