端到端文本图像翻译模型训练方法技术

技术编号:33812100 阅读:18 留言:0更新日期:2022-06-16 10:22
本公开提供一种端到端文本图像翻译模型训练方法,包括:对包含源端语言文本的图像及源端语言文本进行预处理,获取预处理后的子图像及文本字符串;对包含源端语言文本的子图像通过图像编码器编码,获取图像特征,对预处理后的文本字符串通过文本编码器编码,获取文本特征;通过序列特征编码器分别对图像特征和所述文本特征进行编码,获取图像序列特征和文本序列特征;基于图像序列特征、文本序列特征,计算不同的损失值;基于不同的损失值,构建损失函数;以及基于损失函数,在通过训练模型进行训练时,更新所述训练模型的参数。本公开还提供一种端到端文本图像翻译模型训练装置、电子设备以及可读存储介质。设备以及可读存储介质。设备以及可读存储介质。

【技术实现步骤摘要】
端到端文本图像翻译模型训练方法


[0001]本公开涉及自然语言处理
,具体涉及一种端到端文本图像翻译模型训练方法。

技术介绍

[0002]文本图像翻译是利用计算机系统自动地将图片或视频中包含的源语言翻译为目标语言。文本图像翻译技术能够快速、有效地帮助人们翻译和理解图片、视频中的文本内容。该技术可以将图像、视频中的一种语言的文本快速地翻译到不同语言,来促进使用不同语言的人们的理解。
[0003]目前常用的文本图像翻译的架构是将文本图像识别系统同机器翻译系统进行系统级联来实现对图片中的源端语言进行翻译。然而系统级联的两个子任务在各自的训练数据集上进行独立训练,导致子任务的训练领域不一致。同时,系统级联在系统部署时,需要部署两个分立的模型,增加了部署的复杂度,且模型存储空间复杂度高,模型解码时间复杂度高。端到端文本图像翻译系统虽然模型空间复杂度小,但是由于缺乏训练数据和模型设计等问题,现阶段的端到端文本图像翻译模型的性能依然较差。此外,现有的研究和应用,没有考虑到文本图像翻译及建模的特点,即具有相同文本内容的文本图像,虽然它们的字体、背景图片、文本方向等不同,但是在文本图像翻译的任务中,这些具有相似文本的文本图像的特征表达应该是相似的。由于文本图像翻译和文本翻译具有对称性,包含相同文本内容的文本图像和纯文本在翻译的编码阶段也应该有相似的特征表达。对应的,具有相似语义的源端语言文本句子在文本翻译编码过程中也应该具有相似的文本特征编码。

技术实现思路

[0004]为了解决上述技术问题中的至少一个,本公开提供了一种端到端文本图像翻译模型训练方法、装置、电子设备及可读存储介质。
[0005]根据本公开的一个方面,提供一种端到端文本图像翻译模型训练方法,包括:
[0006]对包含源端语言文本的图像进行预处理,获取包含源端语言文本的子图像,对所述包含源端语言文本的图像对应的源端语言文本进行预处理,获取预处理后的文本字符串;
[0007]对所述包含源端语言文本的子图像通过图像编码器编码,获取图像特征,对所述预处理后的文本字符串通过文本编码器编码,获取文本特征;
[0008]通过图像序列特征编码器和文本序列特征编码器分别对所述图像特征和所述文本特征进行编码,获取所述图像特征对应的图像序列特征和所述文本特征对应的文本序列特征;
[0009]基于所述图像序列特征、文本序列特征,计算不同的损失值;
[0010]基于所述不同的损失值,构建损失函数;
[0011]基于所述损失函数,在通过训练模型进行训练时,更新所述训练模型的参数。
[0012]根据本公开至少一个实施方式的端到端文本图像翻译模型训练方法,对包含源端语言文本的图像进行预处理,获取包含源端语言文本的子图像,包括:
[0013]通过图像缩放方法对包含源端语言文本的图像进行尺寸调整;
[0014]通过文本检测方法获得图像中的源端语言文本所在的区域位置,并将所在的区域进行图像分割,得到子图像;
[0015]将所述子图像中的文本按照预定方向重新排列。
[0016]根据本公开至少一个实施方式的端到端文本图像翻译模型训练方法,对所述包含源端语言文本的图像对应的源端语言文本进行预处理,获取预处理后的文本字符串,包括:
[0017]对所述包含源端语言文本的图像对应的源端语言文本内包含的标点符号标准化处理;
[0018]对所述包含源端语言文本的图像对应的源端语言文本进行分词;
[0019]对所述分词处理后的词,判断各个词是否属于未登录词,如果属于未登录词,则将未登录的词替换为标记符号;
[0020]其中,所述未登录词指所述源端语言文本中出现的未能与标准语义文本库中匹配的词。
[0021]根据本公开至少一个实施方式的端到端文本图像翻译模型训练方法,通过图像序列特征编码器和文本序列特征编码器分别对所述图像特征和所述文本特征进行编码,获取所述图像特征对应的图像序列特征和所述文本特征对应的文本序列特征,包括:
[0022]判断所述图像序列特征编码器和所述文本序列特征编码器是否同一序列特征编码器;
[0023]如果所述图像序列特征编码器和所述文本序列特征编码器为同一序列特征编码器,则通过特征变换对所述图像特征和文本特征进行处理,以使得所述图像特征和文本特征的隐层维度保持一致;
[0024]如果所述图像序列特征编码器和所述文本序列特征编码器为不同序列特征编码器,则分别将所述图像特征和所述文本特征分别通过所述图像序列特征编码器和所述文本序列特征编码器进行编码,对编码后的图像特征和编码后的文本特征经特征变换处理,以使得所述图像特征和文本特征的隐层维度保持一致。
[0025]根据本公开至少一个实施方式的端到端文本图像翻译模型训练方法,基于所述图像序列特征、文本序列特征,计算不用的损失值,包括:
[0026]基于所述图像序列特征、文本序列特征,计算图像与图像之间的对比损失、文本与文本之间的对比损失、图像与文本之间的对比损失。
[0027]根据本公开至少一个实施方式的端到端文本图像翻译模型训练方法,基于所述图像序列特征、文本序列特征,计算不同的损失值,包括:
[0028]基于所述图像序列特征、文本序列特征,通过解码器进行解码,获得对应的解码的目标端语言,基于所述解码的目标语言计算端到端文本图像翻译损失和端到端文本翻译损失;
[0029]其中,所述端到端文本图像翻译的损失基于图像序列特征解码得到的目标语言和目标语言标准答案进行计算,所述端到端文本翻译的损失基于文本序列特征解码对结果和目标语言标准答案进行计算。
[0030]根据本公开至少一个实施方式的端到端文本图像翻译模型训练方法,基于所述不同的损失值,构建损失函数,包括:
[0031]基于所述不同的损失值,通过加权求和的方法,构建所述损失函数。
[0032]根据本公开的又一个方面,提供一种端到端文本图像翻译模型训练装置,包括:
[0033]预处理模块,对包含源端语言文本的图像通过文本检测和图像分割处理,获取包含源端语言文本的子图像,对所述包含源端语言文本的图像对应的源端语言文本进行预处理,获取预处理后的文本字符串;
[0034]特征获取模块,对所述包含源端语言文本的子图像通过图像编码器编码,获取图像特征,对所述预处理后的文本字符串通过文本编码器编码,获取文本特征;
[0035]序列特征编码模块,通过图像序列特征编码器和文本序列特征编码器分别对所述图像特征和所述文本特征进行编码,获取所述图像特征对应的图像序列特征和所述文本特征对应的文本序列特征;
[0036]损失计算模块,基于所述图像序列特征、文本序列特征,计算不同的损失值;
[0037]损失函数构建模块,基于所述不同的损失值,构建损失函数;
[0038]训练模块,基于所述损失函数,在通过训练模型进行训练时,更新所述训练模型的参数。
[0039]根据本公开本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种端到端文本图像翻译模型训练方法,其特征在于,包括:对包含源端语言文本的图像进行预处理,获取包含源端语言文本的子图像,对所述包含源端语言文本的图像对应的源端语言文本进行预处理,获取预处理后的文本字符串;对所述包含源端语言文本的子图像通过图像编码器编码,获取图像特征,对所述预处理后的文本字符串通过文本编码器编码,获取文本特征;通过图像序列特征编码器和文本序列特征编码器分别对所述图像特征和所述文本特征进行编码,获取所述图像特征对应的图像序列特征和所述文本特征对应的文本序列特征;基于所述图像序列特征、文本序列特征计算不同的损失值;基于所述不同的损失值,构建损失函数;以及基于所述损失函数,在通过训练模型进行训练时,更新所述训练模型的参数。2.根据权利要求1所述的端到端文本图像翻译模型训练方法,其特征在于,对包含源端语言文本的图像进行预处理,获取包含源端语言文本的子图像,包括:通过图像缩放方法对包含源端语言文本的图像进行尺寸调整;通过文本检测方法获得图像中的源端语言文本所在的区域位置,并将所在的区域进行图像分割,得到子图像;以及将所述子图像中的文本按照预定方向重新排列。3.根据权利要求1所述的端到端文本图像翻译模型训练方法,其特征在于,对所述包含源端语言文本的图像对应的源端语言文本进行预处理,获取预处理后的文本字符串,包括:对所述包含源端语言文本的图像对应的源端语言文本内包含的标点符号标准化处理;对所述包含源端语言文本的图像对应的源端语言文本进行分词;以及对所述分词处理后的词,判断各个词是否属于未登录词,如果属于未登录词,则将未登录的词替换为标记符号;其中,所述未登录词指所述源端语言文本中出现的未能与标准词汇库中匹配的词。4.根据权利要求3所述的端到端文本图像翻译模型训练方法,其特征在于,通过图像序列特征编码器和文本序列特征编码器分别对所述图像特征和所述文本特征进行编码,获取所述图像特征对应的图像序列特征和所述文本特征对应的文本序列特征,包括:判断所述图像序列特征编码器和所述文本序列特征编码器是否同一序列特征编码器;如果所述图像序列特征编码器和所述文本序列特征编码器为同一序列特征编码器,则通过特征变换对所述图像特征和文本特征进行处理,以使得所述图像特征和文本特征的隐层维度保持一致;以及如果所述图像序列特征编码器和所述文本序列特征编码器为不同序列特征编码器,则分别将所述图像特征和所述文本特征分别通过所述图像序列特征编码器和所述文本序列...

【专利技术属性】
技术研发人员:周玉马聪
申请(专利权)人:北京中科凡语科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1