一种文本图像合成和实例化权重的迁移学习方法技术

技术编号:37797212 阅读:18 留言:0更新日期:2023-06-09 09:27
本发明专利技术提供了一种文本图像合成和实例化权重的迁移学习方法,通过一系列合成策略以生成适合真实文本图像的合成数据,在长度和字符上提供两种文本选择方法,解决了合成数据集文本分布的偏差;通过提供文本合成策略,使合成的文本图像能够更加贴近现实世界图像;通过提出实例化权重的方法连接合成样本不同域的分布,并学习马氏距离,减少了合成样本和真实样本间差异,实现了生成困难场景下STR的合成数据的功能,解决了文本框图像中文本外观的逼真性和多样性,缓解了来自真实世界的注释文本图像的缺乏。本发明专利技术还提出了多种渲染策略,以合成真实的合成数据;针对合成数据迁移间差异问题提出了基于实例化的迁移方法训练识别模型。题提出了基于实例化的迁移方法训练识别模型。题提出了基于实例化的迁移方法训练识别模型。

【技术实现步骤摘要】
一种文本图像合成和实例化权重的迁移学习方法


[0001]本专利技术属于文本识别和迁移学习
,具体涉及一种文本图像合成和实例化权重的迁移学习方法。

技术介绍

[0002]光学字符识别(OCR)是一种从文本图像中提取机器编码文本的技术。它是视觉理解的基本功能,并已用于多种实际应用,如自动车牌识别、商业文档识别和护照识别。在深度学习时代,通过从由图像和文本对组成的大规模数据中学习,OCR性能得到了显著提高。通常,OCR使用由合成文本图像组成的大规模数据,因为几乎不可能手动收集和注释真实文本图像,这些图像涵盖了文本长度、形状和背景等多种特征的指数组合。
[0003]自然场景OCR包括两个子任务,场景文本检测(STD)和场景文本识别(STR)。它们需要相似但不同的训练数据,STD需要的是自然场景的文本图像,而STR需要的是在此基础上截取的文本包围框图像。
[0004]由于STD必须从背景中定位文本区域,因此其训练示例是包含多个文本的原始场景或文档快照。相反,STR从包含单个单词或一行单词的单词框图像补丁中识别字符序列,需要大量的综合例子来涵盖现实世界中可能存在的风格和文本的多样性。然而手动标注大量文本框数据是几乎不可能的,必须要使用文本合成技术合成与真实世界图像相近的样本图像。
[0005]目前,有几种场景文本识别合成算法已经证明是有益的,特别是仅对合成数据进行训练已成为广泛接受的标准实践。但在一些具有挑战的自然场景情况下,例如图片严重模糊、文字变形、文本图片前景与背景相似等,常用的合成算法效果就不尽人意。现有主要的合成方法是基于GAN模型分别获取文本图像的背景图像和文本风格,然后用目标文本替换文本融合成合成的文本图像。当现有方法用于针对一些具有挑战性的文本图像时,很难提取前景和背景信息,合成的样本之间存在较大的差异。

技术实现思路

[0006]本专利技术要解决的技术问题是:提供一种文本图像合成和实例化权重的迁移学习方法,用于生成困难场景下STR的合成数据。
[0007]本专利技术为解决上述技术问题所采取的技术方案为:一种文本图像合成和实例化权重的迁移学习方法,包括以下步骤:
[0008]S1:使用包括文本长度增强和字符分布增强的文本筛选策略选择待合成的目标文本;
[0009]S2:使用包括转换、真实数据混合、背景随机裁剪、融合和后处理的文本合成策略生成合成样本,构成合成文本图像数据集;
[0010]S3:将实例化权重方法加入到CRNN识别算法中,具体步骤为:
[0011]S31:将步骤S2得到的合成文本图像数据集作为源域,赋以实例化权重后加入CRNN
识别算法,使用马氏距离度量目标域;
[0012]S32:采用统一的框架同时学习源域数据的实例权重ω、目标域间的马氏距离度量A和目标域的最终预测模型f;设正则化项r(A)是根据A控制度量的泛化误差,ψ(ω)为合成样本域实例化权重的正则化项,λ>0和β>0为影响目标的平衡参数,为损失函数,D
S
为源域标签数据,为目标学习域,则统一框架为:
[0013][0014]S4:输入合成文本图像数据集,使用步骤S3得到的CRNN识别算法进行迭代训练更新实例化权重,得到最优的识别模型;
[0015]S5:向步骤S4得到的模型输入待识别的文本图像,通过模型推理得到图片中文本的识别结果。
[0016]按上述方案,所述的步骤S1中,具体步骤为:
[0017]S11:执行文本长度分布增强,使用预设概率随机选择1到预设最大值之间的目标文本长度;
[0018]从词典中随机抽取一个单词:
[0019]如果单词长度与目标文本长度匹配,则将其用作目标文本;
[0020]如果单词长度大于目标文本长度,则删除最右侧的多余字符;
[0021]如果单词长度小于目标文本长度,则采样一个新单词,并将新单词附加到前一个单词的右侧,直到连接的单词长度匹配或大于目标文本长度,再删除最右侧的多余字符;
[0022]S12:执行字符分布增强,使用与步骤S11相同的概率从特殊词汇表中随机选择一个字符,并对具有该字符的单词进行采样。
[0023]按上述方案,所述的步骤S2中,具体步骤为:
[0024]S21:转换是通过多种变换策略反映自然场景中文本图像的各种特征;变换策略包括拉伸、倾斜和旋转;
[0025]S22:真实数据混合是随机从字典中选取文本生成文本噪声,并加入到合成图像中,以反映自然场景噪声文本特征;
[0026]S23:背景随机裁剪是从真实场景图片中随机裁剪文本图像作为背景图像;
[0027]S24:融合是对包括目标文本的前景图像和包含噪声文本的背景图像采取各种随机参数进行融合得到合成图像;融合方法包括普通、相乘、屏幕、叠加、硬光、柔光、减淡、分割、添加、差异、仅变暗和仅变亮;
[0028]S25:后处理是对合成图像进行后处理操作;后处理操作包括高斯噪声、高斯模糊、调整大小、中值模糊和JPEG压缩。
[0029]按上述方案,所述的步骤S32中,具体步骤为:
[0030]设x
j
∈R
d
×1为输入特征向量,y
j
∈R为相应的输出特征向量,则源域标签数据即合成样本数据为:
[0031]D
S
={(x
j
,y
j
)|j=1,...,N
S
};
[0032]设目标域中的数据为:
[0033][0034][0035]设M∈R
d
×
d
是正半定矩阵,定义目标域中的一对实例x
i
和实例x
j
之间的马氏距离为:
[0036][0037]设目标域间的马氏距离度量A∈R
d
×
d
为自适应的矩阵,则正半定矩阵M被分解为M=A
T
A,因此需要学习自适应的矩阵A;
[0038]根据A控制度量的泛化误差的正则化项r(A)为:
[0039]r(A)=tr(A
T
A);
[0040]合成样本域实例化权重的正则化项ψ(ω)为:
[0041]ψ(ω)=||ω

ω0||2;
[0042]设实例化权重是使用欧几里得度量下目标域与源域中实例x
i
的密度比;P
T
(x
i
)越大或者P
S
(x
i
)越小,实例x
i
的密度比越大,表示x
i
更接近于目标域分布而不是源域分布,通过学习自适应的实例化权重使目标域与源域的差异减小;
[0043]设高斯核函数为预定义的基函数φ
j
,α
j
为待学习的参数,则评估由基本函数线性组合近似表示的权重ω0为:...

【技术保护点】

【技术特征摘要】
1.一种文本图像合成和实例化权重的迁移学习方法,其特征在于:包括以下步骤:S1:使用包括文本长度增强和字符分布增强的文本筛选策略选择待合成的目标文本;S2:使用包括转换、真实数据混合、背景随机裁剪、融合和后处理的文本合成策略生成合成样本,构成合成文本图像数据集;S3:将实例化权重方法加入到CRNN识别算法中,具体步骤为:S31:将步骤S2得到的合成文本图像数据集作为源域,赋以实例化权重后加入CRNN识别算法,使用马氏距离度量目标域;S32:采用统一的框架同时学习源域数据的实例权重ω、目标域间的马氏距离度量A和目标域的最终预测模型f;设正则化项r(A)是根据A控制度量的泛化误差,ψ(ω)为合成样本域实例化权重的正则化项,λ>0和β>0为影响目标的平衡参数,为损失函数,D
S
为源域标签数据,为目标学习域,则统一框架为:S4:输入合成文本图像数据集,使用步骤S3得到的CRNN识别算法进行迭代训练更新实例化权重,得到最优的识别模型;S5:向步骤S4得到的模型输入待识别的文本图像,通过模型推理得到图片中文本的识别结果。2.根据权利要求1所述的一种文本图像合成和实例化权重的迁移学习方法,其特征在于:所述的步骤S1中,具体步骤为:S11:执行文本长度分布增强,使用预设概率随机选择1到预设最大值之间的目标文本长度;从词典中随机抽取一个单词:如果单词长度与目标文本长度匹配,则将其用作目标文本;如果单词长度大于目标文本长度,则删除最右侧的多余字符;如果单词长度小于目标文本长度,则采样一个新单词,并将新单词附加到前一个单词的右侧,直到连接的单词长度匹配或大于目标文本长度,再删除最右侧的多余字符;S12:执行字符分布增强,使用与步骤S11相同的概率从特殊词汇表中随机选择一个字符,并对具有该字符的单词进行采样。3.根据权利要求1所述的一种文本图像合成和实例化权重的迁移学习方法,其特征在于:所述的步骤S2中,具体步骤为:S21:转换是通过多种变换策略反映自然场景中文本图像的各种特征;变换策略包括拉伸、倾斜和旋转;S22:真实数据混合是随机从字典中选取文本生成文本噪声,并加入到合成图像中,以反映自然场景噪声文本特征;S23:背景随机裁剪是从真实场景图片中随机裁剪文本图像作为背景图像;S24:融合是对包括目标文本的前景图像和包含噪声文本的背景图像采取各种随机参数进行融合得到合成图像;融合方法包括普通、相乘、屏幕、叠加、硬光、柔光、减淡、分割、添加、差异、仅变暗和仅变亮;
S25:后处理是对合成图像进行后处理操作;后处理操作包括高斯噪声、高斯模糊、调整大小、中值模糊和JPEG压缩。4.根据权利要求1所述的一种文...

【专利技术属性】
技术研发人员:鲁统伟刘思洋卢涛
申请(专利权)人:武汉工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1