一种基于图像融合的文本识别数据合成方法技术

技术编号:28840156 阅读:38 留言:0更新日期:2021-06-11 23:38
本发明专利技术公开了一种基于图像融合的文本识别数据合成方法,其步骤包括:首先收集包含文字的文本行图片,建立文本图片库;接着构建动态字符实例分割网络,并对文本图片库的每一张图片都进行预测,得到每一个字符的掩膜与去除字符之后的背景图片;最后根据字符掩膜与背景图片来合成新的文本行图片。本发明专利技术能快速合成海量的逼真文本图像,并解决文本识别领域训练数据匮乏的问题,从而提升文本识别模型的准确率与鲁棒性。

【技术实现步骤摘要】
一种基于图像融合的文本识别数据合成方法
本专利技术涉及光学字符识别领域的相关问题,具体涉及一种基于图像融合的文本识别数据合成方法。
技术介绍
文本识别领域主要有两种方法:基于传统算法的文本识别方法与基于深度学习的文本方法。基于深度学习的文本识别方法无论是准确率还是鲁棒性都大大优于基于传统算法的文本识别方法。但前者的准确率非常依赖于大批量的训练样本,而仅仅通过人工标注数据来获得训练样本是不够的,因为文本识别需要的数据至少是百万级别的,完全靠人为标注是不现实的。另外文本识别对训练样本的丰富性要求很高,而目前的一般文本数据合成方法都是在纯色背景图像上直接嵌入文字,字体、颜色、背景等都与真实图片差异很大,导致合成出来的图像不逼真。
技术实现思路
本专利技术克服了现有技术的不足之处,提供一种基于图像融合的文本识别合成方法,以期能够使用真实场景的背景、字体与颜色来来合成海量逼真的文本图像数据,从而提升文本识别模型的准确率与鲁棒性。本专利技术为达到上述专利技术目的,采用如下技术方案:本专利技术一种基于图像融合的文本识别数据合成方法的特点在于,包括以下步骤:步骤1:收集包含文字的文本图片,建立文本图片库;步骤2:构建动态字符实例分割网络DynamicNet,包括:特征提取模块Backbone,特征融合模块FM,字符位置预测模块DM,动态字符实例预测模块CM;所述特征提取模块Backbone,包含:4n个卷积层,n个最大池化层;所述特征融合模块FM,包含4个卷积层,4个上采样层;所述字符位置预测模块DM,包含2个卷积层;所述动态字符实例预测模块CM,包含M个卷积层;步骤3:将文本图片库中的每一张文本图片均输入动态字符实例分割网络DynamicNet中进行预测,得到对应的实例分割结果;步骤3.1:将一张文本图片X送入特征提取模块Backbone中,每经过n层卷积后再经过一个最大池化层的下采样处理,从而经过4n个卷积层以及n个最大池化层处理后,得到四组特征图F1、F2、F3、F4,尺寸分别为其中,H和W是背景图片X的高与宽;步骤3.2:将四组特征图F1、F2、F3、F4送入特征融合模块FM中,从而利用式(1)-式(5)进行特征融合,得到多种尺度的融合特征Ffuse:Ffuse=Conv(F1up)(1)式(1)中:Conv表示卷积层操作,F1up表示第二组特征图F2与第一组特征图F1的融合特征,并有:F1up=Up(F2up)+Conv(F1)(2)式(2)中:Up表示上采样层操作;F2up表示第三组特征图F3与第二组特征图F2的融合特征,并有:F2up=Up(F3up)+Conv(F2)(3)式(3)中:F3up表示第三组特征图F3与第四组特征图F4的融合特征,并有:F3up=F4up+Conv(F3)(4)式(4)中:F4up表示对第四组特征图F4进行上采样之后的特征,并有:F4up=Up(F4)(5)步骤3.3:将融合特征Ffuse送入字符位置预测模块DM中,从而利用式(6)-式(7)进行预测,分别得到一张文本图片X的字符中心预测图heatmapX和字符宽高预测结果whX:heatmapX=Convheat(Ffuse)(6)whX=Convwh(Ffuse)(7)式(6)-式(7)中;Convheat表示得到字符中心预测的卷积操作,其卷积核输出通道数为1,表示预测为中心点的置信度,Convwh表示得到字符宽高预测的卷积操作,其卷积核输出通道数为2,分别表示宽度与高度;步骤3.4:将融合特征Ffuse送入动态字符实例预测模块CM中,从而利用式(8)进行处理,得到一张文本图片X的字符实例分割预测结果maskX:式(8)中:表示用预测得到的动态卷积参数θX来进行卷积,并有:θX=ConvM(Ffuse)(9)式(9)中:ConvM表示M次卷积操作;步骤4:根据步骤3的结果处理文本图片X,得到每一个字符的掩膜与去除字符后的背景;步骤4.1:设置阈值thresh,并对字符中心预测图heatmapX进行处理:只保留大于阈值thresh的区域,从而得到每一个字符的中心位置,将中心位置与字符宽高预测结果whX进行结合,得到每一个字符的外接矩形;在字符实例分割预测结果maskX中选择每一个字符的中心位置对应的结果,从而得到每个字符的掩膜;步骤4.2:将每一个字符通过外接矩形裁剪出来,并与对应的掩膜作“与”处理,得到只包含文字信息的前景图片;根据每个字符的掩膜,通过快速步进算法对文本图片X进行处理,得到去除文字之后的纯背景图片;步骤5:合成文本图片:将所有前景字符图片的顺序打乱,并对每个前景字符图随机作几何变换处理后绘制在一起,从而得到前景文字图片;将前景文字图片与纯背景图片进行泊松融合,得到最终的合成文本图片。与现有技术相比,本专利技术的有益效果在于:1、本专利技术通过在在真实背景图像上嵌入文字,可以快速合成海量逼真的数据,这些数据可以代替人工标注的数据来训练文本识别网络,大大减少了人工标注的人力物力,并且可以增加文本识别网络的准确率与鲁棒性。2、本专利技术可以提取出真实文本图片的背景与文字,因此嵌入的文字能与背景图像较为和谐的融合在一起,从而大大提高了合成图像的真实性。3、本专利技术提出的数据合成方法可以保证每一类文字的频率较为均衡,解决了真实数据类别不均衡的问题,也因此可以提高网络对那些出现频率较低的文字的识别率。附图说明图1是本专利技术基于图像融合的文本识别数据合成方法的使用流程图;图2是本专利技术基于基于图像融合的文本识别数据合成方法的网络结构图。具体实施方式本实施例中,如图1所示,一种基于图像融合的文本识别数据成方法,其特征在于,包括以下步骤:步骤1:收集包含文字的文本行图片,建立文本图片库;步骤2:构建动态字符实例分割网络DynamicNet,包括:特征提取模块Backbone,特征融合模块FM,字符位置预测模块DM,动态字符实例预测模块CM;特征提取模块Backbone,包含:4n个卷积层,n个最大池化层;特征融合模块FM,包含4个卷积层,4个上采样层;字符位置预测模块DM,包含2个卷积层;动态字符实例预测模块CM,包含M个卷积层步骤3:将文本图片库中的每一张文本图片均输入动态字符实例分割网络DynamicNet中进行预测,如图2所示,得到对应的实例分割结果;步骤3.1:将一张文本图片X送入特征提取模块Backbone中,每经过n层卷积后再经过一个最大池化层的下采样处理,从而经过4n个卷积层以及n个最大池化层处理后,得到四组特征图F1、F2、F3、F4,尺寸分别为其中,H和W是背景图片X的高与宽;步骤3.2:将四组特征图F1、F2、F3、F4送入特征融合模块本文档来自技高网...

【技术保护点】
1.一种基于图像融合的文本识别数据合成方法,其特征在于,包括以下步骤:/n步骤1:收集包含文字的文本图片,建立文本图片库;/n步骤2:构建动态字符实例分割网络Dynamic Net,包括:特征提取模块Backbone,特征融合模块FM,字符位置预测模块DM,动态字符实例预测模块CM;/n所述特征提取模块Backbone,包含:4n个卷积层,n个最大池化层;/n所述特征融合模块FM,包含4个卷积层,4个上采样层;/n所述字符位置预测模块DM,包含2个卷积层;/n所述动态字符实例预测模块CM,包含M个卷积层;/n步骤3:将文本图片库中的每一张文本图片均输入动态字符实例分割网络Dynamic Net中进行预测,得到对应的实例分割结果;/n步骤3.1:将一张文本图片X送入特征提取模块Backbone中,每经过n层卷积后再经过一个最大池化层的下采样处理,从而经过4n个卷积层以及n个最大池化层处理后,得到四组特征图F

【技术特征摘要】
1.一种基于图像融合的文本识别数据合成方法,其特征在于,包括以下步骤:
步骤1:收集包含文字的文本图片,建立文本图片库;
步骤2:构建动态字符实例分割网络DynamicNet,包括:特征提取模块Backbone,特征融合模块FM,字符位置预测模块DM,动态字符实例预测模块CM;
所述特征提取模块Backbone,包含:4n个卷积层,n个最大池化层;
所述特征融合模块FM,包含4个卷积层,4个上采样层;
所述字符位置预测模块DM,包含2个卷积层;
所述动态字符实例预测模块CM,包含M个卷积层;
步骤3:将文本图片库中的每一张文本图片均输入动态字符实例分割网络DynamicNet中进行预测,得到对应的实例分割结果;
步骤3.1:将一张文本图片X送入特征提取模块Backbone中,每经过n层卷积后再经过一个最大池化层的下采样处理,从而经过4n个卷积层以及n个最大池化层处理后,得到四组特征图F1、F2、F3、F4,尺寸分别为其中,H和W是背景图片X的高与宽;
步骤3.2:将四组特征图F1、F2、F3、F4送入特征融合模块FM中,从而利用式(1)-式(5)进行特征融合,得到多种尺度的融合特征Ffuse:
Ffuse=Conv(F1up)(1)
式(1)中:Conv表示卷积层操作,F1up表示第二组特征图F2与第一组特征图F1的融合特征,并有:



式(2)中:Up表示上采样层操作;表示第三组特征图F3与第二组特征图F2的融合特征,并有:



式(3)中:表示第三组特征图F3与第四组特征图F4的融合特征,并有:



式(4)中:表示对第四组特征图F4进行上采样之后的特征,并有:



步骤3.3:将融合特征Ffuse送入字符...

【专利技术属性】
技术研发人员:汪增福吴仕莲
申请(专利权)人:中国科学院合肥物质科学研究院
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1