【技术实现步骤摘要】
一种基于图像融合的文本识别数据合成方法
本专利技术涉及光学字符识别领域的相关问题,具体涉及一种基于图像融合的文本识别数据合成方法。
技术介绍
文本识别领域主要有两种方法:基于传统算法的文本识别方法与基于深度学习的文本方法。基于深度学习的文本识别方法无论是准确率还是鲁棒性都大大优于基于传统算法的文本识别方法。但前者的准确率非常依赖于大批量的训练样本,而仅仅通过人工标注数据来获得训练样本是不够的,因为文本识别需要的数据至少是百万级别的,完全靠人为标注是不现实的。另外文本识别对训练样本的丰富性要求很高,而目前的一般文本数据合成方法都是在纯色背景图像上直接嵌入文字,字体、颜色、背景等都与真实图片差异很大,导致合成出来的图像不逼真。
技术实现思路
本专利技术克服了现有技术的不足之处,提供一种基于图像融合的文本识别合成方法,以期能够使用真实场景的背景、字体与颜色来来合成海量逼真的文本图像数据,从而提升文本识别模型的准确率与鲁棒性。本专利技术为达到上述专利技术目的,采用如下技术方案:本专利技术一种基于图像融合的文本识别数据合成方法的特点在于,包括以下步骤:步骤1:收集包含文字的文本图片,建立文本图片库;步骤2:构建动态字符实例分割网络DynamicNet,包括:特征提取模块Backbone,特征融合模块FM,字符位置预测模块DM,动态字符实例预测模块CM;所述特征提取模块Backbone,包含:4n个卷积层,n个最大池化层;所述特征融合模块FM,包含4个卷 ...
【技术保护点】
1.一种基于图像融合的文本识别数据合成方法,其特征在于,包括以下步骤:/n步骤1:收集包含文字的文本图片,建立文本图片库;/n步骤2:构建动态字符实例分割网络Dynamic Net,包括:特征提取模块Backbone,特征融合模块FM,字符位置预测模块DM,动态字符实例预测模块CM;/n所述特征提取模块Backbone,包含:4n个卷积层,n个最大池化层;/n所述特征融合模块FM,包含4个卷积层,4个上采样层;/n所述字符位置预测模块DM,包含2个卷积层;/n所述动态字符实例预测模块CM,包含M个卷积层;/n步骤3:将文本图片库中的每一张文本图片均输入动态字符实例分割网络Dynamic Net中进行预测,得到对应的实例分割结果;/n步骤3.1:将一张文本图片X送入特征提取模块Backbone中,每经过n层卷积后再经过一个最大池化层的下采样处理,从而经过4n个卷积层以及n个最大池化层处理后,得到四组特征图F
【技术特征摘要】
1.一种基于图像融合的文本识别数据合成方法,其特征在于,包括以下步骤:
步骤1:收集包含文字的文本图片,建立文本图片库;
步骤2:构建动态字符实例分割网络DynamicNet,包括:特征提取模块Backbone,特征融合模块FM,字符位置预测模块DM,动态字符实例预测模块CM;
所述特征提取模块Backbone,包含:4n个卷积层,n个最大池化层;
所述特征融合模块FM,包含4个卷积层,4个上采样层;
所述字符位置预测模块DM,包含2个卷积层;
所述动态字符实例预测模块CM,包含M个卷积层;
步骤3:将文本图片库中的每一张文本图片均输入动态字符实例分割网络DynamicNet中进行预测,得到对应的实例分割结果;
步骤3.1:将一张文本图片X送入特征提取模块Backbone中,每经过n层卷积后再经过一个最大池化层的下采样处理,从而经过4n个卷积层以及n个最大池化层处理后,得到四组特征图F1、F2、F3、F4,尺寸分别为其中,H和W是背景图片X的高与宽;
步骤3.2:将四组特征图F1、F2、F3、F4送入特征融合模块FM中,从而利用式(1)-式(5)进行特征融合,得到多种尺度的融合特征Ffuse:
Ffuse=Conv(F1up)(1)
式(1)中:Conv表示卷积层操作,F1up表示第二组特征图F2与第一组特征图F1的融合特征,并有:
式(2)中:Up表示上采样层操作;表示第三组特征图F3与第二组特征图F2的融合特征,并有:
式(3)中:表示第三组特征图F3与第四组特征图F4的融合特征,并有:
式(4)中:表示对第四组特征图F4进行上采样之后的特征,并有:
步骤3.3:将融合特征Ffuse送入字符...
【专利技术属性】
技术研发人员:汪增福,吴仕莲,
申请(专利权)人:中国科学院合肥物质科学研究院,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。