本发明专利技术属于图像处理技术领域,具体涉及一种基于边缘特征增强的任意形状文本检测方法,主要解决了现有基于深度学习文本检测方法对于文本对象检测不准确的问题。本发明专利技术将现有基于深度学习的文本检测方法作为文本检测分支,首先增添文本边缘区域检测分支从而提高模型对文本边缘区域的检测能力,然后通过浅层特征增强模块使得模型能够更多地提取到与边缘区域相关地浅层特征,最后,模型通过分支特征融合模块通过注意力机制突出两个检测分支的特征中的相关特征,并在进行融合后对两个检测分支进行调整。本发明专利技术的优点在于通过增强模型对于文本边缘相关特征的提取,提高了文本检测的精度。精度。精度。
【技术实现步骤摘要】
基于边缘特征增强的任意形状文本检测方法
[0001]本专利技术涉及图像处理
,尤其涉及任意场景的一种基于边缘特征增强的任意形状文本检测方法。
技术介绍
[0002]传统场景文本检测方法主要使用了文本区域的形状、边缘等特征对文本区域进行检测,而相较于传统的检测方法,基于深度学习的检测方法能够提取到与文本对象更相关、更深层的特征,尤其是多尺度的复杂特征,由于场景文本检测的精度与文本区域的特征提取密切相关,基于深度学习的检测方法往往能够得到更高的文本检测精度。
[0003]自然场景中的文本对象通常具有不同的形状,在对文本对象的检测过程中,准确地检测任意形状文本是提高文本检测精度的关键。因此,在基于回归和基于分割的两种文本检测方法的基础上,很多研究工作对于任意形状文本对象检测的方法进行相应改进。在基于回归的检测方法方面,相关研究通常对于所回归的文本包围框进行改进,一个常见的方法是改进文本包围框的表示方式,另一种方法是根据文本区域特征对初步得到的文本框使用子网络进行调整;而在基于语义分割的检测方法方面,主要通过在进行分割时增加不同类别像素之间(各文本实例像元之间以及文本实例像元同背景像元之间)的区分度以提高文本区域检测的精度,其中一种改进方法通过在已分割的文本实例核心区域基础上逐步扩张区分度高的像元或区域以获得准确的文本实例,一些方法将像元特征嵌入到一个新的空间以增加实例像元的内聚性。
[0004]在基于深度学习的模型中,目标边缘信息的提取与像元特征的提取通常是密切相关的,对目标边缘信息的关注往往能够帮助模型提取出更易于检测边缘区域的像元特征。同时,文本区域的边缘检测结果与骨干网络获取的像元特征影响着文本检测精度。因此,在基于深度学习的文本检测方法中通过引入更多边缘信息的方式可以更好地从原始图像中提取同文本边界相关的像元特征,从而增加不同文本实例之间以及文本实例同背景之间的区分度,并进一步提高任意文本区域的检测精度。
[0005]本专利技术为进一步提高任意形状场景文本检测的精度,提出了基于边缘特征增强的任意形状文本检测方法。
技术实现思路
[0006]本专利技术提供了一种基于边缘特征增强的任意形状文本检测方法,通过在特征提取过程中对边缘特征进行增强以提升场景文本检测的精度。
[0007]本专利技术的具体技术方案包含以下步骤:
[0008]步骤A:获取所包含文本对象边界框标记的图像集合作为训练样本集,并对训练样本集中的每一幅图像进行预处理;
[0009]步骤B:利用基于残差网络的深度学习模型对步骤A所述训练样本进行训练,得到训练好的文本检测学习模型;
[0010]步骤C:对没有标记的训练集图像,根据步骤B所述的训练好的学习模型对其进行预测,得到文本区域分割图以及内核区域分割图,并使用PSE算法通过渐进扩张的方式得到最终的文本区域预测结果。
[0011]步骤A所述的对训练样本集中的每一幅图像进行预处理,具体为:
[0012]步骤A1、使用多边形裁剪算法得到原文本区域标记的收缩文本框和扩张文本框;
[0013]步骤A2、根据原文本框标记得到完整文本区域标记分割图,根据收缩的边界框得到内核区域标记分割图,根据收缩文本框和扩张文本框得到文本边缘区域标记分割图;
[0014]步骤A3、将训练样本中的图像随机剪切成640
×
640像元固定大小的图像,之后在水平方向进行随机翻转并进行随机缩放和随机选择,并进行归一化处理;
[0015]步骤B所述基于残差网络(ResNet)的深度学习模型具体为:
[0016]步骤B1、将所述步骤A中预处理过的样本图像作为ResNet的输入,得到ResNet特征图F
R
,并使用特征金字塔(FPN)进行初步的特征融合得到特征F
f1
;
[0017]步骤B2、浅层特征增强模块首先使用卷积处理特征F
f1
获取各像元在更大尺度上的深层特征F
h
,将深层特征F
h
从融合后的特征F
f1
中以相减的方式剥离得到尽可能保留更多浅层信息的特征F
l
。随后,将特征F
l
同FPN最高分辨率的特征F
P2
进行拼接和卷积以增强浅层特征得到特征F
le
。最后将特征F
le
与特征F
h
逐像元相加作为后续文本检测的图像特征F
e
;
[0018]步骤B3、将特征F
e
通过不同的卷积处理以构建面向文本实例与其边缘的特征,得到文本区域特征F
t
和文本边缘区域特征F
b
。为了突出最具有代表性的特征并抑制无关特征,分别对特征F
t
和F
b
使用注意力机制模块处理以对不同特征赋予不同的权重,其中权重的获取是通过SE(Squeeze and Extract)通道注意模块完成。经过注意力机制处理的特性F
t
和F
b
再通过拼接和两次卷积后进行融合以得到同时包含两者信息的混合特征F
m
;
[0019]步骤B4、在完整文本实例检测分支中,首先根据特征F
t
使用先卷积后激活的方法得到文本实例区域分割结果。随后采用自适应二值化方法过滤初始分割结果中被错误分割的像元。其中首先使用特征F
m
得到逐项元调整阈值T,然后再使用二值化方法将初始分割结果和阈值T进行融合从而得到最终的文本实例区域分割结果,具体公式为:其中B为文本分割图,T为文本阈值;
[0020]步骤B5、在文本实例边缘检测分支中,首先根据特征F
b
使用先卷积后激活的方法获得初始边缘区域分割结果。随后在初始分割结果基础上融合了混合特征信息以及部分文本实例区域初始分割结果信息。对于混合特征信息也采用了先卷积后激活的方法得到每个像元归属于边缘区域的概率信息。对于文本实例区域初始分割结果则采用RPCNet中的方法,从计算空间梯度的方式从文本实例区域初始分割结果中得到边缘信息,具体公式为:其中σ是激活函数,pool
3*3
为内核大小为3的自适应平均池化操作,M为Text Map。最后将三个信息进行拼接、卷积和激活后得到最终的文本边缘预测结果;
[0021]步骤B6、为解决训练过程中存在着正负样本不均衡问题,首先使用OHEM方法根据正负样本比例将分割结果和实际标签进行掩膜处理,得到掩膜后的结果为S和G,再使Dice损失函数计算损失,具体公式为:其中S
x,y
和G
x,y
分为分割
结果和实际标签掩膜后的像素值。
[0022]步骤C所述的渐进扩展算法:
[0023]步骤C1、对最小尺度的内核分割图S1求连通区域得到不同文本实例的核心区域;
[0024]步骤C2、在S1各核心区域的基础上合并本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于边缘特征增强的任意形状文本检测方法,其特征在于,所述方法包括以下3个步骤:步骤A:获取所包含文本对象边界框标记的图像集合作为训练样本集,并对训练样本集中的每一幅图像进行预处理;步骤B:利用基于残差网络的深度学习模型对步骤A所述训练样本进行训练,得到训练好的文本检测学习模型;步骤C:对没有标记的训练集图像,根据步骤B所述的训练好的学习模型对其进行预测,得到文本区域分割图以及内核区域分割图,并使用PSE算法通过渐进扩张的方式得到最终的文本区域预测结果。2.根据权利要求1所述的基于边缘特征增强的任意形状文本检测方法,其特征在于,步骤A所述的对训练样本集中的每一幅图像进行预处理,具体为:步骤A1、使用多边形裁剪算法得到原文本区域标记的收缩文本框和扩张文本框;步骤A2、根据原标记文本框得到完整文本区域标记分割图,根据收缩的边界框得到内核区域标记分割图,根据收缩文本框和扩张文本框得到文本边缘区域标记分割图;步骤A3、将训练样本中的图像随机剪切成640
×
640像元固定大小的图像,之后在水平方向进行随机翻转并进行随机缩放和随机选择,并进行归一化处理。3.根据权利要求1所述的基于边缘特征增强的任意形状文本检测方法,其特征在于,步骤B所述基于残差网络(ResNet)的深度学习模型具体为:步骤B1、将所述步骤A中预处理过的样本图像作为ResNet的输入,得到ResNet特征图F
R
,并使用特征金字塔(FPN)进行初步的特征融合得到特征F
f1
;步骤B2、浅层特征增强模块首先使用卷积处理特征F
o
获取各像元在更大尺度上的深层特征F
h
,将深层特征F
h
从融合后的特征F
f1
中以相减的方式剥离得到尽可能保留更多浅层信息的特征F
l
;随后,将特征F
l
同FPN最高分辨率的特征F
P2
进行拼接和卷积以增强浅层特征得到特征F
le
;最后将特征F
le
与特征F
h
逐像元相加作为后续文本检测的图像特征F
e
;步骤B3、将特征F
e
通过不同的卷积处理以构建面向文本实例与其边缘的特征,得到文本区域特征F
t
和文本边缘区域特征F
b
;为了突出最具有代表性的特征并抑制无关特征,分别对特征F
t
...
【专利技术属性】
技术研发人员:白鹤翔,王浩然,
申请(专利权)人:山西大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。