【技术实现步骤摘要】
一种文本检测方法、装置、设备及存储介质
[0001]本专利技术涉及图像处理
,尤其涉及一种文本检测方法、装置、设备及存储介质。
技术介绍
[0002]文本检测应用范围广泛,是很多计算机视觉任务的前置步骤,如图像搜索、文字识别、身份认证和视觉导航等。文本检测的目的主要是定位文本行在图像中的位置,然而在自然场景中,文本行的大小、字体、颜色、形状、方向和背景存在多样性,在识别过程中常发生粘连。随着深度学习的兴起,对文本检测的研究逐渐成为热点,出现了大量关于文本检测的方法。
[0003]在自然文本检测场景中,基于语义分割的文本检测算法通常使用内缩文本实例来生成文本实例互相分离的掩膜来作为真实样本,目前使用这一思想来进行文本检测的算法有EAST和PSENet等,其通过多边形内缩算法将标注好的真实样本框处理成内缩后的样本框,以此将密集粘连的文本实例分开,方便神经网络学习到分离后的特征。
[0004]然而,采用上述算法学习内缩后的样本后,EAST算法是在内缩区域的掩膜位置上直接回归四边形的集合距离,以此来定位文本实例;而PSENet算法则是在多个不同内缩偏移的掩膜上从内到外进行扩张得到精准的掩膜,再计算掩膜的包围盒得到文本实例的定位,二者均未对内缩样本框生成过程中可能产生的偏移量进行考虑,使得应用于密集文本区域检测时,检测速度慢且检测效果较差,影响了文本检测的效率。
技术实现思路
[0005]本专利技术提供了一种文本检测方法、装置、设备及存储介质,对内缩偏移的场景文本进行学习和检测,提升了文本 ...
【技术保护点】
【技术特征摘要】
1.一种文本检测方法,其特征在于,包括:获取待检测图像;将所述待检测图像输入至预先构建的内缩偏移文本检测模型,确定目标语义分割特征图和目标偏移量特征图;根据所述目标语义分割特征图和所述目标偏移量特征图确定目标外扩距离和待外扩矩形框;将所述待外扩矩形框外扩所述目标外扩距离,确定目标文本检测框;其中,所述预先构建的内缩偏移文本检测模型包括语义分割子模型和偏移量回归子模型。2.根据权利要求1所述的方法,其特征在于,所述内缩偏移文本检测模型的训练步骤包括:将内缩偏移文本训练样本集中的图像样本集进行基础特征提取,确定基础特征样本集;其中,所述内缩偏移文本训练样本集中包括图像样本集以及与所述图像样本集对应的标定样本集,所述标定样本集中包括与各图像样本对应的内缩分割标签和偏移量标签;将所述基础特征样本集输入至初始语义分割子模型,提取语义分割中间结果;将所述基础特征样本集输入至初始偏移量回归子模型,提取偏移量中间结果;根据所述语义分割中间结果和对应的内缩分割标签,确定对应的第一损失函数;根据所述偏移量中间结果和对应的偏移量标签,确定对应的第二损失函数;根据所述第一损失函数和所述第二损失函数确定总损失函数,并基于所述总损失函数对所述初始语义分割子模型和所述初始偏移量回归子模型进行训练,直到满足预设收敛条件获得内缩偏移文本检测模型。3.根据权利要求2所述的方法,其特征在于,所述将内缩偏移文本训练样本集中的图像样本集进行基础特征提取,确定基础特征样本集,包括:将所述内缩偏移文本训练样本集中的图像样本集输入至特征提取骨干网络,确定第一特征图集;其中,所述第一特征图集中包括由所述图像样本集提取的多个不同分辨率的特征图;对所述第一特征图集进行多尺度特征提取,确定第二特征图集;对所述第二特征图集进行多特征融合,并将融合后的各特征图的集合确定为基础特征样本集。4.根据权利要求2所述的方法,其特征在于,所述内缩分割标签的确定步骤包括:针对每个图像样本,根据所述图像样本的大小构建与所述图像样本对应的第一二维矩阵,并确定所述图像样本中标注文本的最短边长;若所述最短边长小于或等于预设最小边框长度,则将所述第一二维矩阵中与所述标注文本的位置对应的各像素设置为第一预设数值;若所述最短边长大于预设最小边框长度,则根据所述标注文本的大小确定第一内缩距离,根据所述第一内缩距离更新所述标注文本的位置,并将更新后所述标注文本的位置对应的各像素设置为第一预设数值。5.根据权利要求2所述的方法,其特征在于,所述偏移量标签的确定步骤包括:针对每个图像样本,根据所述图像样本的大小构建与所述图像样本对应的第二二维矩
阵,并确定所述图像样本中标注文本的最短边长;若所述最短边长小于或等于预设最小边框长度,则将所述第二二维矩阵中与所述标注文本的位置对应的各像素设置为第一预设数值;若所述最短边长大于预设最小边框长度,则根据所述标注文本的大小确定第二内缩距离,通过所述第二内缩距离和所述最短边长对所述第二二维矩阵进行更新并赋值。6.根据权利要求5所述的方法,其特征在于,所述通过所述第二内缩距离和所述最短边长对所述第二二维矩阵进行更新并赋值,包括:若所述第二内缩距离小于所述最短边长,根据所述第二内缩距离和预设基准数值确定偏移强度值,根据所述第二内缩距离更新所述标注文本的位置,并将更新后所述标注文本的位置对应的各像素设置为所述偏移强度值;若所述第二内缩距离大于或等于所述最短边长,则将所述第二二维矩阵中与所述标注文本的位置对应的各像素设置为第一预设数值。7.根据权利要求2所述的方法,其特征在于,所述根据所述语义分割中间结果和对应的内缩分割标签,确定对应的第一...
【专利技术属性】
技术研发人员:周源赣,章水鑫,
申请(专利权)人:南京三百云信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。