一种文本检测方法、装置、设备及存储介质制造方法及图纸

技术编号:34608835 阅读:19 留言:0更新日期:2022-08-20 09:13
本发明专利技术公开了一种文本检测方法、装置、设备及存储介质。该方法包括:获取待检测图像;将待检测图像输入至预先构建的内缩偏移文本检测模型,确定目标语义分割特征图和目标偏移量特征图;根据目标语义分割特征图和目标偏移量特征图确定目标外扩距离和待外扩矩形框;将待外扩矩形框外扩目标外扩距离,确定目标文本检测框;其中,预先构建的内缩偏移文本检测模型包括语义分割子模型和偏移量回归子模型。本发明专利技术实施例的技术方案,解决了现有依据内缩文本实例训练所得的文本检测模型不考虑文本内缩过程偏移量,导致对密集文本区域进行检测时,检测速度慢且效果较差的问题,减少了目标文本检测框的确定计算量,提升了文本检测效率。提升了文本检测效率。提升了文本检测效率。

【技术实现步骤摘要】
一种文本检测方法、装置、设备及存储介质


[0001]本专利技术涉及图像处理
,尤其涉及一种文本检测方法、装置、设备及存储介质。

技术介绍

[0002]文本检测应用范围广泛,是很多计算机视觉任务的前置步骤,如图像搜索、文字识别、身份认证和视觉导航等。文本检测的目的主要是定位文本行在图像中的位置,然而在自然场景中,文本行的大小、字体、颜色、形状、方向和背景存在多样性,在识别过程中常发生粘连。随着深度学习的兴起,对文本检测的研究逐渐成为热点,出现了大量关于文本检测的方法。
[0003]在自然文本检测场景中,基于语义分割的文本检测算法通常使用内缩文本实例来生成文本实例互相分离的掩膜来作为真实样本,目前使用这一思想来进行文本检测的算法有EAST和PSENet等,其通过多边形内缩算法将标注好的真实样本框处理成内缩后的样本框,以此将密集粘连的文本实例分开,方便神经网络学习到分离后的特征。
[0004]然而,采用上述算法学习内缩后的样本后,EAST算法是在内缩区域的掩膜位置上直接回归四边形的集合距离,以此来定位文本实例;而PSENet算法则是在多个不同内缩偏移的掩膜上从内到外进行扩张得到精准的掩膜,再计算掩膜的包围盒得到文本实例的定位,二者均未对内缩样本框生成过程中可能产生的偏移量进行考虑,使得应用于密集文本区域检测时,检测速度慢且检测效果较差,影响了文本检测的效率。

技术实现思路

[0005]本专利技术提供了一种文本检测方法、装置、设备及存储介质,对内缩偏移的场景文本进行学习和检测,提升了文本检测的效率和准确性,平衡了文本检测所需的精度和速度。
[0006]第一方面,本专利技术实施例提供了一种文本检测方法,包括:
[0007]获取待检测图像;
[0008]将待检测图像输入至预先构建的内缩偏移文本检测模型,确定目标语义分割特征图和目标偏移量特征图;
[0009]根据目标语义分割特征图和目标偏移量特征图确定目标外扩距离和待外扩矩形框;
[0010]将待外扩矩形框外扩目标外扩距离,确定目标文本检测框;
[0011]其中,预先构建的内缩偏移文本检测模型包括语义分割子模型和偏移量回归子模型。
[0012]进一步地,内缩偏移文本检测模型的训练步骤包括:
[0013]将内缩偏移文本训练样本集中的图像样本集进行基础特征提取,确定基础特征样本集;其中,内缩偏移文本训练样本集中包括图像样本集以及与图像样本集对应的标定样本集,标定样本集中包括与各图像样本对应的内缩分割标签和偏移量标签;
[0014]将基础特征样本集输入至初始语义分割子模型,提取语义分割中间结果;
[0015]将基础特征样本集输入至初始偏移量回归子模型,提取偏移量中间结果;
[0016]根据语义分割中间结果和对应的内缩分割标签,确定对应的第一损失函数;
[0017]根据偏移量中间结果和对应的偏移量标签,确定对应的第二损失函数;
[0018]根据第一损失函数和第二损失函数确定总损失函数,并基于总损失函数对初始语义分割子模型和初始偏移量回归子模型进行训练,直到满足预设收敛条件获得内缩偏移文本检测模型。
[0019]进一步地,将内缩偏移文本训练样本集中的图像样本集进行基础特征提取,确定基础特征样本集,包括:
[0020]将内缩偏移文本训练样本集中的图像样本集输入至特征提取骨干网络,确定第一特征图集;其中,第一特征图集中包括由图像样本集提取的多个不同分辨率的特征图;
[0021]对第一特征图集进行多尺度特征提取,确定第二特征图集;
[0022]对第二特征图集进行多特征融合,并将融合后的各特征图的集合确定为基础特征样本集。
[0023]进一步地,内缩分割标签的确定步骤包括:
[0024]针对每个图像样本,根据图像样本的大小构建与图像样本对应的第一二维矩阵,并确定图像样本的最短边长;
[0025]若最短边长小于或等于预设最小边框长度,则将第一二维矩阵中与标注文本的位置对应的各像素设置为第一预设数值;
[0026]若最短边长大于预设最小边框长度,则根据图像样本的大小确定第一内缩距离,根据第一内缩距离更新标注文本的位置,并将更新后标注文本的位置对应的各像素设置为第一预设数值。
[0027]进一步地,偏移量标签的确定步骤包括:
[0028]针对每个图像样本,根据图像样本的大小构建与图像样本对应的第二二维矩阵,并确定图像样本的最短边长;
[0029]若最短边长小于或等于预设最小边框长度,则将第二二维矩阵中与标注文本的位置对应的各像素设置为第一预设数值;
[0030]若最短边长大于预设最小边框长度,则根据图像样本的大小确定第二内缩距离,通过第二内缩距离和最短边长对第二二维矩阵进行更新并赋值。
[0031]进一步地,通过第二内缩距离和最短边长对第二二维矩阵进行更新并赋值,包括:
[0032]若第二内缩距离小于最短边长,根据第二内缩距离和预设基准数值确定偏移强度值,根据第二内缩距离更新标注文本的位置,并将更新后标注文本的位置对应的各像素设置为偏移强度值;
[0033]若第二内缩距离大于或等于最短边长,则将第二二维矩阵中与标注文本的位置对应的各像素设置为第一预设数值。
[0034]进一步地,根据语义分割中间结果和对应的内缩分割标签,确定对应的第一损失函数,包括:
[0035]将语义分割中间结果中各像素对应数值,与对应的内缩分割标签中各像素对应数值进行比对;
[0036]根据比对结果确定第一损失函数。
[0037]进一步地,根据偏移量中间结果和对应的偏移量标签,确定对应的第二损失函数,包括:
[0038]将偏移量中间结果中各像素对应数值,与对应的偏移量标签中各像素对应数值进行比对;
[0039]根据比对结果确定第二损失函数。
[0040]进一步地,根据第一损失函数和第二损失函数确定总损失函数,并基于总损失函数对初始语义分割子模型和初始偏移量回归子模型进行训练,直到满足预设收敛条件获得内缩偏移文本检测模型,包括:
[0041]根据预设权重值对第一损失函数和第二损失函数加权求和,确定总损失函数;
[0042]基于总损失函数对初始语义分割子模型和初始偏移量回归子模型中的权重参数进行调整,直到满足预设收敛条件获得内缩偏移文本检测模型。
[0043]进一步地,根据目标语义分割特征图和目标偏移量特征图确定目标外扩距离和待外扩矩形框,包括:
[0044]对目标语义分割特征图进行阈值化,并根据连通组件标记算法确定标记图;
[0045]将标记图与目标偏移量特征图求交,对目标偏移量特征图进行更新;
[0046]遍历求交后标记图中不同标记值,将同一标记值对应标记对象的外接矩形框确定为待外扩矩形框;
[0047]将各标记对象在更新后的目标偏移量特征图内像素值的平均值确定为标记对象的预测偏移量;
[0048]根本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本检测方法,其特征在于,包括:获取待检测图像;将所述待检测图像输入至预先构建的内缩偏移文本检测模型,确定目标语义分割特征图和目标偏移量特征图;根据所述目标语义分割特征图和所述目标偏移量特征图确定目标外扩距离和待外扩矩形框;将所述待外扩矩形框外扩所述目标外扩距离,确定目标文本检测框;其中,所述预先构建的内缩偏移文本检测模型包括语义分割子模型和偏移量回归子模型。2.根据权利要求1所述的方法,其特征在于,所述内缩偏移文本检测模型的训练步骤包括:将内缩偏移文本训练样本集中的图像样本集进行基础特征提取,确定基础特征样本集;其中,所述内缩偏移文本训练样本集中包括图像样本集以及与所述图像样本集对应的标定样本集,所述标定样本集中包括与各图像样本对应的内缩分割标签和偏移量标签;将所述基础特征样本集输入至初始语义分割子模型,提取语义分割中间结果;将所述基础特征样本集输入至初始偏移量回归子模型,提取偏移量中间结果;根据所述语义分割中间结果和对应的内缩分割标签,确定对应的第一损失函数;根据所述偏移量中间结果和对应的偏移量标签,确定对应的第二损失函数;根据所述第一损失函数和所述第二损失函数确定总损失函数,并基于所述总损失函数对所述初始语义分割子模型和所述初始偏移量回归子模型进行训练,直到满足预设收敛条件获得内缩偏移文本检测模型。3.根据权利要求2所述的方法,其特征在于,所述将内缩偏移文本训练样本集中的图像样本集进行基础特征提取,确定基础特征样本集,包括:将所述内缩偏移文本训练样本集中的图像样本集输入至特征提取骨干网络,确定第一特征图集;其中,所述第一特征图集中包括由所述图像样本集提取的多个不同分辨率的特征图;对所述第一特征图集进行多尺度特征提取,确定第二特征图集;对所述第二特征图集进行多特征融合,并将融合后的各特征图的集合确定为基础特征样本集。4.根据权利要求2所述的方法,其特征在于,所述内缩分割标签的确定步骤包括:针对每个图像样本,根据所述图像样本的大小构建与所述图像样本对应的第一二维矩阵,并确定所述图像样本中标注文本的最短边长;若所述最短边长小于或等于预设最小边框长度,则将所述第一二维矩阵中与所述标注文本的位置对应的各像素设置为第一预设数值;若所述最短边长大于预设最小边框长度,则根据所述标注文本的大小确定第一内缩距离,根据所述第一内缩距离更新所述标注文本的位置,并将更新后所述标注文本的位置对应的各像素设置为第一预设数值。5.根据权利要求2所述的方法,其特征在于,所述偏移量标签的确定步骤包括:针对每个图像样本,根据所述图像样本的大小构建与所述图像样本对应的第二二维矩
阵,并确定所述图像样本中标注文本的最短边长;若所述最短边长小于或等于预设最小边框长度,则将所述第二二维矩阵中与所述标注文本的位置对应的各像素设置为第一预设数值;若所述最短边长大于预设最小边框长度,则根据所述标注文本的大小确定第二内缩距离,通过所述第二内缩距离和所述最短边长对所述第二二维矩阵进行更新并赋值。6.根据权利要求5所述的方法,其特征在于,所述通过所述第二内缩距离和所述最短边长对所述第二二维矩阵进行更新并赋值,包括:若所述第二内缩距离小于所述最短边长,根据所述第二内缩距离和预设基准数值确定偏移强度值,根据所述第二内缩距离更新所述标注文本的位置,并将更新后所述标注文本的位置对应的各像素设置为所述偏移强度值;若所述第二内缩距离大于或等于所述最短边长,则将所述第二二维矩阵中与所述标注文本的位置对应的各像素设置为第一预设数值。7.根据权利要求2所述的方法,其特征在于,所述根据所述语义分割中间结果和对应的内缩分割标签,确定对应的第一...

【专利技术属性】
技术研发人员:周源赣章水鑫
申请(专利权)人:南京三百云信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1