一种场景文字检测方法和装置制造方法及图纸

技术编号:31493072 阅读:30 留言:0更新日期:2021-12-18 12:30
本发明专利技术公开了一种场景文字检测方法和装置,涉及计算机视觉技术领域。该方法的一具体实施方式包括:将待检测图像输入到文字区域识别模型中,以输出所述待检测图像中的文字中心区域和文字边缘区域;将所述文字中心区域和所述文字边缘区域融合在一起,生成文字中心边缘区域;根据所述文字中心边缘区域确定所述待检测图像中的文字的外轮廓。该实施方式能够解决无法准确检测不规则形状的文字和无法分离粘连的文字区域的技术问题。连的文字区域的技术问题。连的文字区域的技术问题。

【技术实现步骤摘要】
一种场景文字检测方法和装置


[0001]本专利技术涉及计算机视觉
,尤其涉及一种场景文字检测方法和装置。

技术介绍

[0002]场景文字检测方法经常用于自动驾驶中,并已受到人工智能和计算机视觉领域研究人员的广泛关注。由于场景文字的大小、形状、纹理和背景复杂多样,场景文字检测是计算机视觉应用中最具挑战性的任务之一。
[0003]在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:
[0004]在过去的十年里,大量的场景文字检测方法被提了出来,但这些方法严重依赖于手工设计的特征来区分文字区域和背景区域,因此不能保证模型的检测鲁棒性。
[0005]借助于深度学习技术,场景文字检测方法已取得了巨大的突破。基于深度学习的场景文字检测方法大致可以分为基于回归和基于分割两类方法,前者一般是回归候选区域与实际文字框的偏移,后者一般是基于语义分割来逐像素点区分文字区域和背景区域。因此,基于回归的方法受限于候选区域框的表达形式,对于不规则形状文字的检测结果会含有大量冗余背景信息,从而给文字识别模块带来干扰;基于分割的方法本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种场景文字检测方法,其特征在于,包括:将待检测图像输入到文字区域识别模型中,以输出所述待检测图像中的文字中心区域和文字边缘区域;其中,所述文字中心区域为文字几何形状所在区域的中心,所述文字边缘区域为文字几何形状所在区域的边缘,所述文字几何形状所在区域由所述文字中心区域和所述文字边缘区域组成;将所述文字中心区域和所述文字边缘区域融合在一起,生成文字中心边缘区域;根据所述文字中心边缘区域确定所述待检测图像中的文字的外轮廓。2.根据权利要求1所述的方法,其特征在于,所述文字区域识别模型为以全卷积网络作为基本的特征提取网络的特征金字塔网络,所述全卷积网络的每个阶段分别输出一张特征图;所述特征金字塔网络包括多个依次串联的特征合并层,沿着所述文字区域识别模型的输入到输出的方向,每个特征合并层与所述全卷积网络自顶到底的每个阶段输出的特征图一一对应地进行级联;当前特征合并层的输入为将前一特征合并层输出的特征图与所述全卷积网络输出的特征图进行级联得到的级联特征图,通过所述当前特征合并层对所述级联特征图进行特征合并处理,从而输出特征图。3.根据权利要求2所述的方法,其特征在于,所述特征合并层包括上采样层和位于所述上采样层之前的注意力机制模块,所述注意力机制模块包括通道注意力模块和空间注意力模块。4.根据权利要求2所述的方法,其特征在于,所述特征合并层还包括位于所述注意力机制模块之前的卷积层。5.根据权利要求3所述的方法,其特征在于,通过所述通道注意力模块首先对输入的特征图在每一层特征上分别做平均池化操作和最大池化操作,从而获得平均池化向量和最大池化向量,然后将所述平均池化向量和所述最大池化向量送入含有一个隐藏层的多层感知机,最后将所述多层感知机输出的特征向量按位相加,从而生成通道注意力特征图;其中,在所述多层感知机中,所述平均池化向量和所述最大池化向量共享参数。6.根据权利要求3所述的方法,其特征在于,通过所述空间注意力模块首先沿通道轴对输入的特征图分别做平均池化操作和最大池化操作,从而获得平均池化特征图和最大池化特征图,然后对所述平均池化特征图和所述最大池化特征图进行级联,以生成级联特征图,最后对所述级联特征图进行卷积操作,以生成空间注意力特征图。7.根据权利要求1所述的方法,其特征在于,所述文字区域识别模型的网络参数采用基于实例平衡的Dice系数损失函数优化得到,其中,所述文字区域识别模型的损失包括文字中心区域的损失和文字边缘区域的损失。8.根据权利要求7所述的方法,其特征在于,基于实例平衡的Dice系数损失函数如下所示:L=λL
center
+L
border
L
center
=L
pixel_dice
(G
c
,P
c
,W
c
)L
border
=L
pixel_dice
(G
b
,P
b
,W
b
)
其中,L
center
和L
border
分别表示文字中心区域的损失和文字边缘区域的损失,λ为预设的损失参数;G,P和W分别表示实际的文字区域、预测的文字区域和像素点权重图,c和b分别表示文字中心区域和文字边缘区域。9.根据权利要求8所述的方法,其特征在于,...

【专利技术属性】
技术研发人员:徐鑫
申请(专利权)人:京东鲲鹏江苏科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1