一种复杂场景下的文字检测方法技术

技术编号:24757989 阅读:26 留言:0更新日期:2020-07-04 09:34
本发明专利技术涉及人工智能和计算机视觉技术领域,特别是基于深度学习实现复杂场景下的文字检测方法。它通过融合了分割模块和检测模块的网络结构(SDetNet)以及损失函数(Shape Loss)学习数据的空间分布特征,能降低文字的误检率,降低检测框的冗余度,具有很好的可解释性。一种复杂场景下的文字检测方法,它的方法步骤为:图像数据的场景预处理;网络模型设计;损失函数。

A text detection method in complex scene

【技术实现步骤摘要】
一种复杂场景下的文字检测方法
本专利技术涉及人工智能和计算机视觉
,特别是基于深度学习实现复杂场景下的文字检测方法。
技术介绍
光学字符识别(OpticalCharacterRecognition,简称OCR)是指将图像上的文字转化为计算机可编辑的文字内容。其中,最重要的一步是通过特征提取,找出图像中候选的文字区域特征,也就是文字检测。文字检测分为三个主流方法:基于文本框回归的算法;基于像素分割的算法;基于分割和回归结合的研究算法。目前,文字检测面临诸多挑战,文字方向多变性、文字分布的不规则性、文字大小的不唯一性。由于以上挑战,导致复杂场景中的文字检测易出现误检和检测框过度冗余两种情况,进而对文字识别造成不良的影响。在计算机视觉领域,复杂场景的文字检测可以利用目标检测(ObjectDetection)和目标分割(ObjectSegmention)两种不同的检测思路。ZHITIAN等人2016年发表的论文《DetectingTextinNaturalImagewithConnectionistTextProposalNetwork》,该方法利用了目标检测的方式,首次把RNN引入到检测网络中。通过CNN获取图像的深度特征,然后用固定宽度的anchor来检测textproposal,并把同一行anchor对应的特征串成序列,输入到RNN中,最后用全连接层来分类或回归,并将正确的textproposal进行合并成文本线,这种把RNN和CNN无缝结合的方法提高了检测精度。BaoguangShi等人2017年发表了《DetectingOrientedTextinNaturalImagesbyLinkingSegments》,该方法首先是检测生成一个一个的切片(segment),生成的切片表示的是文本行或单词的一部分,可能是一个字符、一个单词或者是几个字符。通过链接(link)的方式将属于同一个文本行或者单词的切片(segment)连接起来。链接是在两个有重叠切片的中心点进行相连,最终,通过合并算法,将这些切片、链接合并成一个完整的文本行,得出完整文本行的检测框位置和旋转角度。通过直接回归方法在场景文本检测上已经取得了不俗的表现,但是场景文本会遇到较大尺度、长宽比和方向的变化。QiangpengYang等人2018年发表了《IncepText:ANewInception-TextModulewithDeformablePSROIPoolingforMulti-OrientedSceneTextDetection》提出了一个用于多方向场景文本检测的新的Inception-Text模块,使用可变形的PSROI池化模块来处理多方向的文本,用多个不同卷积核的卷积分支来处理不同长宽比比例的文本,在每个分支后面接一个可变形的卷积层以适应多方向文本,实现复杂场景下文字的检测。综上所述,利用目标检测和目标分割算法实现自然场景文字检测是不同且有效的方法。然而,复杂场景下的文字检测还存在一定的不足,复杂的文字背景易造成文字的误检等情况。如何提高检测精度,降低误检也是复杂场景文字检测研究的热点。复杂场景中,由于现实场景的多样化、文字分布的多样化、文字大小的差异等,导致文本检测过程中,出现一定的误检和检测框冗余的问题。同时,在图像尺度较大的情况下,文字像素占比较小,小目标容易出现漏检。利用单一的目标分割的算法,不仅存在复杂的后处理操作,而且存在误检情况;利用单一的目标检测的算法,在复杂场景中容易出现检测框的冗余和误检。
技术实现思路
针对上述现有技术中存在的不足,本专利技术的目的是提供一种复杂场景下的文字检测方法。它通过融合了分割模块和检测模块的网络结构(SDetNet)以及损失函数(ShapeLoss)学习数据的空间分布特征,能降低文字的误检率,降低检测框的冗余度,具有很好的可解释性。为解决上述技术问题,本专利技术提供一种复杂场景下的文字检测方法,其特征在于,包括如下步骤:步骤一:图像数据的场景预处理,先将原始复杂场景中的大像素图像,划分成几个小图像块,分别进行检测,再将检测结果融合。步骤二:网络模型设计,通过设计一种融合了分割模块和检测模块的网络结构SDetNet,计算检测模块检测框和分割模块检测框的交并比IOU,再由合并模块利用交并比参数值和文本存在概率值,判断该场景中某些局部位置是否存在文字。采用公式(1)计算:(1)其中,Pre_Rect是分割模块和检测模块的交并比参数值,Label_Rect表示文字存在的真实分布区域。步骤三:损失函数设计,把检测框和真实框的IOU参数值设定为动态的权值参数,作为模型最终的目标函数再进行CNN迭代训练,这种回归长、宽比的损失函数计算方法为:设定坐标原点为(0,0)点,x、y分别表示文字框的长和宽,坐标中的点A(x1,y1)和点B(x2,y2)分别表示检测框的真值和模型预测出的结果值,θ参数作为点A和点B之间的夹角,可以衡量向量和的相似度。优化θ参数值,对检测框进行调节,公式如下(2)和(3):(2)(3)其中,θ为真值坐标A和预测坐标B的夹角,当θ的参数值变大时,cos函数将变大,-ln函数也会变大。通过梯度下降算法,有效的对模型进行调节,使θ参数值逐渐变小,AL是计算的向量方向差异度参数值。利用真值框和预测框的交并比值设计一个动态的权重值,当IOU参数值比较大时,说明文字检测区域能更好的覆盖文字区域,设定较高的权值。当IOU参数值比较小时,说明文字检测区域覆盖文字区域效果较差,设定较低的权值;损失函数公式如下(4):(4)在上述文字检测方法中,所述将原始复杂场景中图像划分为小图像块的数量为4个。在上述文字检测方法中,所述检测模块学习文字区域分布和文字倾斜角度特征;所述分割模块学习文字分布概率和文字检测框特征。本专利技术由于采用了上述方法,同现有技术相比,具有如下优点:1、本专利技术中,融合了分割模块和检测模块的网络结构SDetNet,其中的分割分支可以有效的计算文字区域和文字存在概率,再结合检测分支能够有效的降低文字的误检率;2、本专利技术中的目标框损失函数ShapeLoss,利用文字分布具有规则的长、宽比先验特征,实现区域框检测的规范化,提高检测效率,降低检测的冗余度;3、本专利技术方法利用交并比IOU参数,设计了一种动态权值参数。由于网络训练的初始阶段,模型的学习具有较高的随机性,会生成大量的文字检测框。通过IOU参数值,可以有效的获取检测框的正样本和负样本。当正样本存在时,说明对应的文本区域应该有更高的概率,对检测框的长、宽比进行调节。相反,当为负样本时,应该有较低的概率,对检测框的长、宽的比进行调节。通过这种有目的的约束,使模型能够好的对文字区域特征进行关注。因此,利用交并比IOU参数值,可以有效地、动态化地调节模型的学习。下面结合附图和具体实施方式对本专利技术做进一步说明。附图说明图1为本专利技术方法流程图;图2为本专利技术中的网络本文档来自技高网
...

【技术保护点】
1.一种复杂场景下的文字检测方法,其特征在于,包括如下步骤:/n步骤一:图像数据的场景预处理,先将原始复杂场景中的大像素图像,划分成几个小图像块,分别进行检测,再将检测结果融合;/n步骤二:网络模型设计,设计了一种融合了分割模块和检测模块的网络结构SDetNet,计算检测模块检测框和分割模块检测框的交并比IOU,再由合并模块利用交并比参数值和文本存在概率值,判断该场景中某些局部位置是否存在文字;采用公式(1)计算交并比IOU:/n

【技术特征摘要】
1.一种复杂场景下的文字检测方法,其特征在于,包括如下步骤:
步骤一:图像数据的场景预处理,先将原始复杂场景中的大像素图像,划分成几个小图像块,分别进行检测,再将检测结果融合;
步骤二:网络模型设计,设计了一种融合了分割模块和检测模块的网络结构SDetNet,计算检测模块检测框和分割模块检测框的交并比IOU,再由合并模块利用交并比参数值和文本存在概率值,判断该场景中某些局部位置是否存在文字;采用公式(1)计算交并比IOU:

(1)
其中,Pre_Rect是分割模块和检测模块的交并比参数值,Label_Rect表示文字存在的真实分布区域;
步骤三:损失函数,把检测框和真实框的IOU参数值设定为动态的权值参数,作为模型最终的目标函数再进行CNN迭代训练,这种回归长、宽比的损失函数计算方法为:
设定坐标原点为(0,0)点,x、y分别表示文字框的长和宽,坐标中的点A(x1,y1)和点B(x2,y2)分别表示检测框的真值和模型预测出的结果值,θ参数作为点A和点B之间的夹角,...

【专利技术属性】
技术研发人员:朱浩张磊郑全新董小栋刘阳赵海波孟祥松张逞逞冯鑫江龙邓家勇刘婷婷
申请(专利权)人:北京同方软件有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1