一种面向多方向的文字检测方法和装置制造方法及图纸

技术编号:19693778 阅读:32 留言:0更新日期:2018-12-08 11:40
本发明专利技术涉及一种面向多方向的文字检测方法和装置。在训练方面,在不改变网络结构的基础上,对四边形真值框进行切分,把四边形真值框变为多个矩形区域的条状真值框,满足CTPN的输入,控制一个训练的最小批量正负样本比例,保证正负样本平衡,再放入CTPN网络进行训练;在测试方面,同时对原图和旋转90度之后的图片放入测试网络,对网络预测出来的条状矩形区域进行拟合形成四边形候选框,对旋转90度的测试图片的检测结果进行逆时针旋转90度恢复为原图的坐标位置;最后对两图的检测结果综合做非极大值抑制等筛选,实现准确的多方向文字定位。本发明专利技术能够适应多方向,包括水平、倾斜、竖直等方向的文字,并且有着较高的精度。

【技术实现步骤摘要】
一种面向多方向的文字检测方法和装置
本专利技术属于计算机视觉
,具体涉及一种适应多方向的文字检测方法和装置,能够准确定位自然场景下的水平、倾斜以及竖直文字。
技术介绍
自然场景下的文字无处不在,例如交通指示牌,商店的广告牌,海报等等,有人工痕迹的地方,基本都有文字存在。识别自然场景下的文字是人工智能进程中的一个重要发展部分。图像中的文字识别(TextSpotting)一般分为两个步骤,首先文字检测定位出图像中文字的位置,然后对定位出来的文字采用识别技术得到文字的信息内容。其中,文字检测从图片背景中定位出准确文字区域,在整个文字识别流程中占有重要地位。自然场景下的文字出现情况非常复杂。首先,背景复杂很多,它不是文档图像的纯色背景,自然场景中的图像充满着各种对于文字的干扰,比如,电线,窗户等人工痕迹的存在使文字很难从背景中提取出。其次,自然场景中的文字的字体,颜色,布局等有很大的多变性,这增大了我们定位的困难。另外,由于拍摄角度问题,导致在图片中的自然场景下的文字存在倾斜角度,这跟普通的物体检测不一样,又一次提高了检测的难度。因此,自然场景中的文字检测是一个极具挑战的任务。随着神经网络深度学习的发展,目前自然场景文字检测方法大多都利用深度学习来实现。总体来看,2006年后的自然场景文字检测方法可以归为三类。第一类是基于像素分割的文字检测方法。Zhang(Zhang,Zheng,etal."Multi-orientedTextDetectionwithFullyConvolutionalNetworks."ComputerVisionandPatternRecognitionIEEE,2016:4159-4167.)等人首先利用FCN(FullyConnectedNetwork)从图片中分割出相应的文字区域,再利用最大稳定极值区域方法(MSER)提取候选字符区域,利用候选字符区域估计整个文本行的方向,最后构造文本行。第二类是基于候选框(物体检测)的方法,比较典型的有TextBoxes(Liao,Minghui,etal."TextBoxes:AFastTextDetectorwithaSingleDeepNeuralNetwork."(2016).)和CTPN(Tian,Zhi,etal."DetectingTextinNaturalImagewithConnectionistTextProposalNetwork."EuropeanConferenceonComputerVisionSpringer,Cham,2016:56-72.),它们分别沿袭常用的物体检测方法SSD(Liu,Wei,etal."SSD:SingleShotMultiBoxDetector."(2015):21-37.)和FasterR-CNN(Ren,S.,etal."FasterR-CNN:TowardsReal-TimeObjectDetectionwithRegionProposalNetworks."IEEETransactionsonPatternAnalysis&MachineIntelligence39.6(2017):1137-1149.)的候选框的方法,根据文本的特征改进,最终达到检测出文字的目的。第三类是混合方法,EAST(Zhou,Xinyu,etal."EAST:AnEfficientandAccurateSceneTextDetector."(2017).)多任务学习的方法,一方面在图片中分割出文字区域,另一方面预测出文本的几何形状。由于物体检测是没有角度的概念的,检测出来的候选框都是矩形,因此上述自然场景下文字检测方法中,第二类方法基于候选框(物体检测)的方法主要用于水平方向的文字检测。然而,在图片中的自然场景下的文字的分布是很任意的,特别是由于拍摄角度的问题,很多倾斜的文字。另外,在中文环境下,自然场景中有很多中文文字是竖直分布的,而现有的文字相关的研究工作都是针对水平或者倾斜文字,对竖直文字的检测不是很好。对现有的基于候选框(物体检测)的方法进行改进,使其适应多方向文字检测是一项有意义的工作。
技术实现思路
针对上述问题,本专利技术的目的是在面向水平方向的文字检测方法上进行扩展,提出一种面向多方向的文字检测方法和装置。本专利技术的基础是文字检测网络CTPN(ConnectionistTextProposalNetwork),该网络主要检测水平文本行,特别是在面向中文的检测,CTPN应用广泛。在此基础上,本专利技术为了使其适应自然场景下多方向文字检测,在训练方面,在不改变网络结构的基础上,对四边形真值框(多方向)进行切分,把四边形真值框变为多个矩形区域的条状真值框,满足CTPN的输入。控制一个训练的最小批量正负样本比例,保证正负样本平衡,再放入CTPN网络进行训练;在测试方面,为了扩展成包括竖直方向的多方向文字检测方法,需要把竖直文字变为水平或倾斜文字输入网络进行检测。因此,同时将原图和旋转90度之后的图片放入测试网络。其对网络预测出来的条状矩形区域进行拟合形成四边形候选框,对旋转90度的测试图片的检测结果进行逆时针旋转90度恢复为原图的坐标位置。最后对两图的检测结果综合做非极大值抑制(NMS)等筛选,实现准确的多方向文字定位。为达上述目的,本专利技术采用的技术方案是:一种面向多方向的文字检测方法,包括以下步骤:1)文字网络训练:1-1)对训练样本的四边形真值框根据角度信息进行切分,形成矩形区域的条状真值框;1-2)控制正负样本比例,并进行随机采样,将样本放入CTPN网络进行训练,得到文字检测网络;2)文字定位检测:2-1)将待检测图片和该待检测图片旋转90度的图片输入文字检测网络,该文字检测网络输出条形框以及其存在文字可能性的预测分值(score),对得到的条形框做非极大值抑制,并从中挑选预测分值大于设定阈值的条形框;2-2)对不同角度图片中挑选出的条形框进行合并,拟合构造出四边形文字框。进一步地,步骤1-1)求出四边形真值框上下两条边的角度,得到上下两边的直线公式,每隔anchor宽(anchor是CTPN中预测文字位置的基准框),根据x轴坐标,利用直线公式确定y轴坐标,得到条状真值框的(xmin,ymin,xmax,ymax),分别表示真值框左上角和右下角的位置。进一步地,步骤1-1)的训练图片中,条状真值框的水平方向上的起点和终点(即xmin,xmax),总是在16倍数的位置上。因此切分前的四边形真值框不在16倍数上的水平方向的两边,需进行取舍。进一步地,步骤1-1)对于存在竖直文字的真值框的图片进行特殊处理。若训练图片中以竖直文字为主,将训练图片及四边形真值框水平旋转90度后,标记旋转后图片中竖直的真值框为“vertical”的部分,再进行切分处理;若训练图片中以水平、倾斜文字为主,标记竖直文字的真值框为“vertical”部分,之后再进行切分处理。保证训练样本的有效性。进一步地,步骤1-2)对条状真值框与anchor进行IOU(IntersectionoverUnion,重叠区域比例)的计算,IOU大于一定阈值的anchor选为正样本,小于一定阈值的选为负样本,控制正负比例为1:1,“v本文档来自技高网
...

【技术保护点】
1.一种面向多方向的文字检测方法,其特征在于,包括以下步骤:1)对训练样本的四边形真值框根据角度信息进行切分,形成矩形区域的条状真值框;2)控制正负样本比例,并进行随机采样,将样本放入CTPN网络进行训练,得到文字检测网络;3)将待检测图片和该待检测图片旋转90度的图片输入文字检测网络,该文字检测网络输出条形框以及其存在文字可能性的预测分值,对得到的条形框做非极大值抑制,并从中挑选预测分值大于设定阈值的条形框;4)对不同角度图片中挑选出的条形框进行合并,拟合构造出四边形文字框。

【技术特征摘要】
1.一种面向多方向的文字检测方法,其特征在于,包括以下步骤:1)对训练样本的四边形真值框根据角度信息进行切分,形成矩形区域的条状真值框;2)控制正负样本比例,并进行随机采样,将样本放入CTPN网络进行训练,得到文字检测网络;3)将待检测图片和该待检测图片旋转90度的图片输入文字检测网络,该文字检测网络输出条形框以及其存在文字可能性的预测分值,对得到的条形框做非极大值抑制,并从中挑选预测分值大于设定阈值的条形框;4)对不同角度图片中挑选出的条形框进行合并,拟合构造出四边形文字框。2.如权利要求1所述的方法,其特征在于,步骤1)求出四边形真值框上下两条边的角度,得到上下两边的直线公式,每隔anchor宽,根据x轴坐标,利用直线公式确定y轴坐标,得到条状真值框的(xmin,ymin,xmax,ymax),分别表示真值框左上角和右下角的位置。3.如权利要求1所方法,其特征在于,步骤1)的训练图片中,条状真值框的水平方向上的起点和终点总是在16倍数的位置上;对切分前四边形真值框不在16倍数上的水平方向的两边,进行取舍。4.如权利要求1所述的方法,其特征在于,步骤1)对于存在竖直文字的真值框的图片进行特殊处理,若训练图片中以竖直文字为主,将训练图片及四边形真值框水平旋转90度后,标记旋转后图片中竖直的真值框为“vertical”的部分,再进行切分处理;若训练图片中以水平、倾斜文字为主,标记竖直文字的真值框为“vertical”部分,之后再进行切分处理,从而保证训练样本的有效性。5.如权利要求1所述的方法,其特征在于,步骤2)对条状真值框与anchor进行IOU的计算,IOU大于一定阈值的anchor选为正样本,小于一定阈值的选为负样本,控制正负比例为1:1,“vertical”部分的真值框所对应的的anchor框不选进训练样本中。6.如权利要求1所述的方法,其特征在于,步骤4)中对于挑选的条...

【专利技术属性】
技术研发人员:王蕊伍蹈操晓春
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1