文本图像检测方法、网络以及设备技术

技术编号:21893110 阅读:26 留言:0更新日期:2019-08-17 14:58
本发明专利技术涉及图像处理技术领域,提供了一种文本图像检测方法、网络和设备,旨在解决现有文本图像检测方法难以精确定位每个条目位置的问题。所述文本图像检测方法包括:通过基础子网络对文本图像进行预处理,获得所述文本图像的特征图;通过推荐子网络在所述特征图上滑动铺设多种尺寸的先验框,每种先验框在垂直于条目方向的铺设密度大于平行于条目方向的铺设密,并从多个先验框中,筛选出能反映条目大致所在区域的先验框,作为推荐框,通过定位子网络,利用所述推荐框和所述特征图,定位所述文本图像中的条目的位置。所述文本图像检测方法可应用于行间距很稠密的文本图像检测,从行间距很稠密的文本图像中定位出更多的条目。

Text Image Detection Method, Network and Equipment

【技术实现步骤摘要】
文本图像检测方法、网络以及设备
本专利技术涉及图像处理
,具体而言,涉及一种文本图像检测方法、网络以及设备。
技术介绍
文本图像检测的目的是从固定版面文本中提取出各条目的具体内容。其中,所述条目是指一条特定类型的信息,例如文本版面(以身份证为例)上的姓名、出生日期、性别等。在普遍的应用场景中,用户获取的是文本的拍照图像,文本图像检测正是需要从这样的拍照图像中,利用图像处理技术,提取出所述各条目的具体内容。现有的检测方案是:先通过切边校正、目标检测等方法获取图像中证件或票据所在的位置,然后将证件或票据截取出来,并做图像大小归一化,最后利用模板信息来分别定位每个条目的位置。现有的检测方法检测精度低,难以精确定位出每个条目的位置。
技术实现思路
有鉴于此,本专利技术提供了一种文本图像检测方法、网络以及设备,旨在解决现有文本图像检测方法难以精确定位每个条目位置的问题。第一方面,本专利技术实施例提供了一种文本图像检测方法,应用于文本图像检测网络,所述文本图像检测网络包括基础子网络、推荐子网络以及定位子网络,所述文本图像检测方法包括:通过所述基础子网络,接收文本图像,对所述文本图像进行预处理,获得所述文本图像的特征图,并将所述特征图送入所述推荐子网络和所述定位子网络;通过所述推荐子网络,在所述特征图上,滑动铺设多种尺寸的先验框,使所述特征图上被铺设出多个先验框,每种先验框在垂直于条目方向的铺设密度大于平行于条目方向的铺设密度;通过所述推荐子网络,从所述特征图上的多个所述先验框中,筛选出能反映条目大致所在区域的先验框,作为推荐框,并将所述推荐框送入所述定位子网络;通过所述定位子网络,利用所述推荐框和所述特征图,定位所述文本图像中的条目的位置。第二方面,本专利技术实施例提供了一种文本图像检测网络,包括:基础子网络、推荐子网络以及定位子网络,所述基础子网络、推荐子网络以及定位子网络三者两两相连;所述基础子网络用于接收文本图像,对所述文本图像进行预处理,获得所述文本图像的特征图,并将所述特征图送入所述推荐子网络和所述定位子网络;所述推荐子网络用于在所述特征图上,滑动铺设多种尺寸的先验框,使所述特征图上被铺设出多个先验框,每种先验框在垂直于条目方向的铺设密度大于平行于条目方向的铺设密度;所述推荐子网络还用于从所述特征图上的多个所述先验框中,筛选出能反映条目大致所在区域的先验框,作为推荐框,并将所述推荐框送入所述定位子网络;所述定位子网络用于利用所述推荐框和所述特征图,定位所述文本图像中的条目的位置。第三方面,本专利技术实施例提供了一种文本图像检测设备,包括处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,当所述处理器执行所述计算机程序时,实现本专利技术实施例中任一所述的文本图像检测方法。与现有技术相比,本专利技术具有以下有益效果:本专利技术中,通过基础子网络对文本图像进行预处理,获得特征图后,将所述特征图送入所述推荐子网络和所述定位子网络;通过推荐子网络在所述特征图上,滑动铺设多种尺寸的先验框时,使每种先验框在垂直于条目方向的铺设密度大于平行于条目方向的铺设密度;通过所述推荐子网络从多个所述先验框中,筛选出能反映条目大致所在区域的先验框,作为推荐框,并将所述推荐框送入所述定位子网络;通过所述定位子网络利用所述推荐框和所述特征图,定位所述文本图像中的条目的位置。本专利技术结合文本图像的特点,在通过推荐子网络进行先验框滑动铺设时,对于平行于条目方向的铺设密度和垂直于条目方向的铺设密度区别对待,对于垂直于条目方向的先验框实现了稠密化铺设,使文本图像中行间距很小的各条目均能被至少一个先验框所框选,从而使更多条目能在经过后续的推荐框筛选、条目位置定位等处理过程后,被定位出来。综上,本专利技术所提供的文本图像检测方法,可应用于行间距很稠密的文本图像检测,能提高文本图像中各条目的定位率,从行间距很稠密的文本图像中定位出更多的条目。附图说明图1示出了实施例中提供的文本图像检测方法的流程示意图;图2示出了实施例中提供的文本图像检测网络的结构示意图;图3示出了实施例中所述的先验框组的结构示意图;图4示出了实施例中所述的滑动铺设的示意图。具体实施方式下文描述了本专利技术的具体实施方式,该实施方式为示意性的,旨在揭示本专利技术的具体工作过程,不能理解为对权利要求的保护范围的进一步限定。请参阅图1,实施例提供了一种文本图像检测方法,所述文本图像检测方法应用于文本图像检测网络。请参阅图2,所述文本图像检测网络包括基础子网络、推荐子网络和定位子网络,所述基础子网络、推荐子网络以及定位子网络三者两两相连。图1示出的文本图像检测方法可用于对行间距很稠密的文本图像检测,能提高文本图像中各条目的定位率,使行间距很稠密的文本图像中更多的条目被准确定位出。为了更清楚地对图1所示文本图像检测方法、以及该方法的上述特点进行说明,实施例首先将对现有相关技术进行简单介绍。相关技术中,借助机器学习对图像进行检测处理时,通常采用FasterR-CNN网络或MaskR-CNN网络进行开展上述图像检测处理。所述FasterR-CNN网络和MaskR-CNN网络的网络结构与图2所示的网络结构相似,所述FasterR-CNN网络和MaskR-CNN网络的网络结构均包括共享卷积层网络backbone、候选区域生成网络RPN以及对候选区域进行定位和分类的网络classifier,其中backbone、RPN以及classifier三者两两相连,backbone对应图2中的基础子网络,RPN对应图2中的推荐子网络,classifier对应图2中的定位子网络。FasterR-CNN网络或MaskR-CNN网络在进行图像检测时,首先利用所述backbone对原始图像进行卷积和池化,生成特征图featuremap,并将所述特征图分别送入所述RPN和classifier;然后利用所述RPN在所述特征图上逐像素滑动铺设多种先验框anchor,再判断每个先验框anchor是前景还是背景(即判断先验框anchor是否覆盖目标),为属于前景的anchor进行坐标修正,并将属于前景的anchor作为候选区域送入所述classifier;最后所述classifier对候选区域进行定位、分类,并输出结果。而FasterR-CNN网络与MaskR-CNN网络两者之间的区别在于,MaskR-CNN网络是在FasterR-CNN网络的基础上优化而来的,MaskR-CNN网络利用RoIAlign层替代FasterR-CNN网络中的RoIPooling层,并在FasterR-CNN网络的classifier中增设了Maskbranch,使最终的输出结果可在像素层面对目标进行标记区分,明确了目标是前景还是背景,提高了检测精度。考虑到FasterR-CNN网络与MaskR-CNN网络均为现有技术,因此本专利技术对其仅做简单介绍。另外,FasterR-CNN网络与MaskR-CNN网络没有特定的应用场景,通常可应用于对任何普通图像的目标检测,例如对风景、街景、人物、动物等照片的目标检测,可输出较精确地目标定位结果和目标分类结果。但是将其应用于文本图像检测时,特别是对于行间距很稠密的文本图像检测时,却难以适应文本中各条目的图像特征,导致对各条本文档来自技高网...

【技术保护点】
1.一种文本图像检测方法,其特征在于,应用于文本图像检测网络,所述文本图像检测网络包括基础子网络、推荐子网络以及定位子网络,所述文本图像检测方法包括:通过所述基础子网络,接收文本图像,对所述文本图像进行预处理,获得所述文本图像的特征图,并将所述特征图送入所述推荐子网络和所述定位子网络;通过所述推荐子网络,在所述特征图上,滑动铺设多种尺寸的先验框,使所述特征图上被铺设出多个先验框,每种先验框在垂直于条目方向的铺设密度大于平行于条目方向的铺设密度;通过所述推荐子网络,从所述特征图上的多个所述先验框中,筛选出能反映条目大致所在区域的先验框,作为推荐框,并将所述推荐框送入所述定位子网络;通过所述定位子网络,利用所述推荐框和所述特征图,定位所述文本图像中的条目的位置。

【技术特征摘要】
1.一种文本图像检测方法,其特征在于,应用于文本图像检测网络,所述文本图像检测网络包括基础子网络、推荐子网络以及定位子网络,所述文本图像检测方法包括:通过所述基础子网络,接收文本图像,对所述文本图像进行预处理,获得所述文本图像的特征图,并将所述特征图送入所述推荐子网络和所述定位子网络;通过所述推荐子网络,在所述特征图上,滑动铺设多种尺寸的先验框,使所述特征图上被铺设出多个先验框,每种先验框在垂直于条目方向的铺设密度大于平行于条目方向的铺设密度;通过所述推荐子网络,从所述特征图上的多个所述先验框中,筛选出能反映条目大致所在区域的先验框,作为推荐框,并将所述推荐框送入所述定位子网络;通过所述定位子网络,利用所述推荐框和所述特征图,定位所述文本图像中的条目的位置。2.根据权利要求1所述的文本图像检测方法,其特征在于,通过所述推荐子网络在滑动铺设多种尺寸的先验框时,对于平行于条目方向的两相邻先验框,所述两相邻先验框的中心之间的间距为m;对于垂直于条目方向的两相邻先验框,所述两相邻先验框的中心之间的间距为n;其中,m:n介于4~1.5:1之间,所述两相邻先验框为先验框的中心与中心之间相邻的两先验框。3.根据权利要求1所述的文本图像检测方法,其特征在于,所述多种尺寸的先验框的种类是k种;k种先验框的尺寸是通过以下方法确定的:将包含条目的文本图像样本输入k-means算法模型中,并将k-means算法模型的质心数设定为k个,使k-means算法模型输出k种尺寸的先验框;其中,k为介于12~18的整数。4.根据权利要求1所述的文本图像检测方法,其特征在于,所述多种尺寸的先验框的种类是k种;k种先验框的尺寸是通过以下方法确定的:将包含条目的文本图像样本输入IOU算法模型中,并将IOU算法模型的质心数设定为k个,使IOU算法模型输出k种尺寸的先验框;其中k为介于12~18的整数,所述IOU算法模型是利用1-...

【专利技术属性】
技术研发人员:李健高大帅张连毅武卫工
申请(专利权)人:北京捷通华声科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1