文本图像检测方法、网络以及设备技术

技术编号：21893110 阅读：26 留言：0更新日期：2019-08-17 14:58

本发明专利技术涉及图像处理技术领域，提供了一种文本图像检测方法、网络和设备，旨在解决现有文本图像检测方法难以精确定位每个条目位置的问题。所述文本图像检测方法包括：通过基础子网络对文本图像进行预处理，获得所述文本图像的特征图；通过推荐子网络在所述特征图上滑动铺设多种尺寸的先验框，每种先验框在垂直于条目方向的铺设密度大于平行于条目方向的铺设密，并从多个先验框中，筛选出能反映条目大致所在区域的先验框，作为推荐框，通过定位子网络，利用所述推荐框和所述特征图，定位所述文本图像中的条目的位置。所述文本图像检测方法可应用于行间距很稠密的文本图像检测，从行间距很稠密的文本图像中定位出更多的条目。

Text Image Detection Method, Network and Equipment

全部详细技术资料下载

【技术实现步骤摘要】
文本图像检测方法、网络以及设备
本专利技术涉及图像处理
，具体而言，涉及一种文本图像检测方法、网络以及设备。
技术介绍
文本图像检测的目的是从固定版面文本中提取出各条目的具体内容。其中，所述条目是指一条特定类型的信息，例如文本版面(以身份证为例)上的姓名、出生日期、性别等。在普遍的应用场景中，用户获取的是文本的拍照图像，文本图像检测正是需要从这样的拍照图像中，利用图像处理技术，提取出所述各条目的具体内容。现有的检测方案是：先通过切边校正、目标检测等方法获取图像中证件或票据所在的位置，然后将证件或票据截取出来，并做图像大小归一化，最后利用模板信息来分别定位每个条目的位置。现有的检测方法检测精度低，难以精确定位出每个条目的位置。
技术实现思路
有鉴于此，本专利技术提供了一种文本图像检测方法、网络以及设备，旨在解决现有文本图像检测方法难以精确定位每个条目位置的问题。第一方面，本专利技术实施例提供了一种文本图像检测方法，应用于文本图像检测网络，所述文本图像检测网络包括基础子网络、推荐子网络以及定位子网络，所述文本图像检测方法包括：通过所述基础子网络，接收文本图像，对所述文本图像进行预处理，获得所述文本图像的特征图，并将所述特征图送入所述推荐子网络和所述定位子网络；通过所述推荐子网络，在所述特征图上，滑动铺设多种尺寸的先验框，使所述特征图上被铺设出多个先验框，每种先验框在垂直于条目方向的铺设密度大于平行于条目方向的铺设密度；通过所述推荐子网络，从所述特征图上的多个所述先验框中，筛选出能反映条目大致所在区域的先验框，作为推荐框，并将所述推荐框送入所述定位子网络；通过...

【技术保护点】
1.一种文本图像检测方法，其特征在于，应用于文本图像检测网络，所述文本图像检测网络包括基础子网络、推荐子网络以及定位子网络，所述文本图像检测方法包括：通过所述基础子网络，接收文本图像，对所述文本图像进行预处理，获得所述文本图像的特征图，并将所述特征图送入所述推荐子网络和所述定位子网络；通过所述推荐子网络，在所述特征图上，滑动铺设多种尺寸的先验框，使所述特征图上被铺设出多个先验框，每种先验框在垂直于条目方向的铺设密度大于平行于条目方向的铺设密度；通过所述推荐子网络，从所述特征图上的多个所述先验框中，筛选出能反映条目大致所在区域的先验框，作为推荐框，并将所述推荐框送入所述定位子网络；通过所述定位子网络，利用所述推荐框和所述特征图，定位所述文本图像中的条目的位置。

【技术特征摘要】
1.一种文本图像检测方法，其特征在于，应用于文本图像检测网络，所述文本图像检测网络包括基础子网络、推荐子网络以及定位子网络，所述文本图像检测方法包括：通过所述基础子网络，接收文本图像，对所述文本图像进行预处理，获得所述文本图像的特征图，并将所述特征图送入所述推荐子网络和所述定位子网络；通过所述推荐子网络，在所述特征图上，滑动铺设多种尺寸的先验框，使所述特征图上被铺设出多个先验框，每种先验框在垂直于条目方向的铺设密度大于平行于条目方向的铺设密度；通过所述推荐子网络，从所述特征图上的多个所述先验框中，筛选出能反映条目大致所在区域的先验框，作为推荐框，并将所述推荐框送入所述定位子网络；通过所述定位子网络，利用所述推荐框和所述特征图，定位所述文本图像中的条目的位置。2.根据权利要求1所述的文本图像检测方法，其特征在于，通过所述推荐子网络在滑动铺设多种尺寸的先验框时，对于平行于条目方向的两相邻先验框，所述两相邻先验框的中心之间的间距为m；对于垂直于条目方向的两相邻先验框，所述两相邻先验框的中心之间的间距为n；其中，m:n介于4～1.5:1之间，所述两相邻先验框为先验框的中心与中心之间相邻的两先验框。3.根据权利要求1所述的文本图像检测方法，其特征在于，所述多种尺寸的先验框的种类是k种；k种先验框的尺寸是通过以下方法确定的：将包含条目的文本图像样本输入k-means算法模型中，并将k-means算法模型的质心数设定为k个，使k-means算法模型输出k种尺寸的先验框；其中，k为介于12～18的整数。4.根据权利要求1所述的文本图像检测方法，其特征在于，所述多种尺寸的先验框的种类是k种；k种先验框的尺寸是通过以下方法确定的：将包含条目的文本图像样本输入IOU算法模型中，并将IOU算法模型的质心数设定为k个，使IOU算法模型输出k种尺寸的先验框；其中k为介于12～18的整数，所述IOU算法模型是利用1-...

【专利技术属性】
技术研发人员：李健，高大帅，张连毅，武卫工，
申请(专利权)人：北京捷通华声科技股份有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人