一种基于交互平台的复杂背景中文本的快速检测方法技术

技术编号:13013489 阅读:52 留言:0更新日期:2016-03-16 10:45
本发明专利技术公开了一种基于交互平台的复杂背景中文本的快速检测方法,它包括以下步骤:S1:输入图像预处理;S2:文本候选区域快速定位:对步骤S1预处理后的图像作轮廓检测,并用矩形框将每个闭合区域框选出来,然后通过SIFT算法快速定位每个矩形框中的所有角点,将角点个数作为初步筛选条件进行初步筛选;S3:通过归一化算法首先将图像调整到统一的大小,再通过前向映射的方法将原图像中的内容投射到归一化后的图片的正中心,并适当的修正角度;S4:文本/背景筛选:首先提取特征,经过训练后的分类器筛选后的候选区域为检测出的文本区域。本发明专利技术实现复杂背景中的文本检测,其解决的主要问题是如何在保持较高精度情况下快速定位图像中水平及带有旋转角度的文本。

【技术实现步骤摘要】

本专利技术涉及计算机视觉和人机交互领域,尤其涉及一种基于交互平台的复杂背景 中文本的快速检测方法。
技术介绍
复杂背景中的文本检测问题,在计算机视觉领域和人机交互领域都视为一个经典 难题。原因有两点,首先这项技术有着广泛的应用。比如,可以利用这项技术让手机等智能 设备为我们读书念报,或应用于无人车上让车辆自动识别路标路牌。其次,文本检测问题有 时非常难解决的,因为文本检测不同于人脸、车辆、行人等一般的目标检测。文本的形状更 加多变(往往出现不同程度的形变、模糊),与背景更加相似,并且计算时间复杂度很高。 对于复杂背景的文本检测,目前主要有三种方法:1.基于纹理的文本检测方法。 2.基于区域的文本检测方法。3.基于深度学习的方法。 基于纹理的文本检测方法,是把复杂背景中的文本视为一种特殊的纹理。通常采 用滑动窗的方法进行纹理提取,再用Gabor滤波等对光线鲁棒对边缘信息敏感的滤波器进 行图像预处理,最后用灰度直方图的方法统计图像中的像素分布情况进而确定滑动窗中是 否有文本存在。其缺点是对背景较为复杂的图片处理效果不好,并且由于用到了滑动窗方 法其计算效率是非常低的。 基于区域的文本检测方法,是人文复杂背景中的文本都是一种局部连通的特殊区 域。其基本思想是利用连通区域提取算法将图像中的所有连通部分提取出来,然后用训练 分类器或制定筛选规则将文本部分与背景部分进行区分,最后再将所得到的文本进行整 合。其缺点在于过于依赖于连通区域的提取算法,但SWT或MSER这样的连通区域算法对低 对比度图像的提取效果是非常不理想的,从而影响整体的检测率。 基于深度学习的方法,是最近最流行的方法之一。其主要思想是利用海量的数据 及高性能的计算机训练一个多层的神经网络。这种方法为了提高训练效率一般要用GPU进 行加速。其缺点在于,需要海量的标注数据十分耗时耗力,并且一般对水平的文本效果较 好,但旋转的情况准确率不高。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种基于交互平台的复杂背景中文 本的快速检测方法,解决了文本定位速度过慢的问题,可以快速的将图片中文本定位,并有 车父强的鲁棒性。 本专利技术的目的是通过以下技术方案来实现的:一种基于交互平台的复杂背景中文 本的快速检测方法,它包括以下步骤: S1 :输入图像预处理:对输入的图像进行预处理操作,增强文本边缘对比度; S2 :文本候选区域快速定位:对步骤S1预处理后的图像作轮廓检测,并用矩形框 将每个闭合区域框选出来,然后通过SIFT算法快速定位每个矩形框中的所有角点,将角点 个数作为初步筛选条件进行初步筛选; S3 :候选区域归一化:通过归一化算法首先将图像调整到统一的大小,再通过前 向映射的方法将原图像中的内容投射到归一化后的图片的正中心,并适当的修正角度; S4 :文本/背景筛选:首先离线的根据训练样本提取具有鲁棒性的特征,经过训练 后的分类器筛选后的候选区域为检测出的文本区域。 所述的步骤S1包括以下子步骤:S11:将输入的图像进行直方图均值化,使得原始图像的灰度直方图从比较集中的 某个灰度区间变成在全部灰度范围的均匀分布,公式如下: 式中,η为图像的像素总和,nk是当前灰度级像素的个数,L是图像中可能出现的 像素灰度级的总数;S12:采用图像锐化算法对图像进行加强:采用Kirsch算子模板对图像上的每一 个像素点进行卷积求导数,所述的Kirsch算子模板的数量N代表方向的数量,对图像上的 N个特点边缘方向做出最大响应,运算中取最大值作为图像的边缘输出。 所述的步骤S2包括以下子步骤:S21:对步骤S1预处理后的图像作轮廓检测,并用矩形框将每个闭合区域框选出 来; S22 :通过SIFT算法快速定位每个矩形框中的所有角点; S23 :统计落在每个矩形框中的角点个数,公式如下: 式中,k代表第k个矩形框区域,w和h分别代表所述矩形框区域的宽和长,p(X,y) 代表矩形框的二值图像,s(x,y)代表矩形框对应的SIFT角点图;S24:用单位面积的角点个数作为初步筛选条件,公式如下:当PRNk的值大于某个值时,认为该区域含有文本。 所述的步骤S3包括以下子步骤:S31:采用Moment算法求出原图像中内容的形心,公式如下: 式中,X和y分别代表图像中(X,y)像素的坐标,f(x,y)代表在(X,y)点的像素 值;P和q代表阶数;mpq代表Moment算子;X。和y。分别代表原矩形框内的内容形心的坐标 值;S32:计算矩形框中内容的倾斜角度Θ,公式如下:μρ(1=Σ χΣγ(χ-χε)(y-yc)f(x,y); tan θ= μ n/μ〇2; S33:经过前向映射后得到新图像,公式如下:式中,X'。和y'。分别代表归一化图长宽的一半,(X',y')代表改变大小后的图像 的中心,α和β代表映射比例。 步骤S4中所述的特征包括方向梯度直方图特征、文本的起/终点与交叉点个数、 几何特征、轮廓的梯度均值;所述的几何特征包括:矩形框面积、非〇像素点个数、轮廓周 长。 所述的方向梯度直方图特征的提取包括以下子步骤: S51 :将图像按照一定形式花费为多个图像块,每个图像块包含多个图像单元; S52 :计算图像单元中每个像素的梯度,公式如下:Gx(x,y) =H(x+1,y)-Η(χ-1,y); Gy(x,y) =H(x,y+1)-H(x,y-1); 式中,H(x,y)表示在(x,y)点的像素值,Gx(x,y)和Gy(x,y)分别表示在这点上的 x方向和y方向的梯度值; S53 :计算梯度幅值G(x,y)和梯度方向α(X,y),公式如下: S54 :根据梯度幅值G(x,y)和梯度方向α(X,y)计算每一区域中落在每个方向中 像素的个数,作为方向梯度直方图的提取的特征。 所述的文本的起/终点与交叉点个数的提取包括文本的起/终点的提取和交叉点 个数的提取;其中,所述的文本的起/终点的提取为:在某像素点的邻域中只有一个非零点 与其连通,则认为是起/终点;所述的交叉点个数的提取包括以下几种情况: (1)当含有三个相邻像素时:如果与这个像素直接相连的像素中同时也与任意对 角方向的像素相连,那么这个点不是交叉点;如果相邻的像素中彼此不想连通,那么这个像 素点就是交叉点; (2)当含有四个相邻像素时:如果相邻像素中,有任意两个像素在对角方向同时 相连,那个这个点不是交叉点;否则,是交叉点; (3)当含有五个或以上相邻像素时:都视为是交叉点。 所述的轮廓的梯度均值的提取包括以下子步骤: S61 :采用S0BEL算子进行计算,公式如下:gx(x,y) =f(x+l,y_l)+2f(x+l,y)+f(x+l,y+l)-f(x_l,y-l)-2f(x_l,y)-f(x_l ,y+l);gy(x,y) =f(x-l,y+l)+2f(x,y+l)+f(x+l,y+l)-f(x-l,y-l)-2f(x,y-l)_f(x+l ,y_l); 式中,f(x,y)表示在(x,y)点的像素值,gx(x,y)和gy(x,y)分别表示在这点上的 X方向和y方向的梯度值; S62 :根据轮廓图对轮廓上的像素点梯度求平均值,得到的平均值作为轮廓的梯度 均值提取的特征。 所述的步骤S4包括以下子步骤:本文档来自技高网
...

【技术保护点】
一种基于交互平台的复杂背景中文本的快速检测方法,其特征在于:它包括以下步骤:S1:输入图像预处理:对输入的图像进行预处理操作,增强文本边缘对比度;S2:文本候选区域快速定位:对步骤S1预处理后的图像作轮廓检测,并用矩形框将每个闭合区域框选出来,然后通过SIFT算法快速定位每个矩形框中的所有角点,将角点个数作为初步筛选条件进行初步筛选;S3:候选区域归一化:通过归一化算法首先将图像调整到统一的大小,再通过前向映射的方法将原图像中的内容投射到归一化后的图片的正中心,并适当的修正角度;S4:文本/背景筛选:首先离线的根据训练样本提取具有鲁棒性的特征,经过训练后的分类器筛选后的候选区域为检测出的文本区域。

【技术特征摘要】

【专利技术属性】
技术研发人员:程洪王光甫杨路
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1