一种基于判别字典学习与稀疏表示的场景图片文字检测的方法技术

技术编号:14116004 阅读:109 留言:0更新日期:2016-12-07 18:25
本发明专利技术涉及一种基于判别字典学习与稀疏表示的场景图片文字检测的方法,属于数字图像处理技术领域。首先用训练数据以及提出的判别字典学习的方法训练学习出两个字典:文字字典和背景字典,再序列地合并文字字典和背景字典;然后由合并的字典、待检测的图像以及稀疏表示的方法计算出待检测图像所对应的文字和背景的稀疏表示系数;最后由学习到的字典与计算出的待检测图像对应的稀疏表示系数,重建待检测图像中的文字;用启发式规则对重建的文字图像中的文字区域进行处理从而检测出待检测图像中的候选的文字区域;本发明专利技术提出的判别字典学习与稀疏表示的场景图像文字检测的方法可以大幅度提高文字识别的准确度。

【技术实现步骤摘要】

本专利技术涉及一种基于判别字典学习与稀疏表示的场景图片文字检测的方法,属于数字图像处理

技术介绍
进入21世纪以来,互联网行业飞速发展,加之近几年智能手机的蓬勃发展,在PC端与移动终端的数字信息正在飞快的增长。数字图像和视频正是当今数字世界的主要元素之一,数字图像和视频中往往包含大量的文本区域,而这些文本信息正是理解该图像和视频含义的重要线索。如何从复杂的自然场景图像中提取出文本信息,对图像理解、图像检索都将有着非同寻常的意义,因此场景图像中的文本定位技术的研究吸引了众多海内外学者的研究。场景图像的文本定位算法是指,通过信息处理技术自动标记出图像中的文本区域,为后续的文字识别奠定基础。场景图像中的非文本区域可能是任何随机的场景,文本区域可能是嵌入在背景中的,也有可能成为背景纹理的一部分,甚至文本被背景部分遮挡等等,这些问题是文本定位的主要难题,也是场景图像文定位算法面临的核心问题。国内外的研究者们提出了不同的算法来解决这些问题并在该领域取得了丰富的研究成果,使得文本定位在许多领域中得到了广泛的应用,例如在图像检索/分类、不良信息的过滤、车牌识别等技术方面的应用。总结目前研究人员的工作,图像和视频文字检测方法主要分为基于边缘特征的方法、基于连通区域的方法、基于纹理特征的方法、基于机器学习的方法和一些综合上述几种的混合方法。基于边缘特征的方法主要是利用文本丰富的边缘信息进行文本区域的检测,该类方法通常先使用一些边缘检测算子,如梯度算子、Sobel算子、Canny算子等。基于边缘特征的方法优点很明显:速度很快。但是其缺点也很明显:当背景含有丰富的强边缘信息时,该类方法容易混淆背景的边缘和文字的边缘,降低检测的准确率。基于连通区域的方法是利用图像中的文字和背景通常具有较强的颜色对比,且大多数图像中的文本自身颜色具有一致性来实现文字检测的。基于连通区域的方法首先利用字符颜色一致性与背景具有较大对比度来分割图像,然后对分割后的图像进行连通域的分析,得到候选连通分量,再利用文字区域的几何特征对每个连通分量进行处理,最终形成文本区域。这种方法的优点是计算速度快,缺点是对于背景中含有与文本相同颜色通道的图像的误检率很高。基于纹理的方法通常把文本看成一种特殊的纹理,采用Gabor变换,小波变换和傅里叶变换等方法检测图像的纹理特征,然后根据训练的文字纹理特征检测图像的文字区域。基于纹理的方法优点是检测准确率高,缺点是计算量大,耗时长。机器学习的方法在处理不同文字的大小,颜色,及复杂背景方面取得了成功,可以使用机器学习的理论与传统的方法相结合的方法来实现场景图片文本区域检测。例如利用支持向量机SVM的方法训练文字的纹理笔画特征,用Gabor滤波器提取文字特征,用Adaboost对候选块进行分类,得到文本区域。
技术实现思路
本专利技术要解决的技术问题是提供一种基于判别字典学习与稀疏表示的场景图像文字检测的方法,以用于解决现有技术对于研究场景图像文字检测困难的问题,本专利技术的场景图像文字检测的方法对不同应用场景下的图像、视频理解及检索等上层应用能提供有力支撑。本专利技术的技术方案是:一种基于判别字典学习与稀疏表示的场景图片文字检测的方法,首先用训练数据以及提出的判别字典学习的方法训练学习出两个字典:文字字典和背景字典,再序列地合并文字字典和背景字典;然后由合并的字典、待检测的图像以及稀疏表示的方法计算出待检测图像所对应的文字和背景的稀疏表示系数;最后由学习到的字典与计算出的待检测图像对应的稀疏表示系数,重建待检测图像中的文字;用启发式规则对重建的文字图像中的文字区域进行处理从而检测出待检测图像中的候选的文字区域;具体步骤如下:Step1、首先构建文字和背景的训练样本;Step1.1、从互联网上收集文字图像和背景图像,其中文字图像只含有文字没有背景纹理,背景图像不含有文字。Step1.2、以滑动窗口的形式采集Step1.1中的文字图像和背景图像的数据,每个窗口(n×n)采集到数据作为一个列向量(n2×1)(后面统一称为原子,n为滑动窗口的大小),这样所有采集到的文字训练数据和背景训练数据为两个n2维的矩阵。Step2、利用训练样本学习字典;Step2.1、提出的字典学习的目标函数: m i n D , X { | | Y - D X | | F 2 + λ 1 | | X | | 1 + λ 2 f ( D X )本文档来自技高网
...
一种基于判别字典学习与稀疏表示的场景图片文字检测的方法

【技术保护点】
一种基于判别字典学习与稀疏表示的场景图像文字检测的方法,其特征在于:首先用训练数据以及提出的判别字典学习的方法训练学习出两个字典:文字字典和背景字典,再序列地合并文字字典和背景字典;然后由合并的字典、待检测的图像以及稀疏表示的方法计算出待检测图像所对应的文字和背景的稀疏表示系数;最后由学习到的字典与计算出的待检测图像对应的稀疏表示系数,重建待检测图像中的文字;用启发式规则对重建的文字图像中的文字区域进行处理从而检测出待检测图像中的候选的文字区域;具体步骤为:Step1、首先构建文字和背景的训练样本;Step1.1、从互联网上收集文字图像和背景图像,其中文字图像只含有文字没有背景纹理,背景图像不含有文字;Step1.2、以滑动窗口的形式采集Step1.1中的文字图像和背景图像的数据,每个窗口(n×n)采集到数据作为一个列向量(n2×1),n为滑动窗口的大小,所有采集到的文字训练数据和背景训练数据为两个n2维的矩阵;Step2、利用训练样本学习字典;Step2.1、提出字典学习的目标函数:minD,X{||Y-DX||F2+λ1||X||1+λ2f(DX)}s.t.||di||2=1]]>式中,Y、D、X分别为采集的样本数据、待学习的字典和样本数据对应的稀疏表示系数,f(DX)=tr(Sw(DX))‑tr(SB(DX))+η||DX||2F是改进的Fisher字典学习判别项,di为D中的第i个原子;Step2.2、目标函数的求解,需要对字典D和稀疏系数X进行迭代更新,X是以类(m=1,...,N)为单位更新的,D是以原子(i=1,...,k)为单位更新的,i和j是类m中的不同原子,迭代更新一次,i加1一次,加到k之后,m加1;直到所有类,所有原子更新完;Step2.2.1、固定D,求解X;用迭代更新的算法求解目标函数,初始化字典D,更新得到的稀疏表示系数X为m类的P次更新;Xm(P)=Sτ/σ(Xm(P-1)-12σ▿Q(Xm(P-1)))]]>其中σ,τ>0,为设定的调节值,是Q(Xm)的梯度值,Sτ/σ是软阈值算子,当|xn|≤τ/σ时,[Sτ/σ(x)]n=0;否则,[Sτ/σ(x)]n=xn‑sign(xn)τ/σ,更新次数P达到m类中的原子个数时,m加1,直到所有类都更新完;Step2.2.2、固定X,求解D;用迭代更新的算法求解目标函数,固定稀疏表示系数X,字典D的求解是以原子为单位更新的,也就是固定更新即更新m类的第i个原子,得:Dmi=Dmi+Dmr]]>式中,又有改进的Fisher判别项为m=1,2,...,N,i=1,2,...,K,表示m类的第i列,表示m类第i行,Mm是的均值向量,M是DX的均值向量;每迭代一次,i加1一次,直到达到m类中的原子个数时,m加1,直到所有类都更新完;Step3、待检测图像预处理;对待检测图像x进行滤波处理,保留前景文字的特征,弱化背景的纹理特征,用自适应滤波器进行预处理操作;Step4、待检测图像文字稀疏表示系数的求解;待检测图像文字区域的稀疏表示系数的求解是由Step2中求解出的字典D和待检测图像的数据Y作为已知条件求解的,如下式所示:argminX{||Y-DX||2F+||X||1}]]>式中,Y,D分别为待检测图像的数据和Step2中求解的字典,X为要求解的待检测图像对应的稀疏表示系数,由于训练样本分为文字训练样本W和非文字训练样本B,所以学习到的字典为文字字典D(W)和背景字典D(B),待检测图像的稀疏表示系数也分别为文字稀疏表示系数X(W)和背景稀疏表示系数X(B);要求解的待检测图像中的文字稀疏表示系数表示为X(W);Step5、重建待检测图像中的文字;由Step4中的待检测图像中文字的稀疏表示系数和Step2中学习到的字典,待检测图像中文字的重建可以通过下式重建:Y(W)=DX(W)这时得到的数据是一个矩阵,设定重建图像的大小与待检图像的大小严格一样,用matlab函数把矩阵数据显示为图像形式,图像中的没有重构的背景部分像素值为0;Step6、待检测图像中候选的文字区域;对Step5中重建的文字图像用启发式规则如形态学处理、双阈值限制,面积宽高比等方法去除错误重建的噪声或背景部分,找到重建的文字图像的连通区域的重心点,然后把确定出来的重心点连接在一起,最后用矩形框包围以重心点为中心,以给定阈值为边长的矩形框,这些矩形框所包围的区域为候选的文字区域;Step7、确定待检测图像的文字区域;对Step6中候选的文字区域用水平方向是否一致的方法和矩形框面积阈值限定的方法进行判断矩形框之间是否水平合并,对于不满足合并条件的矩形框直接舍弃得到一个大的矩形框,最后留下来的矩形框为检测到的文本区域。...

【技术特征摘要】
1.一种基于判别字典学习与稀疏表示的场景图像文字检测的方法,其特征在于:首先用训练数据以及提出的判别字典学习的方法训练学习出两个字典:文字字典和背景字典,再序列地合并文字字典和背景字典;然后由合并的字典、待检测的图像以及稀疏表示的方法计算出待检测图像所对应的文字和背景的稀疏表示系数;最后由学习到的字典与计算出的待检测图像对应的稀疏表示系数,重建待检测图像中的文字;用启发式规则对重建的文字图像中的文字区域进行处理从而检测出待检测图像中的候选的文字区域;具体步骤为:Step1、首先构建文字和背景的训练样本;Step1.1、从互联网上收集文字图像和背景图像,其中文字图像只含有文字没有背景纹理,背景图像不含有文字;Step1.2、以滑动窗口的形式采集Step1.1中的文字图像和背景图像的数据,每个窗口(n×n)采集到数据作为一个列向量(n2×1),n为滑动窗口的大小,所有采集到的文字训练数据和背景训练数据为两个n2维的矩阵;Step2、利用训练样本学习字典;Step2.1、提出字典学习的目标函数: m i n ...

【专利技术属性】
技术研发人员:李华锋刘舒萍汤宏颖余正涛
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1