一种基于形态成分分析与自适应字典学习的场景图像文字检测的方法技术

技术编号:14146992 阅读:79 留言:0更新日期:2016-12-11 04:01
本发明专利技术涉及一种基于形态成分分析与自适应字典学习的场景图像文字检测的方法,属于数字图像处理技术领域。首先构建样本数据并训练出两个初始字典:文字字典和背景字典;然后由训练好的初始字典、待检测的图像和自适应字典学习算法计算出待检测图像的文字和背景所对应的字典和稀疏表示系数;再由自适应字典和待检测图像对应的稀疏表示系数重建待检测图像中的文字图像;用启发式规则对重建的文字图像进行处理来检测出待检测图像中的候选的文字区域;最后用矩形框框出最终的文字区域。本发明专利技术使计算机能够自动地理解图像所包含的语义信息、并为导盲技术,车牌识别和车辆定位追踪技术以及图像检索技术等提供了有力的支撑。

【技术实现步骤摘要】

本专利技术涉及一种基于形态成分分析与自适应字典学习的场景图像文字检测的方法,属于数字图像处理

技术介绍
进入21世纪以来,互联网行业飞速发展,加之近几年智能手机的蓬勃发展,在PC端与移动终端的数字信息正在飞快的增长。数字图像和视频正是当今数字世界的主要元素之一,数字图像和视频中往往包含大量的文本区域,而这些文本信息正是理解该图像和视频含义的重要线索。如何从复杂的自然场景图像中提取出文本信息,对图像理解、图像检索都将有着非同寻常的意义,因此场景图像中的文本定位技术的研究吸引了众多海内外学者的研究。场景图像的文本定位算法是指,通过信息处理技术自动标记出图像中的文本区域,为后续的文字识别奠定基础。场景图像中的非文本区域可能是任何随机的场景,文本区域可能是嵌入在背景中的,也有可能成为背景纹理的一部分,甚至文本被背景部分遮挡等等,这些问题是文本定位的主要难题,也是场景图像文定位算法面临的核心问题。国内外的研究者们提出了不同的算法来解决这些问题并在该领域取得了丰富的研究成果,使得文本定位在许多领域中得到了广泛的应用,例如在图像检索/分类、不良信息的过滤、车牌识别等技术方面的应用。总结目前研究人员的工作,图像和视频文字检测方法主要分为基于边缘特征的方法、基于连通区域的方法、基于纹理特征的方法、基于机器学习的方法和一些综合上述几种的混合方法。基于边缘特征的方法主要是利用文本丰富的边缘信息进行文本区域的检测,该类方法通常先使用一些边缘检测算子,如梯度算子、Sobel算子、Canny算子等。基于边缘特征的方法优点很明显:速度很快。但是其缺点也很明显:当背景含有丰富的强边缘信息时,该类方法容易混淆背景的边缘和文字的边缘,降低检测的准确率。基于连通区域的方法是利用图像中的文字和背景通常具有较强的颜色对比,且大多数图像中的文本自身颜色具有一致性来实现文字检测的。基于连通区域的方法首先利用字符颜色一致性与背景具有较大对比度来分割图像,然后对分割后的图像进行连通域的分析,得到候选连通分量,再利用文字区域的几何特征对每个连通分量进行处理,最终形成文本区域。这种方法的优点是计算速度快,缺点是对于背景中含有与文本相同颜色通道的图像的误检率很高。基于纹理的方法通常把文本看成一种特殊的纹理,采用Gabor变换,小波变换和傅里叶变换等方法检测图像的纹理特征,然后根据训练的文字纹理特征检测图像的文字区域。基于纹理的方法优点是检测准确率高,缺点是计算量大,耗时长。机器学习的方法在处理不同文字的大小,颜色,及复杂背景方面取得了成功,可以使用机器学习的理论与传统的方法相结合的方法来实现场景图片文本区域检测。例如利用支持向量机SVM的方法训练文字的纹理笔画特征,用Gabor滤波器提取文字特征,用Adaboost对候选块进行分类,得到文本区域。
技术实现思路
本专利技术要解决的技术问题是提供一种基于形态成分分析与自适应字典学习的场景图像文字检测的方法,以用于解决现有技术对于研究场景图像文字检测困难的问题,本专利技术的场景图像文字检测的方法对不同应用场景下的图像、视频理解及检索等上层应用能提供有力支撑。本专利技术的技术方案是:一种基于形态成分分析与自适应字典学习的场景图像文字检测的方法,首先构建样本数据并训练出两个初始字典:文字字典和背景字典;然后由训练好的初始字典、待检测的图像和自适应字典学习算法计算出待检测图像的文字和背景所对应的字典和稀疏表示系数;再由自适应字典和待检测图像对应的稀疏表示系数重建待检测图像中的文字图像;用启发式规则对重建的文字图像进行处理来检测出待检测图像中的候选的文字区域;最后用矩形框框出最终的文字区域;具体步骤为:Step1、训练样本的采集;Step1.1、从互联网上收集文字图像和背景图像,其中文字图像只有文字没有背景纹理,背景图像不含有文字;Step1.2、用滑动窗口采集Step1.1中的文字图像和背景图像的数据,每个窗口(n×n)的数据作为一个列向量(n2×1),列向量统一称为原子,n为滑动窗口的大小,这样所有采集到的文字训练数据和背景训练数据为两个n2维的矩阵;Step2、用K-svd的方法学习初始字典;用K-svd的方法学习初始字典,学习字典的目标函数为: m i n D , α { | | x - D α | | F 2 + λ 1 | | α | | 1本文档来自技高网
...
一种基于形态成分分析与自适应字典学习的场景图像文字检测的方法

【技术保护点】
一种基于形态成分分析与自适应字典学习的场景图像文字检测的方法,其特征在于:首先构建样本数据并训练出两个初始字典:文字字典和背景字典;然后由训练好的初始字典、待检测的图像和自适应字典学习算法计算出待检测图像的文字和背景所对应的字典和稀疏表示系数;再由自适应字典和待检测图像对应的稀疏表示系数重建待检测图像中的文字图像;用启发式规则对重建的文字图像进行处理来检测出待检测图像中的候选的文字区域;最后用矩形框框出最终的文字区域;具体步骤为:Step1、训练样本的采集;Step1.1、从互联网上收集文字图像和背景图像,其中文字图像只有文字没有背景纹理,背景图像不含有文字;Step1.2、用滑动窗口采集Step1.1中的文字图像和背景图像的数据,每个窗口(n×n)的数据作为一个列向量(n2×1),列向量统一称为原子,n为滑动窗口的大小,这样所有采集到的文字训练数据和背景训练数据为两个n2维的矩阵;Step2、用K‑svd的方法学习初始字典;用K‑svd的方法学习初始字典,学习字典的目标函数为:minD,α{||x-Dα||F2+λ1||α||1}s.t.||di||2=1]]>其中x、D、α分别为训练样本数据、训练的字典和训练样本的稀疏表示系数,当训练数据为文字数据时,学习到的字典为文字字典Dt1;当训练数据为背景数据时,学习到的字典为背景字典Db1,di为Dζ(ζ=t1,b1)中的第i个原子;Step3、待检测图像预处理;对待检测图像x进行滤波处理,保留前景文字的特征,弱化背景的纹理特征,用自适应滤波器进行预处理操作;Step4、利用初始字典和预处理的待检测图像学习自适应字典和对应的稀疏表示系数;Step4.1学习自适应字典和对应的稀疏表示系数目标函数的设计;学习自适应字典和对应的稀疏表示系数的目标函数为:{Dt,Db,αt,αb}=argminDt,Db,αt,αb{||x-Dtαt-Dbαb||22+Σi,j∈{t,b}i≠j||Diαj||22+η||DtTDb||F2+Σj=1CΣi=1CΣl=1mWi,j||dtil-dtj-I||22+λ1Σi∈{t,b}||αi||1}s.t.||dk||2=1,∀k∈Ω.]]>其中x,Dt,Db分别为待检测图像的数据和求解的自适应的文字字典和背景字典,αt,αb为要求解的待检测图像对应的文字和背景的稀疏表示系数,Ω为字典D=[Dt,Db]中的子原子集,I是值全为1的单位向量,是文字字典第j个原子的平均值,权重矩阵W=(Wi,j)mi,j,Wi,j用来衡量不同原子间的相似度,如果两个原子是一个类的,Wi,j应该取较大值,否则,Wi,j应该取较小值;Step4.2目标函数的解;Step4.2.1给定D和用迭代映射的方法求解到的稀疏编码为:αtl+1=proxv(αtl-vk▿αt(l)Q(αtl,αbl))]]>αbl+1=proxv(αbl-vk▿αb(l)Q(αtl,αbl))]]>其中,proxμh(α)i=0|αi|<μαi+sign(αi)μotherwise,]]>▿αt(l)Q(αtl,αbl)=2(DtTDtαtl-DtTx+DtTDbαbl+DbTDbαtl)+DbTDtαbl]]>▿αb(l)Q(αtl,αbl)=2(DbTDbαbl-DbTx+DbTDtαtl+DtTDtαbl)+DtTDbαtl]]>Step4.2.2已知稀疏表示系数αt和αb,求解到的Dt和Db为:Dtl+1=2(DtlαtlαtlT-xαtlT+DbαblαtlT+DtlαblαblT+DblTDtlT+CDtlT-WMT+AkAkTDtlT)]]>Dbl+1=2(DblαblαblT-xαblT+DtαtlαblT+Dblαtl&alph...

【技术特征摘要】
1.一种基于形态成分分析与自适应字典学习的场景图像文字检测的方法,其特征在于:首先构建样本数据并训练出两个初始字典:文字字典和背景字典;然后由训练好的初始字典、待检测的图像和自适应字典学习算法计算出待检测图像的文字和背景所对应的字典和稀疏表示系数;再由自适应字典和待检测图像对应的稀疏表示系数重建待检测图像中的文字图像;用启发式规则对重建的文字图像进行处理来检测出待检测图像中的候选的文字区域;最后用矩形框框出最终的文字区域;具体步骤为:Step1、训练样本的采集;Step1.1、从互联网上收集文字图像和背景图像,其中文字图像只有文字没有背景纹理,背景图像不含有文字;Step1.2、用滑动窗口采集Step1.1中的文字图像和背景图像的数据,每个窗口(n×n)的数据作为一个列向量(n2×1),列向量统一称为原子,n为滑动窗口的大小,这样所有采集到的文字训练数据和背景训练数据为两个n2维的矩阵;Step2、用K-svd的方法学习初始字典;用K-svd的方法学习初始字典,学习字典的目标函数为: ...

【专利技术属性】
技术研发人员:李华锋刘舒萍汤宏颖余正涛
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1