一种基于耦合空间学习的场景文字识别方法技术

技术编号:15437943 阅读:67 留言:0更新日期:2017-05-26 03:56
本发明专利技术实施例公开了一种基于耦合空间学习的场景文字识别方法,该方法包括以下步骤:输入场景文字图像进行预处理,得到训练场景文字图像;对训练场景文字图像进行识别特征提取,得到空间词典;利用空间词典对对应图像的识别特征进行空间编码,得到相应的空间编码向量;对空间编码向量进行最大化抽取得到特征向量;基于特征向量利用线性支持向量机训练得到场景文字识别分类模型;获取测试场景文字图像的特征向量,输入场景文字识别分类模型得到场景文字识别结果。本发明专利技术通过创建空间词典和利用空间词典进行空间编码,能够将空间上下文信息有效的结合在特征向量中,达到有效挖掘空间信息的目的,从而提高场景文字识别的正确率。

Scene character recognition method based on coupling spatial learning

The embodiment of the invention discloses a scene text recognition method based on coupled spatial learning, the method comprises the following steps: input scene text image preprocessing, training scene text image; the training scene text image recognition feature extraction, get the space corresponding to the image recognition dictionary; feature space by the dictionary space space vector encoding encoding, get the corresponding space vector encoding; to maximize feature vector extraction; feature vector using linear support vector machine training scene text classification model based on feature vector extraction; test scene text image, the input scene text classification model to get scene recognition result. The present invention through the creation of space and space using space encoding dictionary dictionary can be effectively combined with the spatial context information in the feature vector, effectively mining spatial information, so as to improve the accuracy of scene text recognition.

【技术实现步骤摘要】
一种基于耦合空间学习的场景文字识别方法
本专利技术属于模式识别
,具体涉及一种基于耦合空间学习的场景文字识别方法。
技术介绍
场景文字识别在模式识别领域扮演着重要的角色,它可以直接应用到图像检索、智能交通、人机交互等领域。在实际应用中,场景文字识别是一个很有挑战性的研究方向,因为场景文字会受到不均匀的光照、失真、复杂的背景等外界因素的影响。近几十年场景文字识别被广泛研究,一些早期的方法利用光学字符识别技术进行场景文字识别。但是,光学字符识别技术有很大的局限性,比如场景文字图像二值化操作。近年来,大量场景文字识别的方法被提出,并取得了较大的进步。其中,最有代表性的工作是基于目标识别的场景文字识别方法。基于目标识别的方法跳过了场景文字图像二值化的过程并且把每个场景文字看作是一个特殊的目标,并且在模式识别领域取得了一定的成功。如:Newell等人利用多尺度的HOG(HistogramofOrientedGradients,梯度直方图)进行特征表示。Zhang等人提取稀疏编码直方图(histogramsofsparsecodes,HSC)特征进行特征表示。Shi等人综合考虑局部特征信息和全局结构信息。虽然这些方法取得了一定的成效,但是他们在很大程度上忽视了空间上下文信息。由于不同文字在不同的位置可能包含相同的特征信息,这会造成重构误差,因此为了解决这个问题,Gao等人在特征表示阶段提出笔画库来考虑空间上下文信息。Shi等人提出的方法是Gao等人方法的延伸,他们使用判别性的多尺度的笔画库表示特征。Tian等人提出考虑HOG特征之间的共生关系来添加空间上下文信息。另外,Gao等人还提出基于位置嵌入词典来考虑空间上下文信息。虽然以上方法取得了较大的成功,但是只在单一方面考虑了空间上下文信息,即词典学习阶段或者编码阶段,所以不能够充分的保留有效的空间上下文信息。
技术实现思路
本专利技术的目的是要解决空间上下文信息对场景文字识别结果影响较大的技术问题,为此,本专利技术提供一种基于耦合空间学习的场景文字识别方法。为了实现所述目的,本专利技术基于耦合空间学习的场景文字识别方法包括以下步骤:步骤S1,对N幅输入场景文字图像分别进行预处理操作,得到N幅训练场景文字图像;步骤S2,对于N幅训练场景文字图像分别进行识别特征提取,得到N个空间词典;步骤S3,利用每幅训练场景文字图像的空间词典对该图像的识别特征进行空间编码,得到相应的空间编码向量;步骤S4,对于每幅训练场景文字图像的空间编码向量进行最大化抽取,得到所述训练场景文字图像对应的特征向量;步骤S5,基于所述训练场景文字图像的特征向量,利用线性支持向量机进行训练,得到场景文字识别分类模型;步骤S6,按照所述步骤S1-S4获取测试场景文字图像的特征向量,输入至所述场景文字识别分类模型得到场景文字识别结果。可选地,所述步骤S1包括以下步骤:步骤S11,将所述输入场景文字图像转换为灰度场景文字图像;步骤S12,将所述灰度场景文字图像的大小归一化为H×W,归一化后的灰度场景文字图像作为所述训练场景文字图像,其中,H和W分别表示灰度场景文字图像的高度和宽度。可选地,所述步骤S2包括以下步骤:步骤S21,在每幅训练场景文字图像的Pi(i=1,2,…,m)位置处分别提取一个识别特征,其中,m为每幅训练场景文字图像的识别特征提取位置数量;步骤S22,对于N幅训练场景文字图像,对从Pi位置处提取得到的所有识别特征进行聚类,得到子词典Ci(i=1,2,…,m),并将所述子词典Ci的位置记为Pi;步骤S23,将携带有位置信息的m个子词典串联得到空间词典。可选地,所述识别特征为HOG特征。可选地,所述步骤S22中,利用k-means聚类算法对识别特征进行聚类。可选地,所述空间词典表示为:D={C,P}={(C1,P1),(C2,P2),...,(Cm,Pm)},其中,D表示空间词典,C=(C1,C2,…,Cm)为m个子词典的集合,P=(P1,P2,…,Pm)表示子词典集合C的位置信息集合。可选地,所述步骤S3中,通过下式所示的目标函数对训练场景文字图像的识别特征进行空间编码:其中,||·||2表示l2范数,⊙表示两个矩阵中对应元素的点乘运算,fj表示识别特征,aj表示fj对应的空间编码向量,A=[a1,a2,…,aj,…]表示所有空间编码向量的集合,||fj-Caj||2表示利用空间词典对识别特征进行重构产生的误差;||djF⊙aj||2为局部正则项,表示特征空间中识别特征和子词典中的码字之间的距离约束关系;||djE⊙aj||2为空间正则项,表示在欧式空间里约束特征和子词典中的码字之间的位置关系;α和β为正则化参数,表示空间编码向量aj中的所有元素之和等于1;djF表示特征空间中识别特征和子词典中的码字之间的距离,djE表示欧式空间中识别特征fj对应的位置和子词典中码字对应的位置之间的距离。可选地,特征空间中识别特征和子词典中的码字之间的距离djF表示为:其中,σF是一个用来调节djF权重下降速度的参数,dist(fj,C)定义为:dist(fj,C)=[dist(fj,C1),dist(fj,C2),...,dist(fj,Cm)]T其中,dist(fj,Ci)(i=1,2,…,m)表示特征fj和子词典Ci中所有码字之间的欧式距离。可选地,欧式空间中识别特征fj对应的位置和子词典中码字对应的位置之间的距离djE表示为:其中,σE是一个用来调节djE权重下降速度的参数,dist(lj,P)定义为:dist(lj,P)=[dist(lj,P1),…,dist(lj,P1),dist(lj,P2),…,dist(lj,P2),…,dist(lj,Pm),…,dist(lj,Pm)]T其中,dist(lj,Pi)(i=1,2,…,m)表示识别特征fj的位置lj和子词典Ci位置Pi之间的欧式距离。可选地,所述步骤S4中,利用下式对于每幅训练场景文字图像的空间编码向量进行最大化抽取:a=max{a1,a2,...,aj,...,am},其中,a表示训练场景文字图像的特征向量,aj(j=1,2,...,m)表示空间编码向量。本专利技术的有益效果为:本专利技术通过创建空间词典和利用创建的空间词典进行空间编码,能够将空间上下文信息有效的结合在特征向量中,达到有效挖掘空间信息的目的,从而提高场景文字识别的正确率。需要说明的是,本专利技术得到了国家自然科学基金项目No.61401309、No.61501327、天津市应用基础与前沿技术研究计划青年基金项目No.15JCQNJC01700、天津师范大学博士基金项目No.5RL134、No.52XB1405的资助。附图说明图1是根据本专利技术一实施例提出的基于耦合空间学习的场景文字识别方法的流程图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本专利技术进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本专利技术的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本专利技术的概念。图1是根据本专利技术一实施例提出的基于耦合空间学习的场景文字识别方法的流程图,下面以图1为例来说明本专利技术的一些具体实现流程。本专利技术的方法是一种基本文档来自技高网
...
一种基于耦合空间学习的场景文字识别方法

【技术保护点】
一种基于耦合空间学习的场景文字识别方法,其特征在于,该方法包括以下步骤:步骤S1,对N幅输入场景文字图像分别进行预处理操作,得到N幅训练场景文字图像;步骤S2,对于N幅训练场景文字图像分别进行识别特征提取,得到N个空间词典;步骤S3,利用每幅训练场景文字图像的空间词典对该图像的识别特征进行空间编码,得到相应的空间编码向量;步骤S4,对于每幅训练场景文字图像的空间编码向量进行最大化抽取,得到所述训练场景文字图像对应的特征向量;步骤S5,基于所述训练场景文字图像的特征向量,利用线性支持向量机进行训练,得到场景文字识别分类模型;步骤S6,按照所述步骤S1‑S4获取测试场景文字图像的特征向量,输入至所述场景文字识别分类模型得到场景文字识别结果。

【技术特征摘要】
1.一种基于耦合空间学习的场景文字识别方法,其特征在于,该方法包括以下步骤:步骤S1,对N幅输入场景文字图像分别进行预处理操作,得到N幅训练场景文字图像;步骤S2,对于N幅训练场景文字图像分别进行识别特征提取,得到N个空间词典;步骤S3,利用每幅训练场景文字图像的空间词典对该图像的识别特征进行空间编码,得到相应的空间编码向量;步骤S4,对于每幅训练场景文字图像的空间编码向量进行最大化抽取,得到所述训练场景文字图像对应的特征向量;步骤S5,基于所述训练场景文字图像的特征向量,利用线性支持向量机进行训练,得到场景文字识别分类模型;步骤S6,按照所述步骤S1-S4获取测试场景文字图像的特征向量,输入至所述场景文字识别分类模型得到场景文字识别结果。2.根据权利要求1所述的方法,其特征在于,所述步骤S1包括以下步骤:步骤S11,将所述输入场景文字图像转换为灰度场景文字图像;步骤S12,将所述灰度场景文字图像的大小归一化为H×W,归一化后的灰度场景文字图像作为所述训练场景文字图像,其中,H和W分别表示灰度场景文字图像的高度和宽度。3.根据权利要求1所述的方法,其特征在于,所述步骤S2包括以下步骤:步骤S21,在每幅训练场景文字图像的Pi(i=1,2,…,m)位置处分别提取一个识别特征,其中,m为每幅训练场景文字图像的识别特征提取位置数量;步骤S22,对于N幅训练场景文字图像,对从Pi位置处提取得到的所有识别特征进行聚类,得到子词典Ci(i=1,2,…,m),并将所述子词典Ci的位置记为Pi;步骤S23,将携带有位置信息的m个子词典串联得到空间词典。4.根据权利要求3所述的方法,其特征在于,所述识别特征为HOG特征。5.根据权利要求3所述的方法,其特征在于,所述步骤S22中,利用k-means聚类算法对识别特征进行聚类。6.根据权利要求3所述的方法,其特征在于,所述空间词典表示为:D={C,P}={(C1,P1),(C2,P2),...,(Cm,Pm)},其中,D表示空间词典,C=(C1,C2,…,Cm)为m个子词典的集合,P=(P1,P2,…,Pm)表示子词典集合C的位置信息集合。7.根据权利要求1所述的方法,其特征在于,所述步骤S3中,通过下式所示的目标函数对训练场景文字图像的识别特征进行空间编码:其中,...

【专利技术属性】
技术研发人员:张重王红刘爽
申请(专利权)人:天津师范大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1