The embodiment of the invention discloses a scene text recognition method based on coupled spatial learning, the method comprises the following steps: input scene text image preprocessing, training scene text image; the training scene text image recognition feature extraction, get the space corresponding to the image recognition dictionary; feature space by the dictionary space space vector encoding encoding, get the corresponding space vector encoding; to maximize feature vector extraction; feature vector using linear support vector machine training scene text classification model based on feature vector extraction; test scene text image, the input scene text classification model to get scene recognition result. The present invention through the creation of space and space using space encoding dictionary dictionary can be effectively combined with the spatial context information in the feature vector, effectively mining spatial information, so as to improve the accuracy of scene text recognition.
【技术实现步骤摘要】
一种基于耦合空间学习的场景文字识别方法
本专利技术属于模式识别
,具体涉及一种基于耦合空间学习的场景文字识别方法。
技术介绍
场景文字识别在模式识别领域扮演着重要的角色,它可以直接应用到图像检索、智能交通、人机交互等领域。在实际应用中,场景文字识别是一个很有挑战性的研究方向,因为场景文字会受到不均匀的光照、失真、复杂的背景等外界因素的影响。近几十年场景文字识别被广泛研究,一些早期的方法利用光学字符识别技术进行场景文字识别。但是,光学字符识别技术有很大的局限性,比如场景文字图像二值化操作。近年来,大量场景文字识别的方法被提出,并取得了较大的进步。其中,最有代表性的工作是基于目标识别的场景文字识别方法。基于目标识别的方法跳过了场景文字图像二值化的过程并且把每个场景文字看作是一个特殊的目标,并且在模式识别领域取得了一定的成功。如:Newell等人利用多尺度的HOG(HistogramofOrientedGradients,梯度直方图)进行特征表示。Zhang等人提取稀疏编码直方图(histogramsofsparsecodes,HSC)特征进行特征表示。Shi等人综合考虑局部特征信息和全局结构信息。虽然这些方法取得了一定的成效,但是他们在很大程度上忽视了空间上下文信息。由于不同文字在不同的位置可能包含相同的特征信息,这会造成重构误差,因此为了解决这个问题,Gao等人在特征表示阶段提出笔画库来考虑空间上下文信息。Shi等人提出的方法是Gao等人方法的延伸,他们使用判别性的多尺度的笔画库表示特征。Tian等人提出考虑HOG特征之间的共生关系来添加空间上下文信息 ...
【技术保护点】
一种基于耦合空间学习的场景文字识别方法,其特征在于,该方法包括以下步骤:步骤S1,对N幅输入场景文字图像分别进行预处理操作,得到N幅训练场景文字图像;步骤S2,对于N幅训练场景文字图像分别进行识别特征提取,得到N个空间词典;步骤S3,利用每幅训练场景文字图像的空间词典对该图像的识别特征进行空间编码,得到相应的空间编码向量;步骤S4,对于每幅训练场景文字图像的空间编码向量进行最大化抽取,得到所述训练场景文字图像对应的特征向量;步骤S5,基于所述训练场景文字图像的特征向量,利用线性支持向量机进行训练,得到场景文字识别分类模型;步骤S6,按照所述步骤S1‑S4获取测试场景文字图像的特征向量,输入至所述场景文字识别分类模型得到场景文字识别结果。
【技术特征摘要】
1.一种基于耦合空间学习的场景文字识别方法,其特征在于,该方法包括以下步骤:步骤S1,对N幅输入场景文字图像分别进行预处理操作,得到N幅训练场景文字图像;步骤S2,对于N幅训练场景文字图像分别进行识别特征提取,得到N个空间词典;步骤S3,利用每幅训练场景文字图像的空间词典对该图像的识别特征进行空间编码,得到相应的空间编码向量;步骤S4,对于每幅训练场景文字图像的空间编码向量进行最大化抽取,得到所述训练场景文字图像对应的特征向量;步骤S5,基于所述训练场景文字图像的特征向量,利用线性支持向量机进行训练,得到场景文字识别分类模型;步骤S6,按照所述步骤S1-S4获取测试场景文字图像的特征向量,输入至所述场景文字识别分类模型得到场景文字识别结果。2.根据权利要求1所述的方法,其特征在于,所述步骤S1包括以下步骤:步骤S11,将所述输入场景文字图像转换为灰度场景文字图像;步骤S12,将所述灰度场景文字图像的大小归一化为H×W,归一化后的灰度场景文字图像作为所述训练场景文字图像,其中,H和W分别表示灰度场景文字图像的高度和宽度。3.根据权利要求1所述的方法,其特征在于,所述步骤S2包括以下步骤:步骤S21,在每幅训练场景文字图像的Pi(i=1,2,…,m)位置处分别提取一个识别特征,其中,m为每幅训练场景文字图像的识别特征提取位置数量;步骤S22,对于N幅训练场景文字图像,对从Pi位置处提取得到的所有识别特征进行聚类,得到子词典Ci(i=1,2,…,m),并将所述子词典Ci的位置记为Pi;步骤S23,将携带有位置信息的m个子词典串联得到空间词典。4.根据权利要求3所述的方法,其特征在于,所述识别特征为HOG特征。5.根据权利要求3所述的方法,其特征在于,所述步骤S22中,利用k-means聚类算法对识别特征进行聚类。6.根据权利要求3所述的方法,其特征在于,所述空间词典表示为:D={C,P}={(C1,P1),(C2,P2),...,(Cm,Pm)},其中,D表示空间词典,C=(C1,C2,…,Cm)为m个子词典的集合,P=(P1,P2,…,Pm)表示子词典集合C的位置信息集合。7.根据权利要求1所述的方法,其特征在于,所述步骤S3中,通过下式所示的目标函数对训练场景文字图像的识别特征进行空间编码:其中,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。