一种多模型超图的手写汉字识别算法制造技术

技术编号:21185292 阅读:22 留言:0更新日期:2019-05-22 15:54
本发明专利技术公开了一种多模型超图的手写汉字识别算法,包括:特征提取、构建普通超图、构建稀疏超图、样本成对约束和融合稀疏表示与成对约束理论的超图学习。基于超图的学习模型是一种非常重要的直推式半监督学习方法,在已有的直推式半监督学习算法中,超图学习方法能获得较好的性能。

A Handwritten Chinese Character Recognition Algorithm Based on Multi-model Hypergraph

The invention discloses a handwritten Chinese character recognition algorithm based on multi-model hypergraph, which includes feature extraction, common hypergraph construction, sparse hypergraph construction, sample pair constraint and hypergraph learning combining sparse representation and pair constraint theory. Hypergraph-based learning model is a very important direct semi-supervised learning method. Among the existing direct semi-supervised learning algorithms, hypergraph learning method can achieve better performance.

【技术实现步骤摘要】
一种多模型超图的手写汉字识别算法
本专利技术涉及汉字识别算法
,尤其是涉及一种多模型超图的手写汉字识别算法。
技术介绍
目前,地质调查的野外工作是数据的重要来源,这部分人工记录的原始地质资料在地质大数据中占有相当大的比例,其蕴含着大量有价值的信息,但出于技术原因,这部分数据中的信息无法利用,成为了“暗数据”。汉字识别技术主要分为印刷体识别和手写体识别两大类。手写汉字的随意性大,比印刷体难识别。手写汉字识别根据数据采集的方式又可分为联机识别和脱机识别。在联机识别中,计算机能获得输入字符的笔画顺序,因此比脱机识别获得的信息更多,更容易识别。再加上拍照或扫描的过程中,不同的光照、分辨率、纸张等都会带来干扰。因此,脱机手写汉字识别远比联机识别要难。
技术实现思路
本专利技术的目的在于提供一种多模型超图的手写汉字识别算法。为实现上述目的,本专利技术采用以下内容:一种多模型超图的手写汉字识别算法,包括:特征提取:利用8重交叉验证方法,即在每一次实验中,把所有标记数据与非标记数据分别分成8等份,选取其中1份作为训练样本集,剩下的7份为测试样本集。然后重复8次,每一个样本都有机会成为训练样本,取均值作为性能评估;构建普通超图:距离其最近的若干样本所组成的集合为一条超边;构建稀疏超图:把稀疏优化思想应用于流形聚类,依据流形聚类假设,数据样本集可能采样于多个子流形,每个子流形的维度不一定相同,利用稀疏表示求解方法可解得每个子流形聚类;样本成对约束:成对约束包含两个约束:必须连接约束和不能连接约束;利用训练样本的标记信息,必须连接约束表示,标记信息相同的样本或者说同类样本通过学习后,其类别信念必须相近;而不能连接约束规定不同类的样本通过学习后,其类别信念相距越远越好;融合稀疏表示与成对约束理论的超图学习。优选的是,所述特征提取包括结构特征和统计特征;所述结构特征包括质心特征、笔划特征、笔划特征点和几何特征;所述统计特征包括方向特征、网格特征和Gabor特征。优选的是,所述质心特征是文本笔划分布的体现,将二值图像转化成点阵形式,再依据质心计算公式求出水平质心与垂直质心;所述笔划特征由横、竖、撇、捺四种基本笔划构成,对单字分别提取这四种基本笔划,统计出各自的数量;所述笔划特征点主要有端点、折点、歧点与交点,端点是笔划的起点或终点,折点是笔划方向出现显著变化的点,歧点是三叉点,交点是四叉点,按序对二值图像进行扫描,统计出各笔划特征点的个数;所述几何特征是计算包含文本块的最小矩形的长宽比值。优选的是,所述方向特征是文本块的方向角度;所述网格特征是把包含文本块的最小矩形平均分成若干行若干列,每个单元格中文字像素点的个数统计;Gabor特征是在网格基础上计算Gabor变换后的对应能量表示。本专利技术具有以下优点:本系统设计一种多模型的超图学习算法来识别手写汉字块,根据训练样本间距离关系构建样本关系阵,再以样本的稀疏表示参数为样本间的关系紧密性权重构建另一个样本关系阵,最后以样本约束法则为基础,以标记样本间的关系权重构建标记样本间的关系阵,融合这几个关系矩阵成为多模型的超图学习框架。通过迭代学习,找出最优的手写汉字块类别归属,在手写汉字块的实验中表现出一定的优势。附图说明下面结合附图对本专利技术的具体实施方式作进一步详细的说明。图1是本专利技术的一种多模型超图的手写汉字识别算法的流程图。图2是本专利技术的模型结构示意图。图3和图4是本专利技术的实施例示意图。具体实施方式为了更清楚地说明本专利技术,下面结合优选实施例对本专利技术做进一步的说明。本领域技术人员应当理解,下面所具体描述的内容是说明性的而非限制性的,不应以此限制本专利技术的保护范围。如图1至4所示,一种多模型超图的手写汉字识别算法包括:特征提取:收集68个志愿者手写的64遍“网络基础”的文本块图像;利用8重交叉验证方法,即在每一次实验中,把所有标记数据与非标记数据分别分成8等份,选取其中1份作为训练样本集,剩下的7份为测试样本集。然后重复8次,每一个样本都有机会成为训练样本,取均值作为性能评估;实验首先对每个文本块进行特征分析,志愿者在写文字时没有限定写法,对字体、字号、粗细、字间距、高低等不作要求,完全按照其真实的写法;结构特征包含质心特征、笔划特征、笔划特征点、几何特征;质心特征(2D,2维向量)是文本笔划分布的体现,将二值图像转化成点阵形式,再依据质心计算公式求出水平质心与垂直质心;笔划特征(4D)由横、竖、撇、捺四种基本笔划构成,对单字分别提取这四种基本笔划,统计出各自的数量;笔划特征点(4D)主要有端点、折点、歧点与交点,端点是笔划的起点或终点,折点是笔划方向出现显著变化的点,歧点是三叉点,交点是四叉点,按序对二值图像进行扫描,统计出各笔划特征点的个数;几何特征(1D)是计算包含文本块的最小矩形的长宽比值;统计特征包含方向特征、网格特征、Gabor特征等;方向特征(1D)是文本块的方向角度;网格特征(30D)是把包含文本块的最小矩形平均分成若干行若干列,每个单元格中文字像素点的个数统计,本文实验时分成3行10列共30个单元格;Gabor特征(30D)是在网格基础上计算Gabor变换后的对应能量表示;最后组合这些多种特征为文本块的72维的特征向量。构建普通超图:距离其最近的若干样本所组成的集合为一条超边;设定图G=(X,E),所有样本x构成样本集X,和所有的超边e集合构成边集E,每一条超边包含了若干个样本,边的权重是该边中所有样本间的距离平均值;设定矩阵Dv、De和W对角线元素分别表示相应样本所在的边数、超边中样本的个数和超边的权值,设定邻接阵H,矩阵元素表示两样本间的连接关系;根据文献(D.Zhou,J.Huang,andB.Scholkopf,″Learningwithhypergraphs:Clustering,classification,andembedding,”inProc.NeuralInf.Process.Syst.,Vancouver′BC,Canada,2006,pp.1601-1608)其目标函数如下:式中是拉普拉斯矩阵,fi是所有样本在第i类上的类属信念。构建稀疏超图:把稀疏优化思想应用于流形聚类,依据流形聚类假设,数据样本集可能采样于多个子流形,每个子流形的维度不一定相同,利用稀疏表示求解方法可解得每个子流形聚类;假定数据集是采样于一个包含n个独立子流形的统一空间里,相当于这个数据集包含n类样本,通过求解目标函数可以获得块稀疏解,每一块中的非零元素对应一个子流形;相近样本的稀疏表示也相近,并且可以被同子流形中相近的样本线性表示,稀疏系数对应着样本间的相关性或权值;而稀疏超图学习是基于稀疏字典上的稀疏系数空间,相当于原样本特征空间映射后的空间;有了这种映射,可以避免原样本空间中,不同的特征表示尺度不一的问题。迭代学习超边的权值,最终达到一个稳定状态;设定向量x∈Rd,可以由d个向量组成的向量组表示,设定x可以被表示成:w=[w1,w2,…,wd]T.x和w表示同一个数据点,前一个是基于空间域,另一个是基于∑域。我们的目标是求解出基于∑的稀疏系数,即w包含尽量少的非零元素;根据文献(J.Wright,A.Yang,A.Ganesh,S.Sastry,andY.Ma.Robu本文档来自技高网...

【技术保护点】
1.一种多模型超图的手写汉字识别算法,其特征在于,包括:特征提取:利用8重交叉验证方法,即在每一次实验中,把所有标记数据与非标记数据分别分成8等份,选取其中1份作为训练样本集,剩下的7份为测试样本集。然后重复8次,每一个样本都有机会成为训练样本,取均值作为性能评估;构建普通超图:距离其最近的若干样本所组成的集合为一条超边;构建稀疏超图:把稀疏优化思想应用于流形聚类,依据流形聚类假设,数据样本集可能采样于多个子流形,每个子流形的维度不一定相同,利用稀疏表示求解方法可解得每个子流形聚类;样本成对约束:成对约束包含两个约束:必须连接约束和不能连接约束;利用训练样本的标记信息,必须连接约束表示,标记信息相同的样本或者说同类样本通过学习后,其类别信念必须相近;而不能连接约束规定不同类的样本通过学习后,其类别信念相距越远越好;融合稀疏表示与成对约束理论的超图学习。

【技术特征摘要】
1.一种多模型超图的手写汉字识别算法,其特征在于,包括:特征提取:利用8重交叉验证方法,即在每一次实验中,把所有标记数据与非标记数据分别分成8等份,选取其中1份作为训练样本集,剩下的7份为测试样本集。然后重复8次,每一个样本都有机会成为训练样本,取均值作为性能评估;构建普通超图:距离其最近的若干样本所组成的集合为一条超边;构建稀疏超图:把稀疏优化思想应用于流形聚类,依据流形聚类假设,数据样本集可能采样于多个子流形,每个子流形的维度不一定相同,利用稀疏表示求解方法可解得每个子流形聚类;样本成对约束:成对约束包含两个约束:必须连接约束和不能连接约束;利用训练样本的标记信息,必须连接约束表示,标记信息相同的样本或者说同类样本通过学习后,其类别信念必须相近;而不能连接约束规定不同类的样本通过学习后,其类别信念相距越远越好;融合稀疏表示与成对约束理论的超图学习。2.根据权利要求1所述的一种多模型超图的手写汉字识别算法,其特征在于,所述特征提取包括结构特征和统计特...

【专利技术属性】
技术研发人员:魏炳辉
申请(专利权)人:江西理工大学应用科学学院
类型:发明
国别省市:江西,36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1