The invention discloses a handwritten Chinese character recognition algorithm based on multi-model hypergraph, which includes feature extraction, common hypergraph construction, sparse hypergraph construction, sample pair constraint and hypergraph learning combining sparse representation and pair constraint theory. Hypergraph-based learning model is a very important direct semi-supervised learning method. Among the existing direct semi-supervised learning algorithms, hypergraph learning method can achieve better performance.
【技术实现步骤摘要】
一种多模型超图的手写汉字识别算法
本专利技术涉及汉字识别算法
,尤其是涉及一种多模型超图的手写汉字识别算法。
技术介绍
目前,地质调查的野外工作是数据的重要来源,这部分人工记录的原始地质资料在地质大数据中占有相当大的比例,其蕴含着大量有价值的信息,但出于技术原因,这部分数据中的信息无法利用,成为了“暗数据”。汉字识别技术主要分为印刷体识别和手写体识别两大类。手写汉字的随意性大,比印刷体难识别。手写汉字识别根据数据采集的方式又可分为联机识别和脱机识别。在联机识别中,计算机能获得输入字符的笔画顺序,因此比脱机识别获得的信息更多,更容易识别。再加上拍照或扫描的过程中,不同的光照、分辨率、纸张等都会带来干扰。因此,脱机手写汉字识别远比联机识别要难。
技术实现思路
本专利技术的目的在于提供一种多模型超图的手写汉字识别算法。为实现上述目的,本专利技术采用以下内容:一种多模型超图的手写汉字识别算法,包括:特征提取:利用8重交叉验证方法,即在每一次实验中,把所有标记数据与非标记数据分别分成8等份,选取其中1份作为训练样本集,剩下的7份为测试样本集。然后重复8次,每一个样本都有机会成为训练样本,取均值作为性能评估;构建普通超图:距离其最近的若干样本所组成的集合为一条超边;构建稀疏超图:把稀疏优化思想应用于流形聚类,依据流形聚类假设,数据样本集可能采样于多个子流形,每个子流形的维度不一定相同,利用稀疏表示求解方法可解得每个子流形聚类;样本成对约束:成对约束包含两个约束:必须连接约束和不能连接约束;利用训练样本的标记信息,必须连接约束表示,标记信息相同的样本或者说同类样本通过 ...
【技术保护点】
1.一种多模型超图的手写汉字识别算法,其特征在于,包括:特征提取:利用8重交叉验证方法,即在每一次实验中,把所有标记数据与非标记数据分别分成8等份,选取其中1份作为训练样本集,剩下的7份为测试样本集。然后重复8次,每一个样本都有机会成为训练样本,取均值作为性能评估;构建普通超图:距离其最近的若干样本所组成的集合为一条超边;构建稀疏超图:把稀疏优化思想应用于流形聚类,依据流形聚类假设,数据样本集可能采样于多个子流形,每个子流形的维度不一定相同,利用稀疏表示求解方法可解得每个子流形聚类;样本成对约束:成对约束包含两个约束:必须连接约束和不能连接约束;利用训练样本的标记信息,必须连接约束表示,标记信息相同的样本或者说同类样本通过学习后,其类别信念必须相近;而不能连接约束规定不同类的样本通过学习后,其类别信念相距越远越好;融合稀疏表示与成对约束理论的超图学习。
【技术特征摘要】
1.一种多模型超图的手写汉字识别算法,其特征在于,包括:特征提取:利用8重交叉验证方法,即在每一次实验中,把所有标记数据与非标记数据分别分成8等份,选取其中1份作为训练样本集,剩下的7份为测试样本集。然后重复8次,每一个样本都有机会成为训练样本,取均值作为性能评估;构建普通超图:距离其最近的若干样本所组成的集合为一条超边;构建稀疏超图:把稀疏优化思想应用于流形聚类,依据流形聚类假设,数据样本集可能采样于多个子流形,每个子流形的维度不一定相同,利用稀疏表示求解方法可解得每个子流形聚类;样本成对约束:成对约束包含两个约束:必须连接约束和不能连接约束;利用训练样本的标记信息,必须连接约束表示,标记信息相同的样本或者说同类样本通过学习后,其类别信念必须相近;而不能连接约束规定不同类的样本通过学习后,其类别信念相距越远越好;融合稀疏表示与成对约束理论的超图学习。2.根据权利要求1所述的一种多模型超图的手写汉字识别算法,其特征在于,所述特征提取包括结构特征和统计特...
【专利技术属性】
技术研发人员:魏炳辉,
申请(专利权)人:江西理工大学应用科学学院,
类型:发明
国别省市:江西,36
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。