一种多模型超图的手写汉字识别算法制造技术

技术编号：21185292 阅读：22 留言：0更新日期：2019-05-22 15:54

本发明专利技术公开了一种多模型超图的手写汉字识别算法，包括：特征提取、构建普通超图、构建稀疏超图、样本成对约束和融合稀疏表示与成对约束理论的超图学习。基于超图的学习模型是一种非常重要的直推式半监督学习方法，在已有的直推式半监督学习算法中，超图学习方法能获得较好的性能。

A Handwritten Chinese Character Recognition Algorithm Based on Multi-model Hypergraph

The invention discloses a handwritten Chinese character recognition algorithm based on multi-model hypergraph, which includes feature extraction, common hypergraph construction, sparse hypergraph construction, sample pair constraint and hypergraph learning combining sparse representation and pair constraint theory. Hypergraph-based learning model is a very important direct semi-supervised learning method. Among the existing direct semi-supervised learning algorithms, hypergraph learning method can achieve better performance.

全部详细技术资料下载

【技术实现步骤摘要】
一种多模型超图的手写汉字识别算法
本专利技术涉及汉字识别算法
，尤其是涉及一种多模型超图的手写汉字识别算法。
技术介绍
目前，地质调查的野外工作是数据的重要来源，这部分人工记录的原始地质资料在地质大数据中占有相当大的比例，其蕴含着大量有价值的信息，但出于技术原因，这部分数据中的信息无法利用，成为了“暗数据”。汉字识别技术主要分为印刷体识别和手写体识别两大类。手写汉字的随意性大，比印刷体难识别。手写汉字识别根据数据采集的方式又可分为联机识别和脱机识别。在联机识别中，计算机能获得输入字符的笔画顺序，因此比脱机识别获得的信息更多，更容易识别。再加上拍照或扫描的过程中，不同的光照、分辨率、纸张等都会带来干扰。因此，脱机手写汉字识别远比联机识别要难。
技术实现思路
本专利技术的目的在于提供一种多模型超图的手写汉字识别算法。为实现上述目的，本专利技术采用以下内容：一种多模型超图的手写汉字识别算法，包括：特征提取：利用8重交叉验证方法，即在每一次实验中，把所有标记数据与非标记数据分别分成8等份，选取其中1份作为训练样本集，剩下的7份为测试样本集。然后重复8次，每一个样本都有机会成为训练样本，取均值作为性能评估；构建普通超图：距离其最近的若干样本所组成的集合为一条超边；构建稀疏超图：把稀疏优化思想应用于流形聚类，依据流形聚类假设，数据样本集可能采样于多个子流形，每个子流形的维度不一定相同，利用稀疏表示求解方法可解得每个子流形聚类；样本成对约束：成对约束包含两个约束：必须连接约束和不能连接约束；利用训练样本的标记信息，必须连接约束表示，标记信息相同的样本或者说同类样本通过...

【技术保护点】
1.一种多模型超图的手写汉字识别算法，其特征在于，包括：特征提取：利用8重交叉验证方法，即在每一次实验中，把所有标记数据与非标记数据分别分成8等份，选取其中1份作为训练样本集，剩下的7份为测试样本集。然后重复8次，每一个样本都有机会成为训练样本，取均值作为性能评估；构建普通超图：距离其最近的若干样本所组成的集合为一条超边；构建稀疏超图：把稀疏优化思想应用于流形聚类，依据流形聚类假设，数据样本集可能采样于多个子流形，每个子流形的维度不一定相同，利用稀疏表示求解方法可解得每个子流形聚类；样本成对约束：成对约束包含两个约束：必须连接约束和不能连接约束；利用训练样本的标记信息，必须连接约束表示，标记信息相同的样本或者说同类样本通过学习后，其类别信念必须相近；而不能连接约束规定不同类的样本通过学习后，其类别信念相距越远越好；融合稀疏表示与成对约束理论的超图学习。

【技术特征摘要】
1.一种多模型超图的手写汉字识别算法，其特征在于，包括：特征提取：利用8重交叉验证方法，即在每一次实验中，把所有标记数据与非标记数据分别分成8等份，选取其中1份作为训练样本集，剩下的7份为测试样本集。然后重复8次，每一个样本都有机会成为训练样本，取均值作为性能评估；构建普通超图：距离其最近的若干样本所组成的集合为一条超边；构建稀疏超图：把稀疏优化思想应用于流形聚类，依据流形聚类假设，数据样本集可能采样于多个子流形，每个子流形的维度不一定相同，利用稀疏表示求解方法可解得每个子流形聚类；样本成对约束：成对约束包含两个约束：必须连接约束和不能连接约束；利用训练样本的标记信息，必须连接约束表示，标记信息相同的样本或者说同类样本通过学习后，其类别信念必须相近；而不能连接约束规定不同类的样本通过学习后，其类别信念相距越远越好；融合稀疏表示与成对约束理论的超图学习。2.根据权利要求1所述的一种多模型超图的手写汉字识别算法，其特征在于，所述特征提取包括结构特征和统计特...

【专利技术属性】
技术研发人员：魏炳辉，
申请(专利权)人：江西理工大学应用科学学院，
类型：发明
国别省市：江西,36

全部详细技术资料下载我是这个专利的主人