当前位置: 首页 > 专利查询>苏州大学专利>正文

一种基于鲁棒度量的手写体识别方法与系统技术方案

技术编号:12223072 阅读:73 留言:0更新日期:2015-10-22 01:13
本发明专利技术公开了一种基于鲁棒度量的手写体识别方法与系统,通过对手写体训练样本进行相似性学习,构造加权相似图,在紧凑局部类内散度和分离局部类间散度的同时保持所有训练样本的局部特性。为了提升手写体描述的鲁棒性,提出将1-范数度量应用于半监督特征学习模型,设计出性能鲁棒的手写体识别方法与系统,输出一个可用于样本内和样本外手写体图像特征提取的投影矩阵P。样本外图像的归纳通过将测试样本向投影矩阵P进行投影,进而将提取的特征输入高效的标签传播分类器进行归类,取对应类别软标签中概率的最大值的位置,用于判定测试样本的类别,得到最准确的字符识别结果。同时,通过建立比率模型,减少了模型参数,且投影矩阵P满足正交特性。

【技术实现步骤摘要】

本专利技术涉及计算机视觉和图像识别
,特别是涉及一种基于鲁棒度量的手 写体体识别方法与系统。
技术介绍
如今是一个信息爆炸的时代,在我们日常生活中存在大量的、有价值的多媒体高 维信息。离线手写体识别即是对其中某种高维信息进行特征提取并利用的一个实例。它通 过计算机将纸质图像电子化,得到计算机存储的字符图像,之后通过一系列机器学习的方 法提取图像特征、分类等操作最终识别字符。一旦得出高效准确识别字符的方法,可应用到 办公自动化、机器翻译等领域,即可带来巨大的社会和经济效益。但是由于有效地抽取手写 体图像特征的过程具有一定难度,导致到目前为止,离线手写体(本专利技术中简称手写体)字 符识别距离实用要求还有一定距离。目前的大部分研宄工作都集中在处理手写体图像特征 提取问题,且也已取得一定的成果。但是从真实世界中采集的手写体图像通常存在包含噪 声、异类数据或数据缺失等问题,手写体图像存在因书写习惯等原因造成的不规范笔划等 问题,因此需要更鲁棒的算法来进行特征提取。 近年来,一些基于1-范数的鲁棒模型被提出,例如基于1-范数的主成分分析算法 (PCA-L1)、基于1-范数的判别性局部保持投影算法(DLPP-L1)等。这些鲁棒算法提出的思 想是:传统的基于2-范数距离度量的算法对于数据中的噪声或异类数据比较敏感,而基于 1-范数的距离度量则能克服这个缺点,提升模型的鲁棒性。这些算法确实使得结果更加鲁 棒,但由于目前只存在无监督与全监督的算法,无法充分利用有标签数据和无标签数据信 息,因此结果的准确度还有很大的提升空间。另外,算法中的一些经验参数也非常难以最优 确定。 因此,提供一种基于鲁棒度量的手写体识别方法及系统,实现手写体字符图像特 征的鲁棒提取,同时提高手写体字符图像表征能力与识别的准确度,是本领域技术人员亟 待解决的问题。
技术实现思路
有鉴于此,本专利技术提供了一种基于鲁棒度量的手写体识别方法与系统,实现手写 体字符图像特征的鲁棒提取,同时提高手写体字符图像表征能力与识别的准确度,以克服 现有技术中仅使用有标签或无标签数据,而没有充分考虑现实中数据信息的特点。 为解决上述技术问题,本专利技术提供一种基于鲁棒度量的手写体识别方法,基于有 标签数据的判别性与所有样本局部保持的1-范数投影的思想,该方法包括: 对手写体训练样本进行相似性学习,构造加权相似图,在紧凑局部类内散度和分 离局部类间散度的同时保持所有训练样本的局部特性;构建基于1-范数度量的鲁棒半监 督手写体字符图像特征学习模型,所述模型优化输出一个可用于样本内和样本外图像特征 提取的投影矩阵P;同时,通过建立比率模型,减少模型参数,且优化输出的投影矩阵P满足 正交特性; 利用所述投影矩阵P对手写体测试样本进行特征提取,样本外图像的归纳主要通 过将所述测试样本向投影矩阵P进行映射; 利用标签传播分类器,对降维后的测试样本特征完成测试,输出所述测试样本的 类别软标签,取对应所述类别软标签中概率的最大值的位置,用于判定所述测试样本的类 另IJ,得到字符识别结果; 其中,所述类别软标签中的数值代表所述测试样本属于各个类别的概率。 上述方法中,可选的,所述构建基于1-范数度量的鲁棒半监督手写体字符图像特 征学习模型,所述模型优化输出一个可用于样本内和样本外图像特征提取的投影矩阵P,包 括: 给定的一个存在噪声的原始训练样本集X= eirx/和无任何标签的样本集=eirxis且满 足样本数量1+11 = 1设¥ = £? 1>^为1个有标签样本的标签,且样本\的标签 为y"i彡1); 根据所述原始训练样本集计算得到一个具有判别性特征与局部保持特征的投影 矩阵:PeirxdW?n),包括通过解决以下优化方程输出得到可提取样本外手写体字符图像 特征的投影矩阵P:其中,|卜||1为1-范数,定义为||3||1=乙。炚」,5^表示3矩阵的第(1,」) 号元素,你~和W为权重系数矩阵。 上述方法中,可选的,所述利用所述投影矩阵P对手写体测试样本图像进行特征 提取,样本外图像的归纳主要通过将所述测试样本图像向投影矩阵P进行映射,包括: 使用所述投影矩阵P对训练样本和测试样本进行投影,完成手写体字符图像特征 提取。 本专利技术还提供了一种基于鲁棒度量的手写体识别系统,包括: 训练模块,用于对手写体训练样本进行相似性学习,构造得到加权相似图,在紧凑 局部类内散度和分离局部类间散度的同时保持所有训练样本的局部特性;构建基于1-范 数度量的鲁棒半监督手写体字符图像特征学习模型,所述模型优化输出一个可用于样本内 和样本外图像特征提取的投影矩阵P;同时,通过建立比率模型,减少模型参数,且优化输 出的投影矩阵P满足正交特性; 测试预处理模块,用于利用所述投影矩阵P对手写体测试样本进行特征提取,样 本外图像的归纳主要通过将所述测试样本向投影矩阵P进行映射; 测试模块,用于利用标签传播分类器,对降维后的测试样本特征完成测试,输出所 述测试样本的类别软标签,取对应所述类别软标签中概率的最大值的位置,用于判定所述 测试样本的类别,得到字符识别结果; 其中,所述类别软标签中的数值代表所述测试样本属于各个类别的概率。 经由上述的技术方案可知,与现有技术相比,本专利技术公开了一种基于鲁棒度量的 手写体识别方法与系统,通过对手写体训练样本进行相似性学习,构造得到加权相似图,在 紧凑局部类内散度和分离局部类间散度的同时保持所有训练样本的局部特性;为了提升手 写体描述的鲁棒性,构建基于1-范数度量的鲁棒半监督手写体字符图像特征学习模型,所 述模型优化输出一个可用于样本内和样本外图像特征提取的投影矩阵P;样本外图像的归 纳通过将测试样本向投影矩阵P进行投影,进而将提取的特征输入高效的标签传播分类器 进行归类,取对应类别软标签中概率的最大值的位置,用于判定测试样本的类别,得到最准 确的字符识别结果。同时,通过建立比率模型,减少了模型参数,且投影矩阵P满足正交特 性。【附图说明】 为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据 提供的附图获得其他的附图。 图1为本专利技术实施例提供的一种基于鲁棒度量的手写体识别方法的流程图; 图2为本专利技术实施例提供的一种基于鲁棒度量的手写体识别系统的结构框图示 意图; 图3为本专利技术实施例提供的一种基于鲁棒度量的手写体识别方法的识别示意图。【具体实施方式】 下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于 本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本专利技术保护的范围。 本专利技术的核心是提供一种基于鲁棒度量的手写体识别方法与系统,实现手写体字 符图像特征的鲁棒提取,同时提高手写体字符图像表征能力与识别的准确度,以克服现有 技术中仅使用有标签或无标签数据,而没有充分考虑现实中数据信息的特点。 本专利技术公开了一种基于鲁棒度量的手写体识别方法与本文档来自技高网
...

【技术保护点】
一种基于鲁棒度量的手写体识别方法,其特征在于,基于有标签数据的判别性与所有样本局部保持的1‑范数投影的思想,该方法包括:对手写体训练样本进行相似性学习,构造加权相似图,在紧凑局部类内散度和分离局部类间散度的同时保持所有训练样本的局部特性;构建基于1‑范数度量的鲁棒半监督手写体字符图像特征学习模型,所述模型优化输出一个可用于样本内和样本外图像特征提取的投影矩阵P;同时,通过建立比率模型,减少模型参数,且优化输出的投影矩阵P满足正交特性;利用所述投影矩阵P对手写体测试样本进行特征提取,样本外图像的归纳主要通过将所述测试样本向投影矩阵P进行映射;利用标签传播分类器,对降维后的测试样本特征完成测试,输出所述测试样本的类别软标签,取对应所述类别软标签中概率的最大值的位置,用于判定所述测试样本的类别,得到字符识别结果;其中,所述类别软标签中的数值代表所述测试样本属于各个类别的概率。

【技术特征摘要】

【专利技术属性】
技术研发人员:张召汪笑宇张莉李凡长
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1