当前位置: 首页 > 专利查询>苏州大学专利>正文

一种手写体字符图像特征识别的方法及系统技术方案

技术编号:15640296 阅读:109 留言:0更新日期:2017-06-16 05:01
本发明专利技术公开了手写体字符图像特征识别的方法及系统,在特征学习方面,目标在于紧凑局部软标签类内散度并分离局部软标签类间散度,同时在所有训练数据上进行局部保持特征提取;为了在特征提取和展示方面对于噪声鲁棒,对于噪声鲁棒的1‑范数规则被用于构造样本间的相似度,使得在识别中图像展示的能力可得到显著提升;基于比例的模型可通过一个迭代的方法得到描述矩阵,该描述矩阵具有判别性与局部保持的特点且具有正交特性;样本外图像的归纳通过将测试样本向描述矩阵进行投影,进而将提取的特征输入最近邻分类器进行归类,取对应欧式距离最小值的位置,用于测试图像的类别鉴定,得到最准确的识别结果。

【技术实现步骤摘要】
一种手写体字符图像特征识别的方法及系统
本专利技术涉及计算机视觉和图像识别
,特别涉及一种手写体字符图像特征识别的方法及系统。
技术介绍
高维数据例如图像、音频等在日常生活中愈发普遍,因而可对其提取有用信息的特征学习方法显得尤为重要。离线手写体识别即是对其中某种高维信息进行特征提取并利用的一个实例。它通过电子专用设备将纸质手写文本电子化,得到计算机存储的字符图像,之后通过一系列特征学习的方法提取图像特征、分类等操作得到最终识别的字符。一旦得出高效准确识别字符的方法,可应用到办公自动化、机器翻译等领域,即可带来巨大的社会和经济效益。但是有效地抽取手写体图像特征的过程具有一定难度,到目前为止,离线手写体(简称手写体)字符识别距实用要求还有一定距离。目前的大部分研究工作都集中在处理手写体图像特征提取问题,且也已取得一定的成果。但是从真实世界中采集的图像通常存在包含噪声、数据缺失等问题,因此需要提出一种更鲁棒的算法来进行特征提取。近年来,为解决图像噪声带来的特征提取偏差的问题,一些基于1-范数的算法被提出,例如基于1-范数的主成分分析算法(PCA-L1)、基于1-范数的线性判别分析法(LDA-L1)等。鉴于传统的基于距离即2-范数的算法对于噪声更加敏感,而通过使用已被证实对于噪声更加鲁棒的1-范数来衡量样本相似度。这些算法使得结果更加鲁棒于其相应的基于2-范数的算法,但由于目前只存在无监督与监督算法,无法充分利用有标签数据和无标签数据信息,因此特征提取的信息量还有很大的提升空间;另外,普通算法中的一些经验参数也非常难以确定。因此,如何实现自动提取手写体字符图像特征,同时提高手写体字符图像表征能力与识别的准确度,是本领域技术人员亟待解决的问题。
技术实现思路
本专利技术的目的是提供一种手写体字符图像特征识别的方法及系统,以克服现有技术中仅使用有标签或无标签数据而没有充分利用现实中信息、对于噪声敏感的缺点。为解决上述技术问题,本专利技术提供一种手写体字符图像特征识别的方法,所述方法包括:输入手写体字符图像训练样本和手写体字符图像测试样本;将所述手写体字符图像训练样本输入软半监督判别手写体图像特征学习算法模型中,输出用于特征提取的描述矩阵;其中,所述软半监督判别手写体图像特征学习算法模型利用1-范数规则构造样本之间的加权相似图,并利用比例模型在紧凑局部软标签类内散度和分离局部软标签类间散度的同时保持所有手写体字符图像训练样本进行局部保持特征提取,通过迭代过程得到描述矩阵;利用所述描述矩阵提取所述手写体字符图像测试样本的特征,生成新测试特征集;将所述新测试特征集利用最近邻分类器进行归类,确定各所述手写体字符图像测试样本对应的欧式距离中最小值的位置,并将所述位置对应的类别作为各所述手写体字符图像测试样本的字符识别结果输出。可选的,将所述手写体字符图像训练样本输入软半监督判别手写体图像特征学习算法模型中,输出用于特征提取的描述矩阵,包括:根据所述手写体字符图像训练样本计算局部保持矩阵;根据所述手写体字符图像训练样本及所述局部保持矩阵,计算预定矩阵;其中,所述预定矩阵包括软标签权值矩阵,软标签各类均值矩阵,软标签全样本均值矩阵,权值矩阵;根据所述预定矩阵,利用所述比例模型通过迭代过程得到描述矩阵。可选的,根据所述手写体字符图像训练样本计算局部保持矩阵,包括:利用公式计算局部保持矩阵M;其中,||·||为2-范数,xi为第i个样本。可选的,根据所述手写体字符图像训练样本及所述局部保持矩阵,计算软标签权值矩阵,包括:利用公式计算软标签权值矩阵FS;其中,是F矩阵的第i列;是样本xi的K近邻集合;W是一个正规化的对称相似性矩阵,是矩阵FT的第i行;D是一个对角矩阵,其中的元素μi和ψ是相关权衡参数。可选的,根据所述手写体字符图像训练样本及所述局部保持矩阵,计算软标签各类均值矩阵,包括:利用公式计算软标签各类均值矩阵μi。可选的,根据所述手写体字符图像训练样本及所述局部保持矩阵,计算软标签全样本均值矩阵,包括:利用公式计算软标签全样本均值矩阵μ。可选的,根据所述手写体字符图像训练样本及所述局部保持矩阵,计算权值矩阵,包括:利用公式计算权值矩阵其中,γ∈[0,1]为软标签类内散度和局部保持投影权衡参数,软相似度矩阵定义为:可选的,利用所述描述矩阵提取所述手写体字符图像测试样本的特征,生成新测试特征集,包括:将所述手写体字符图像测试样本向所述描述矩阵进行映射,生成新测试特征集。本专利技术还提供一种手写体字符图像特征识别的系统,包括:输入模块,用于输入手写体字符图像训练样本和手写体字符图像测试样本;训练模块,用于将所述手写体字符图像训练样本输入软半监督判别手写体图像特征学习算法模型中,输出用于特征提取的描述矩阵;其中,所述软半监督判别手写体图像特征学习算法模型利用1-范数规则构造样本之间的加权相似图,并利用比例模型在紧凑局部软标签类内散度和分离局部软标签类间散度的同时保持所有手写体字符图像训练样本进行局部保持特征提取,通过迭代过程得到描述矩阵;测试预处理模块,用于利用所述描述矩阵提取所述手写体字符图像测试样本的特征,生成新测试特征集;测试模块,用于将所述新测试特征集利用最近邻分类器进行归类,确定各所述手写体字符图像测试样本对应的欧式距离中最小值的位置,并将所述位置对应的类别作为各所述手写体字符图像测试样本的字符识别结果输出。可选的,所述训练模块,包括:第一计算单元,用于根据所述手写体字符图像训练样本计算局部保持矩阵;第二计算单元,用于根据所述手写体字符图像训练样本及所述局部保持矩阵,计算预定矩阵;其中,所述预定矩阵包括软标签权值矩阵,软标签各类均值矩阵,软标签全样本均值矩阵,权值矩阵;第三计算单元,用于根据所述预定矩阵,利用所述比例模型通过迭代过程得到描述矩阵。经由上述的技术方案可知,与现有技术相比,本专利技术提供的手写体字符图像特征识别的方法及系统,在特征学习方面,其目标在于紧凑局部软标签类内散度并分离局部软标签类间散度,同时在所有训练数据(即手写体字符图像训练样本)上进行局部保持特征提取。为了使得提出的方法及系统在特征提取和展示方面对于噪声鲁棒,对于噪声鲁棒的1-范数规则被用于构造样本间的相似度,使得在识别中图像展示的能力可得到显著提升。基于比例模型可通过一个迭代的方法得到描述矩阵,该描述矩阵具有判别性与局部保持的特点,且具有正交特性。样本外图像的归纳通过将测试图像样本(即手写体字符图像测试样本)向描述矩阵进行投影,进而将提取的特征输入最近邻分类器进行归类,取对应欧式距离最小值的位置,用于测试图像的类别鉴定,得到最准确的识别结果。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本专利技术实施例所提供的手写体字符图像特征识别的方法的流程图;图2为本专利技术实施例所提供的手写体字符图像特征识别的系统的结构框图;图3为本专利技术实施例所提供的一种手写体识别预测示意图。具体实施方式本专利技术的核心是提供一张手写体字符图像特征识别的方法及系统,以本文档来自技高网
...
一种手写体字符图像特征识别的方法及系统

【技术保护点】
一种手写体字符图像特征识别的方法,其特征在于,所述方法包括:输入手写体字符图像训练样本和手写体字符图像测试样本;将所述手写体字符图像训练样本输入软半监督判别手写体图像特征学习算法模型中,输出用于特征提取的描述矩阵;其中,所述软半监督判别手写体图像特征学习算法模型利用1‑范数规则构造样本之间的加权相似图,并利用比例模型在紧凑局部软标签类内散度和分离局部软标签类间散度的同时保持所有手写体字符图像训练样本进行局部保持特征提取,通过迭代过程得到描述矩阵;利用所述描述矩阵提取所述手写体字符图像测试样本的特征,生成新测试特征集;将所述新测试特征集利用最近邻分类器进行归类,确定各所述手写体字符图像测试样本对应的欧式距离中最小值的位置,并将所述位置对应的类别作为各所述手写体字符图像测试样本的字符识别结果输出。

【技术特征摘要】
1.一种手写体字符图像特征识别的方法,其特征在于,所述方法包括:输入手写体字符图像训练样本和手写体字符图像测试样本;将所述手写体字符图像训练样本输入软半监督判别手写体图像特征学习算法模型中,输出用于特征提取的描述矩阵;其中,所述软半监督判别手写体图像特征学习算法模型利用1-范数规则构造样本之间的加权相似图,并利用比例模型在紧凑局部软标签类内散度和分离局部软标签类间散度的同时保持所有手写体字符图像训练样本进行局部保持特征提取,通过迭代过程得到描述矩阵;利用所述描述矩阵提取所述手写体字符图像测试样本的特征,生成新测试特征集;将所述新测试特征集利用最近邻分类器进行归类,确定各所述手写体字符图像测试样本对应的欧式距离中最小值的位置,并将所述位置对应的类别作为各所述手写体字符图像测试样本的字符识别结果输出。2.根据权利要求1所述的方法,其特征在于,将所述手写体字符图像训练样本输入软半监督判别手写体图像特征学习算法模型中,输出用于特征提取的描述矩阵,包括:根据所述手写体字符图像训练样本计算局部保持矩阵;根据所述手写体字符图像训练样本及所述局部保持矩阵,计算预定矩阵;其中,所述预定矩阵包括软标签权值矩阵,软标签各类均值矩阵,软标签全样本均值矩阵,权值矩阵;根据所述预定矩阵,利用所述比例模型通过迭代过程得到描述矩阵。3.根据权利要求2所述的方法,其特征在于,根据所述手写体字符图像训练样本计算局部保持矩阵,包括:利用公式计算局部保持矩阵M;其中,||·||为2-范数,xi为第i个样本。4.根据权利要求3所述的方法,其特征在于,根据所述手写体字符图像训练样本及所述局部保持矩阵,计算软标签权值矩阵,包括:利用公式计算软标签权值矩阵FS;其中,是F矩阵的第i列;是样本xi的K近邻集合;W是一个正规化的对称相似性矩阵,是矩阵FT的第i行;D是一个对角矩阵,其中的元素μi和ψ是相关权衡参数。5.根据权利要求4所述的方法,其特征在于,根据所述手写体字符图像训练样本及所述局部保持矩阵,计算软标签各类均值矩阵,包括:利用公式计算...

【专利技术属性】
技术研发人员:张召汪笑宇李凡长张莉王邦军
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1