当前位置: 首页 > 专利查询>苏州大学专利>正文

一种手写体数字识别方法及装置制造方法及图纸

技术编号:9171285 阅读:232 留言:0更新日期:2013-09-19 20:00
本申请公开了一种手写体数字识别方法及装置,所述方法包括分别将第一空间中的训练样本集合和手写体数字的待测样本映射至第二空间中;其中,所述训练样本集合包括至少两个训练样本,每个所述训练样本分别具有一个数字类别标识,所述训练样本集合中的训练样本包含至少两种数字类别;依据所述第二空间中的训练样本集合,确定测度变换矩阵;利用所述测度变换矩阵,分别获取所述待测样本与每个所述训练样本之间的距离值;依据每个所述距离值及其各自对应的数字类别标识,确定所述待测样本的数字类别。

【技术实现步骤摘要】
一种手写体数字识别方法及装置
本申请涉及计算机应用
,特别涉及一种手写体数字识别方法及装置。
技术介绍
目前,手写体数字识别的应用较为广泛,如邮件分拣中的邮政编码识别、财税识别、金融数字识别等应用领域,人们对手写体数字识别的精度与准确度的要求日渐增高。K近邻分类器是一种经典的分类器,由于其计算方便得到广泛应用。但在K近邻分类器中的方案中涉及到的样本点之间的距离测度是预先制定的,因此,这种方案会使得进行手写体数字识别的准确率明显降低。
技术实现思路
本申请所要解决的技术问题是提供一种手写体数字识别方法及装置,用以解决现有技术中K近邻分类器中的距离测度预先制定,使得进行手写体数字识别的准确率降低的技术问题,进一步解决了现有近邻成分分析方案对小样本无法处理的技术问题。本申请提供了一种手写体数字识别方法,包括:分别将第一空间中的训练样本集合和手写体数字的待测样本映射至第二空间中;其中,所述训练样本集合包括至少两个训练样本,每个所述训练样本分别具有一个数字类别标识,所述训练样本集合中的训练样本包含至少两种数字类别;依据所述第二空间中的训练样本集合,确定测度变换矩阵;利用所述测度变换矩阵,分别获取所述待测样本与每个所述训练样本之间的距离值;依据每个所述距离值及其各自对应的数字类别标识,确定所述待测样本的数字类别。上述方法,优选的,所述分别将第一空间中的训练样本集合和测试样本集合映射至第二空间中,包括:利用zi=Φ(xi)=[k(xi,x1)k(xi,x2)…k(xi,xN)]T,将第一空间中的训练样本集合映射至第二空间中;其中,zi为所述第二空间中训练样本集合内的训练样本,Φ(xi)为预设的映射函数,xi为所述第一空间中训练样本集合中的训练样本,k(xi,xj)为核函数;利用z=Φ(x)=[k(x,x1)k(x,x2)…k(x,xN)]T,将所述第一空间中的测试样本映射至所述第二空间中;其中,x为所述第一空间中的待测样本,k(x,xj)为核函数,z为被映射至所述第二空间中的待测样本。上述方法,优选的,所述依据所述第二空间中的训练样本集合,确定测度变换矩阵,包括:利用获取每个所述训练样本分别与区别于其自身的训练样本之间的近邻概率值;其中,pij为所述第二空间的训练样本集合中训练样本zi与训练样本zj作为近邻样本的概率值;依据每个所述训练样本的近邻概率值,确定每个所述训练样本属于每种所述数字类别的类别概率值;利用d(zi,zj)=(zi-zj)TQ(zi-zj)=(Azi-Azj)T(Azi-Azj)及每个所述训练样本的类别概率值,确定测度变换矩阵;其中,d(zi,zj)为所述第二空间的训练样本集合中训练样本zi与训练样本zj的距离,Q=ATA,A为所述第二空间中的测度变换矩阵。上述方法,优选的,所述利用测度变换矩阵,分别获取所述待测样本与每个所述训练样本之间的距离值,包括:利用d(z,zi)=(Az-Azi)T(Az-Azi),i=1,…,N,获取所述待测样本与每个所述训练样本之间的距离值;其中,d(z,zi)为所述待测样本z与所述训练样本zi之间的距离值,A为所述测度变换矩阵,N为所述训练样本集合中训练样本的总个数。上述方法,优选的,所述依据每个所述距离值及其各自对应的数字类别标识,确定所述待测样本的数字类别,包括:选取所述距离值小于或等于预设限值的训练样本;依据选取的训练样本的数字类别标识,确定所述待测样本的数字类别。本申请还提供了一种手写体数字识别装置,包括:样本映射单元,用于分别将第一空间中的训练样本集合和待测样本映射至第二空间中;其中,所述训练样本集合包括至少两个训练样本,每个所述训练样本分别具有一个数字类别标识,所述训练样本集合包含至少两种数字类别的训练样本;测度矩阵确定单元,用于依据所述第二空间中的训练样本集合,确定测度变换矩阵;距离值获取单元,用于利用所述测度变换矩阵,分别获取所述待测样本与每个所述训练样本之间的距离值;类别确定单元,用于依据所述每个所述距离值及其各自对应的数字类别标识,确定所述待测样本的数字类别。上述装置,优选的,所述样本映射单元包括:第一映射子单元,用于利用zi=Φ(xi)=[k(xi,x1)k(xi,x2)…k(xi,xN)]T,将第一空间中的训练样本集合映射至第二空间中;其中,zi为所述第二空间中训练样本集合内的训练样本,Φ(xi)为预设的映射函数,xi为所述第一空间中训练样本集合中的训练样本,k(xi,xj)为核函数;第二映射子单元,用于利用z=Φ(x)=[k(x,x1)k(x,x2)…k(x,xN)]T,将所述第一空间中的测试样本映射至所述第二空间中;其中,x为所述第一空间中的待测样本,k(x,xj)为核函数,z为被映射至所述第二空间中的待测样本。上述装置,优选的,所述测度矩阵确定单元包括:近邻概率值获取子单元,用于利用获取每个所述训练样本分别与区别于其自身的训练样本之间的近邻概率值;其中,pij为所述第二空间的训练样本集合中训练样本zi与训练样本zj作为近邻样本的概率值;类别概率值获取子单元,用于依据每个所述训练样本的近邻概率值,确定每个所述训练样本属于每种所述数字类别的类别概率值;测度矩阵确定子单元,用于利用d(zi,zj)=(zi-zj)TQ(zi-zj)=(Azi-Azj)T(Azi-Azj)及每个所述训练样本的类别概率值,确定测度变换矩阵;其中,d(zi,zj)为所述第二空间的训练样本集合中训练样本zi与训练样本zj的距离,Q=ATA,A为所述第二空间中的测度变换矩阵。上述装置,优选的,所述距离值获取单元具体用于利用d(z,zi)=(Az-Azi)T(Az-Azi),i=1,…,N,获取所述待测样本与每个所述训练样本之间的距离值;其中,d(z,zi)为所述待测样本z与所述训练样本zi之间的距离值,A为所述测度变换矩阵,N为所述训练样本集合中训练样本的总个数。上述装置,优选的,所述类别确定单元包括:样本选取子单元,用于选取所述距离值小于或等于预设限值的训练样本;类别确定子单元,用于依据选取的训练样本的数字类别标识,确定所述待测样本的数字类别。由上述方案可知,本申请提供的一种手写体数字识别方法及装置,首先分别将第一空间中的训练样本集合和手写体数字的待测样本映射至第二空间中,再依据所述第二空间中的训练样本集合,确定测度变换矩阵,之后利用所述测度变换矩阵,分别获取所述待测样本与每个所述训练样本之间的距离值,进而依据每个所述距离值及其各自对应的数字类别标识,确定所述待测样本的数字类别。本申请实施例通过将第一空间的训练样本及待测样本映射至第二空间中,再在第二空间中学习一个测度变换矩阵,由此计算待测样本与训练样本之间的距离,进而确定待测样本的数字类别,相对于现有技术中预先制定距离测度的情况,在实现识别手写体数字的前提下,提高了手写体数字识别的准确率。进一步的,现有技术中通过留一法误差分析来学习马氏距离测度实现手写体数字识别的方案中(即近邻成分分析算法),在对小样本问题的实际应用时,会产生过拟合问题,而且在优化的时候容易陷入局部极小点,杀跌当样本不是线性可分时,分类效果较差,识别效率较低。本申请实施例针对上述近邻成分分析算法,能够有效处理小样本问题,同时识别率较本文档来自技高网...
一种手写体数字识别方法及装置

【技术保护点】
一种手写体数字识别方法,其特征在于,包括:分别将第一空间中的训练样本集合和手写体数字的待测样本映射至第二空间中;其中,所述训练样本集合包括至少两个训练样本,每个所述训练样本分别具有一个数字类别标识,所述训练样本集合中的训练样本包含至少两种数字类别;依据所述第二空间中的训练样本集合,确定测度变换矩阵;利用所述测度变换矩阵,分别获取所述待测样本与每个所述训练样本之间的距离值;依据每个所述距离值及其各自对应的数字类别标识,确定所述待测样本的数字类别。

【技术特征摘要】
1.一种手写体数字识别方法,其特征在于,包括:分别将第一空间中的训练样本集合和手写体数字的待测样本映射至第二空间中;其中,所述训练样本集合包括至少两个训练样本,每个所述训练样本分别具有一个数字类别标识,所述训练样本集合中的训练样本包含至少两种数字类别;依据所述第二空间中的训练样本集合,使用马氏距离确定测度变换矩阵;利用所述测度变换矩阵,分别获取所述待测样本与每个所述训练样本之间的距离值;依据每个所述距离值及其各自对应的数字类别标识,确定所述待测样本的数字类别;所述依据所述第二空间中的训练样本集合,确定测度变换矩阵,包括:利用获取每个所述训练样本分别与区别于其自身的训练样本之间的近邻概率值;其中,pij为所述第二空间的训练样本集合中训练样本zi与训练样本zj作为近邻样本的概率值;依据每个所述训练样本的近邻概率值,确定每个所述训练样本属于每种所述数字类别的类别概率值;利用d(zi,zj)=(zi-zj)TQ(zi-zj)=(Azi-Azj)T(Azi-Azj)及每个所述训练样本的类别概率值,确定测度变换矩阵;其中,d(zi,zj)为所述第二空间的训练样本集合中训练样本zi与训练样本zj的距离,Q=ATA,A为所述第二空间中的测度变换矩阵。2.根据权利要求1所述的方法,其特征在于,所述分别将第一空间中的训练样本集合和测试样本集合映射至第二空间中,包括:利用zi=Φ(xi)=[k(xi,x1)k(xi,x2)…k(xi,xN)]T,将第一空间中的训练样本集合映射至第二空间中;其中,zi为所述第二空间中训练样本集合内的训练样本,Φ(xi)为预设的映射函数,xi为所述第一空间中训练样本集合中的训练样本,k(xi,xj)为核函数;利用z=Φ(x)=[k(x,x1)k(x,x2)…k(x,xN)]T,将所述第一空间中的测试样本映射至所述第二空间中;其中,x为所述第一空间中的待测样本,k(x,xj)为核函数,z为被映射至所述第二空间中的待测样本。3.根据权利要求1所述的方法,其特征在于,所述利用所述测度变换矩阵,分别获取所述待测样本与每个所述训练样本之间的距离值,包括:利用d(z,zi)=(Az-Azi)T(Az-Azi),i=1,…,N,获取所述待测样本与每个所述训练样本之间的距离值;其中,d(z,zi)为所述待测样本z与所述训练样本zi之间的距离值,A为所述测度变换矩阵,N为所述训练样本集合中训练样本的总个数。4.根据权利要求1、2、或3所述的方法,其特征在于,所述依据每个所述距离值及其各自对应的数字类别标识,确定所述待测样本的数字类别,包括:选取所述距离值小于或等于预设限值的训练样本;依据选取的训练样本的数字类别标识,确定所述待测样本的数字类别。5.一种...

【专利技术属性】
技术研发人员:张莉丁春涛仝霄王邦军何书萍李凡长
申请(专利权)人:苏州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1