一种基于加权稀疏表示分类的手写汉字识别方法技术

技术编号:21833931 阅读:23 留言:0更新日期:2019-08-10 18:28
本发明专利技术提供一种基于加权稀疏表示分类的手写汉字识别方法,包含步骤:S1、建立训练样本集A={Ai}i∈[1,k],Ai为从选取的手写汉字库中提取的第i类特征向量,k为所述手写汉字库中提取的特征向量类别总数;S2、建立测试向量y,y为从待识别手写汉字中提取的特征向量,计算y在A上的稀疏表示向量

A Handwritten Chinese Character Recognition Method Based on Weighted Sparse Representation Classification

【技术实现步骤摘要】
一种基于加权稀疏表示分类的手写汉字识别方法
本专利技术涉及光学字符识别技术,特别涉及一种手写汉字的自动识别方法。
技术介绍
OCR(光学字符识别OpticalCharacterRecognition)是指利用电子设备(例如扫描仪或数码相机)获取纸上的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。OCR技术广泛应用于录入和处理银行票据、文字资料、档案卷宗、文案等,可代替人的手工录入,节省大量人力。通常以最终识别率、识别速度作为评测OCR技术的重要依据。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题。手写汉字识别技术属于OCR领域。显然识别手写汉字要把识别手写英文难上很多。第一,英文字符的分类少,总共62个字符(26个英文字母的大小写再加十个阿拉伯数字),而中文总共50,000多汉字,常用的就有3000多;第二,相同的汉字有多种字体,不同字体的书写方式有较大区别;第三每个人的书写风格也各不相同,实际的书写效果不利于机器识别。因此在过去的几十年中人们采用了许多办法去改进识别的精确度和稳定性。近年来,受压缩感知理论影响,人们将稀疏表示引入模式识别问题中,提出了稀疏表示分类算法(SparseRepresentation-basedClassification,SRC),如今该算法已广泛应用于图形的分类识别。在手写汉字识别过程中,有的学者在学习字典的同时进行分类器训练,然后用得到的分类器对图像稀疏编码进行分类。也有学者,在获得多个指定类字典的前提下,根据测试样本在不同类字典下的重构误差进行分类,取得了比较好的分类效果。但是现有技术中,通过稀疏表示分类器识别手写汉字时,由于未能考虑到样本局部性,即没有考虑到测试样本和每一个训练样本之间有相似性的特点,影响了识别精度。
技术实现思路
本专利技术的目的是提供一种基于加权稀疏表示分类的手写汉字识别方法,通过该方法能够快速识别手写汉字,并提高识别的准确率。为了达到上述目的,本专利技术提供一种基于加权稀疏表示分类的手写汉字识别方法,包含步骤:S1、选取手写汉字库,提取所述手写汉字库中所有汉字的特征向量并分类,建立训练样本集A=[Ai]i∈[1,k];其中Ai为A中的第i类训练样本,也即是从手写汉字库中提取的第i类特征向量,i∈[1,k];k为从手写汉字库中提取的特征向量类别总数;一类特征向量作为一类训练样本;m为Ai的维数,ni为Ai中特征向量的个数;Vi,j∈Rm×1为一个训练样本,也即是从手写汉字库中提取的一个特征向量,j∈[1,ni];S2、通过提取待识别手写汉字的特征向量y,将y作为测试样本;其中y∈Rm×1,m为y的维数;求解y在A下的稀疏表示向量为n维向量;S3、计算A中每个训练样本的权重,通过所述权重重构优化稀疏表示向量为稀疏表示向量为n维向量;S4、计算Ai对y的重构残差ri(y),根据ri(y)判断y对应的训练样本类别,实现识别手写汉字。所述步骤S2中,为满足下述公式的解:其中ε为误差的容限度,||·||1表示求L1范数,||·||2表示求L2范数,x0为满足||y-Ax0||2≤ε的解。所述步骤S3中,具体包含:S31、计算测试样本y到训练样本Vi,j的欧氏距离,d(y,Vi,j)=||y-Vi,j||2S,其中i∈[1,k],j∈[1,ni],S为幂指数;S32、计算训练样本Vi,j的权重值其中S33、通过Wi,j生成权重对角矩阵W′,其中diag(·)为对角矩阵构造函数;S34、重构稀疏表示向量为所述步骤S4中,具体包含:S41、计算Ai对y的重构残差ri(y):其中i∈[1,k],为将中不与第i类训练样本对应的元素设为0之后所得的n维向量;S42、若rp(y)=min{r1(y),...,rk(y)},p∈[1,k],则判断y属于第p类训练样本,实现识别手写汉字。所述手写汉字库为中科院自动化所提供的脱机手写汉字样本库CASIA-HWDB1.0。所述步骤S1和S2中通过LBP图像检测算法提取手写汉字库和待识别手写汉字的特征向量。与现有技术相比,本专利技术的基于加权稀疏表示分类的手写汉字识别方法,首先计算出测试样本对于训练样本的稀疏表示向量,其次利用训练样本与测试样本之间的欧式距离设定权重的对角矩阵,重构原有的稀疏表示向量。提高了手写汉字的识别精度,获得了更好的识别效果。并且本专利技术中,通过e的负指数函数来构造权重的对角矩阵,极大地简化了权重的对角矩阵,加快了重构原有稀疏表示向量的速度,提高了对手写汉字的识别速度。附图说明为了更清楚地说明本专利技术技术方案,下面将对描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图:图1为本专利技术的基于加权稀疏表示分类的手写汉字识别方法步骤示意图;具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术提供一种基于加权稀疏表示分类的手写汉字识别方法,包含步骤:S1、选取手写汉字库,通过LBP图像检测算法提取所述手写汉字库中所有汉字的特征向量并分类,建立训练样本集A=[Ai]i∈[1,k];所述手写汉字库为中科院自动化所提供的脱机手写汉字样本库CASIA-HWDB1.0。其中Ai为A中的第i类训练样本,也即是从手写汉字库中提取的第i类特征向量,i∈[1,k];k为从手写汉字库中提取的特征向量类别总数;一类特征向量作为一类训练样本;m为Ai的维数,ni为Ai中特征向量的个数,Vi,j∈Rm(j∈[1,ni])为一个训练样本,也即是从手写汉字库中提取的一个特征向量;S2、通过LBP图像检测算法提取待识别手写汉字的特征向量y,将y作为测试样本;其中y∈Rm×1,m为y的维数;通过L1范数求解y在A下的稀疏表示向量为满足下述公式的解:其中ε为误差的容限度,||·||1表示求L1范数,||·||2表示求L2范数,x0为满足||y-Ax0||2≤ε的解。采用L1范数求解y在A下的稀疏表示向量的原因如下所示:理想状态中y可使用训练样本A中的某一类训练样本Ai线性表出,且y与其他类比的训练样本线性无关。既可以将y表示为其中αi,j∈R,j∈[1,ni];也可通过所有k个种类的训练样本来表示y:y=Ax0∈Rm(3)在理想的条件下,x0为稀疏向量,公式(3)中,x0中的每个元素对应一个训练样本。在x0里面,除去对应于第i类训练样本的元素以外,其他的元素都是0。然而在通常情况下,公式(3)的解不是唯一的。为了解决这个问题,通常选择L2范数下的解作为公式(3)的解。满足下式:但是是稠密的,L2范数的解有太多的非零元素,而且这些非零元素在每一类训练样本所对应的系数中都存在,这一点对与根据找出y所对应的训练样本类别本文档来自技高网
...

【技术保护点】
1.一种基于加权稀疏表示分类的手写汉字识别方法,其特征在于,包含步骤:S1、选取手写汉字库,提取所述手写汉字库中所有手写汉字的特征向量并分类,建立训练样本集A=[Ai]i∈[1,k];其中Ai为A中的第i类训练样本,也即是从手写汉字库中提取的第i类特征向量,i∈[1,k];k为从手写汉字库中提取的特征向量类别总数;一类特征向量作为一类训练样本;

【技术特征摘要】
1.一种基于加权稀疏表示分类的手写汉字识别方法,其特征在于,包含步骤:S1、选取手写汉字库,提取所述手写汉字库中所有手写汉字的特征向量并分类,建立训练样本集A=[Ai]i∈[1,k];其中Ai为A中的第i类训练样本,也即是从手写汉字库中提取的第i类特征向量,i∈[1,k];k为从手写汉字库中提取的特征向量类别总数;一类特征向量作为一类训练样本;m为Ai的维数,ni为Ai中特征向量的个数;Vi,j∈Rm×1为一个训练样本,也即是从手写汉字库中提取的一个特征向量,j∈[1,ni],S2、通过提取待识别手写汉字的特征向量y,将y作为测试样本;其中y∈Rm,m为y的维数;求解y在A下的稀疏表示向量为n维向量,的每个元素对应一个A中的训练样本;S3、计算A中每个训练样本的权重,通过所述权重重构优化稀疏表示向量为稀疏表示向量为n维向量,的每个元素对应一个A中的训练样本;S4、计算Ai对y的重构残差ri(y),根据ri(y)判断y对应的训练样本类别,实现识别手写汉字。2.如权利要求1所述的基于加权稀疏表示分类的手写汉字识别方法,其特征在于,所述步骤S2中,为满足下述公式的解:其中ε为误差的容限度,||·||1表示求L1范数,||·||2表示求L2范数,x0为满足||y-Ax...

【专利技术属性】
技术研发人员:刘烜黄洪琼
申请(专利权)人:上海海事大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1