当前位置: 首页 > 专利查询>重庆大学专利>正文

基于计算机输入下的稀疏自编码的脱机手写体识别方法技术

技术编号:11875808 阅读:145 留言:0更新日期:2015-08-13 02:34
本发明专利技术属于模式识别领域,公开了一种基于计算机输入下的稀疏自编码的手写体识别方法,该方法包括:选取手写体图像库,并分为训练集和测试集两个子数据集;采用稀疏自编码来构建深度神经网络,并获得特征;使用ZCA白化数据进行预处理和可视化得到更好的特征,到此训练好稀疏自编码深度神经网络;将每张图像分成小块,取其中一个小块学习到特征,依次与剩下的小块进行卷积运算并提取训练集图像的各个特征;采用PSO算法快速得到多分类支持向量机参数;将测试集数据输入到多分类支持向量机中,得到分类结果,并得到该测试集识别的正确率。本发明专利技术的手写体识别方法,对数据的泛化能力比较好,并且手写体识别率较高。

【技术实现步骤摘要】
【专利说明】 本专利技术涉及模式识别、光学字符识别技术、深度学习领域,特别是涉及一种计算机 输入下的稀疏自编码的脱机手写体识别方法。
技术介绍
手写体字符识别是光学字符识别技术(OpticalCharacterRecognition,简称 OCR)的一个分支,它研宄的对象是:如何使计算机自动辨认人手写在纸张上的字符。在整 个OCR领域中,最为困难的就是脱机手写字符的识别。 数字识别就是通过计算机用数学技术方法来研宄模式的自动处理和识别。随着计 算机技术的发展,人类对模式识别技术提出了更高的要求。特别是对于大量己有的印刷资 料和手稿,计算机自动识别输入己成为必须研宄的课题,字符识别是智能计算机接口的一 个重要组成部分,所以在文献检索、办公自动化、邮政系统、银行票据处理等方面有着广阔 的应用前景。 本申请提出一种,能够提 高数据集的泛化能力以及手写体识别率。
技术实现思路
有鉴于此,本申请提供一种基于计算机输入下的稀疏自编码的脱机手写体识别方 法,识别算法一方面训练过程均是采用无监督的特征学习,对数据集的泛化能力较好;另一 方面,没采用传统视觉特征,对图像识别的干扰小,识别率较高。 为达到上述目的,本专利技术提供如下技术方案: -种,其特征在于包括以 下步骤:步骤一:选取手写体库,并将图像训练集和测试集两个子数据集;步骤二:采用稀 疏自编码来构建深度神经网络,并获得学习到的特征;步骤三:使用ZCA白化对训练集样本 数据进行预处理和可视化,得到含有丰富边缘的特征,到此得到训练好的深度神经网络;步 骤四,将每张图像分成小块,取其中一个小块学习到特征,依次与剩下的小块进行卷积运算 并提取训练集图像的各个特征;步骤五,采用PSO算法快速得到多分类支持向量机参数;步 骤六,将测试集数据输入到多分类支持向量机中,得到分类结果,即得到该测试集手写体的 识别率。 进一步,在步骤二中具体包括以下步骤:21 :假设神经元激活函数为f (z),用 表示神经网络中第1层中第i个神经元的输出值of = 激活函数一般采用Sigmoid 函数;22 :在自编码神经网络中,仍然采用BP算法并让训练集输入样本与输出结果目标相 等,即y1= xi '则训练集样本集表示为{x1,X2,. . .,X1,. . .,xm},1彡i彡m(m为训练集样本 数量);23 :用表示第i组样本输入 >倩况下隐藏层第j个神经元的输出值,则隐 藏层(1 = 2)中第j个神经元的平均激活值为【主权项】1. ,其特征在于,该方法包括 以下步骤: 步骤一:选取手写体图像库,并将图像训练集和测试集两个子数据集; 步骤二:采用稀疏自编码来构建深度神经网络,并获得学习到的特征; 步骤三:使用ZCA白化对训练集样本数据进行预处理和可视化,得到含有丰富边缘的 特征,得到训练好的深度神经网络; 步骤四,将每张大图像分割成小块学习特征,并用前面学习到的特征参数对剩下的小 块依次进行卷积运算并提取训练集图像的各个特征; 步骤五,采用PSO算法快速得到多分类支持向量机参数; 步骤六,将测试集数据输入到多分类支持向量机中,得到识别结果,并得到该测试集手 写体识别的正确率。2. 如权利要求书1所述的手写体识别方法,其特征在于:在步骤二中具体包括:21 : 假设神经元激活函数为f(z),用表示神经网络中第1层中第i个神经元的输出值 of = f(zf〕,激活函数一般采用sigmoid函数;22 :在自编码神经网络中,仍然采用BP 算法并让训练集输入样本与输出结果目标相等,即yi= X 1,则训练集样本集表示为lx1, X2,. . .,Ρ,. · .,xm},1彡i彡m(m为训练集样本数量);23 :用表示第i组样本输入Xi 情况下隐藏层第j个神经元的输出值,则隐藏层(1 = 2)中第j个神经元的平均激活值为: P; = 士ΣΓ=?ι〇52)(Λ:'然后为该神经网络加入上述的稀疏性限制,也即让p' j= p,p为稀 疏性参数,通常是一个很小的真分数,也就是说要使第j个隐藏神经元的平均激活值接近 于P ;24:为了实现稀疏性限制,特定义代价目标函数为:J(xv,b)=mi+ 最后一部分是惩罚项,该项是惩罚那些V #Pp显著不同的情况以实现对该神经网络的稀 疏性限制,KL(p'」|p)是P' ^与P间的相对熵,相对熵是一种常用的测量两个分布间差 异的方法;25 :确定W和b的迭代规则,待迭代算法收敛或达到最大迭代次数,隐藏单元就 获得学习好的特征,即训练好了稀疏自编码深度神经网络的权值向量W和偏置向量b。3. 如权利要求书1所述的手写体识别方法,其特征在于,在步骤三中具体包括:31 :ZCA 白化在本文中主要是两个应用:对训练集样本数据进行预处理和可视化学习到的特征。通 过调节ZCA白化数学公式中白化参数ζ,从而改变数据的预处理,直到得到较好的特征为 止,较好的特征图像中含有丰富的边缘信息等。4. 如权利要求书1所述的手写体识别方法,其特征在于,在步骤四中具体包括:41 :先 从大图像(DiniagJDiniage)中取一个大小为Dpatc;h*D patc;h的小块学习特征,这可以用稀疏自编码 神经网络训练完成;42 :然后用前面学习到的特征参数依次对剩下的小块训练图像进行卷 积运算提取训练图像的各个特征,卷积运算步长为1。5. 如权利要求书1所述的手写体识别方法,其特征在于,在述步骤五中包括:51 :采用 PSO算法可以精确并快速的得出多分类SVM参数c和γ的最优解。6. 如权利要求书1所述的手写体识别方法,其特征在于,在步骤六中包括:61 :将步骤 Sl中的测试集,输入训练好的多分类SVM中得到分类标签;62 :若多分类SVM输出标签与测 试样本一致,表明识别结果正确,反之,则识别结果错误;63 :统计整个测试集中识别正确 样本数量除以样本总数,得到针对该测试集手写体识别的正确率。【专利摘要】本专利技术属于模式识别领域,公开了一种基于计算机输入下的稀疏自编码的手写体识别方法,该方法包括:选取手写体图像库,并分为训练集和测试集两个子数据集;采用稀疏自编码来构建深度神经网络,并获得特征;使用ZCA白化数据进行预处理和可视化得到更好的特征,到此训练好稀疏自编码深度神经网络;将每张图像分成小块,取其中一个小块学习到特征,依次与剩下的小块进行卷积运算并提取训练集图像的各个特征;采用PSO算法快速得到多分类支持向量机参数;将测试集数据输入到多分类支持向量机中,得到分类结果,并得到该测试集识别的正确率。本专利技术的手写体识别方法,对数据的泛化能力比较好,并且手写体识别率较高。【IPC分类】G06N3-08, G06K9-62【公开号】CN104834941【申请号】CN201510255508【专利技术人】张可, 柴毅, 袁媛, 邱焕敏, 王一鸣 【申请人】重庆大学【公开日】2015年8月12日【申请日】2015年5月19日本文档来自技高网...

【技术保护点】
基于计算机输入下的稀疏自编码的脱机手写体识别方法,其特征在于,该方法包括以下步骤:步骤一:选取手写体图像库,并将图像训练集和测试集两个子数据集;步骤二:采用稀疏自编码来构建深度神经网络,并获得学习到的特征;步骤三:使用ZCA白化对训练集样本数据进行预处理和可视化,得到含有丰富边缘的特征,得到训练好的深度神经网络;步骤四,将每张大图像分割成小块学习特征,并用前面学习到的特征参数对剩下的小块依次进行卷积运算并提取训练集图像的各个特征;步骤五,采用PSO算法快速得到多分类支持向量机参数;步骤六,将测试集数据输入到多分类支持向量机中,得到识别结果,并得到该测试集手写体识别的正确率。

【技术特征摘要】

【专利技术属性】
技术研发人员:张可柴毅袁媛邱焕敏王一鸣
申请(专利权)人:重庆大学
类型:发明
国别省市:重庆;85

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1