一种基于模块神经网络的手写体数字自动识别方法技术

技术编号:2926604 阅读:259 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供的是一种基于模块神经网络SN9701矩阵列的手写体数字自动识别方法,该方法包括四个步骤:(1)手写体数字图像预处理;(2)训练集的类空间划分,K均值聚类法或亲合力传播聚类法;(3)分类器设计,模块神经网络矩阵列;(4)集成分类,改进的均值集成法。该方法中的分类器模块用于类空间划分和任务分解的矩阵模块神经网络学习,能大大提高分类器的学习速度和手写体数字分类的精度。

【技术实现步骤摘要】

本专利技术涉及手写体数字自动识别系统,特别涉及一种 基于模块神经网络SN9701矩阵列的手写体数字自动识别方法。
技术介绍
手写体数字识别研究的对象是如何利用电子计算机 自动辨认人手写在纸张上的阿拉伯数字。手写体数字识别系统的应用 领域主要包括邮政编码、统计报表、财务报表、银行票据等等。这 几年来我国开始大力推广的"三金"工程在很大程度上要依赖数据信 息的输入,如果能通过手写数字识别技术实现信息的自动录入,无疑 会促进这一事业的进展。因此,手写数字的识别研究有着重大的现实 意义, 一旦研究成功并投入应用,将产生巨大的社会和经济效益。在实际应用中,对数字识别单字识别正确率的要求要比文字要苛 刻得多。这是因为,数字没有上下文关系,每个单字的识别都事关重 要,而且数字识别经常涉及的财会、金融领域其严格性更是不言而喻 的。此外,目前一些常见的手写体数字的标准训练库如美国国家标准 与技术局NIST数据库、美国邮政服务数据库(USPS)等都包含有大量 的训练样本,大批量数据处理对系统学习速度又有相当的要求,许多 理论上很完美但速度过低的方法是行不通的。因此,研究高性能的手 写数字识别算法是一个挑战性的任务。在过去的四十年中,人们想出了很多办法获取手写字符的关键特征。这些手段分两大类全局分析和结构分析。对前者,可以使用模板匹配、象素密度、矩、特征点、数学变换等技术。这类的特征常常 和统计分类方法一起使用。对后者,多半需要从字符的轮廓或骨架上提取字符形状的基本特征,包括圈、端点、节点、弧、突起、凹陷、 笔画等等,与这些结构特征配合使用的往往是句法的分类方法。多年的研究实践表明,对于完全没有限制的手写数字,几乎可以肯定没 有一种简单的方案能达到很高的识别率和识别精度。因此,最近这方 面的努力向着更为成熟、复杂、综合的方向发展。 一方面,研究工作 者努力把新的方法运用到预处理,特征提取当中,而另一方面,研究 工作者努力设计新型高效的分类器,来对数字字符的十个类别进行分 类。本专利技术正是针对后者设计的。作为模式识别中一种非常重要的分类器,神经网络技术由于其高 精度、并行性、自学习、自适应等特性已经被广泛应用于手写体数字 识别系统。当神经网络面对的是大规模训练样本集时,受到硬件发展 的限制,它的学习速度和推广能力往往不能令人满意。解决此问题的 一个重要途径就是将问题"分而治之",许多学者已经提出了基于各种 任务分解方法的模块神经网络模型来解决复杂分类问题。模块神经网 络将一个复杂任务分解成较简单的一系列子任务,每个子任务用一个神经网络(子模块)来完成加工,完成子任务合作进行的次序不一定 是串行的,而可能是串行并行兼有之。因此,模块神经网络比单个神 经网络有更快的学习速度,而且系统中单个网络的规模也不会很大。。; e-3卵i"5"t-"力ers"rai朋yWe尸a t tei7 -67as^./yj'/^ 6>5 New York: McGraw-Hill, 1965]是标准的《类问题的任务分解方法,它将一个尺 类问题分解为《个比原分类任务简单的两类子任务,每个子任务复杂 将某个类别同其它所有K- l个类别区分开。因此,需要设计《个两类分类器,分别为/;,…,A,每个分类器的输出都是一个范围内的一维值。对于一个新样本,计算所有分类器y;,…,厶对该样本的输出值, 输出值最高的分类器序号就是整个模块神经网络对该样本的分类类别 号。此模块神经网络能够取得比单个神经网络好的分类和泛化能力。 然而,这种简单的任务分解方法从根本上并不能减少每个模块分 类器的训练样本数目,因为虽然各分类器需要解决的类别数目少了, 但是它们需要学习的样本数仍然都是原来的所有样本数,而且,如果 原来的尺类问题的训练集类别比较对称(各类别包含的样本数大致相 等)的话,则用该任务分解方法后,所有两类子任务都变为非对称问 题,《值越大,不对称的程度越大。而类别非对称则是另外一个容易导致网络收敛困难的棘手问题。虽然Anand等在文献[R. Anand, K.Mehrotra & C. K. Mohan etc, "Efficient Classification for Multiclass Problems Using Modular Neural Networks, " 7>a/ s. iVe〃ra7 7V^frar^s, vol. 6(1), pp. 117-124, 1995 ]中针对一般感知 机的BP算法提出一种改进方法来解决此模块神经网络中出现的类别 非对称问题,并且实验证明其能够加快学习速度,但是这种解决方案 具有特定的针对性,仅针对感知机的BP算法,而对其它类型的神经网 络或者感知机的其它学习算法却不适用,因此它有很强的局限性。因 而,要彻底解决此非对称问题,还得从任务分解方法上入手,避免任 务分解过程中非对称分类问题的出现。本专利技术将从任务分解方法上入 手从根本上解决用神经网络的问题。
技术实现思路
本专利技术的目的是提出一种基于模块神经网络SN9701 矩阵列的手写体数字自动识别方法,该方法能够提供一种针对手写体 数字识别中大训练样本集的高效分类器,实现快速学习和高精度识别。本专利技术的技术方案是 一种基于模块神经网络SN9701矩阵列的手 写体数字自动识别方法,特别是手写体数字图像预处理,从CCD图 像传感器获取手写体数字样本,以CPLD作为图像釆集系统的控制中心 得到初始图像数据,以DSP作为基本图像处理单元进行基本的图像处 理;由预处理单元对图像进行二值化、平滑、分割、规范化,得到输入信号,得到字符16*16像素的灰度图像后,将得到的所有训练用灰 度图像矩阵拉直变为256维列向量,组成训练用输入向量集合A,其中* = 1,2,...,10表示十个类别标号;判断输入样本是训练样本还是测试样本?如是训练样本则依次进行训练集的类空间划分和分类器设计;如果是测试样本,则进行集成分类,分类器包含两个组成部分 一个神经网络矩阵列和一个集成计算机,其中神经网络矩阵列是由 SN9701芯片构成且是神经网络SN9701矩阵列,集成计算机由一个加 法器和一个除法器构成,输入向量经过神经网络矩阵列产生一个网络输出矩阵,再根据这个网络输出矩阵由集成计算机产生最终的分类决 策。作为对现有技术的进一步改进,训练集的类空间划分,是将输入 向量集合A划分为A个子簇W) , " = 1,2,...,A ,所有子簇组成会("2-D2)个子簇对L',' =^)U4),每个子簇对能够作为一个两类分类器的训练输入。集成计算机由一个加法器和一个除法器构成,用集成计算机中的 加法器和除法器计算下面公式(1)的平均值,来估计输入样本x属于第 /类中第d个子簇的后验概率1 k 力_M 乂:=1々=1WW)《A A=l说=1i《D,"乂=1 <*=1 、 W 乂、其中M是神经网络SN9701矩阵列,0 )是神经网络元素。,)4."),某个SN9701芯片的输出值由SN9701芯片的第7端口 0UT输出,则最终的分类判决依据是i卵A:' = arg max {/Vo6(x e,/ = 1,2,.."/:, <^ = 1,2"."D, (2)分类器的设计中,神经网本文档来自技高网
...

【技术保护点】
一种基于模块神经网络SN9701矩阵列的手写体数字自动识别方法,其特征是:从CCD图像传感器获取手写体数字样本,以CPLD作为图像采集系统的控制中心得到初始图像数据,以DSP作为基本图像处理单元进行基本的图像处理;由预处理单元对图像进行二值化、平滑、分割、规范化,得到输入信号,得到字符16*16像素的灰度图像后,将得到的所有训练用灰度图像矩阵拉直变为256维列向量,组成训练用输入向量集合x↓[k],其中k=1,2,…,10表示十个类别标号;判断输入样本是训练样本还是测试样本?如是训练样本则依次进行训练集的类空间划分和分类器设计;如果是测试样本,则进行集成分类,分类器包含两个组成部分:一个神经网络矩阵列和一个集成计算机,其中神经网络矩阵列由多个SN9701芯片构成且是神经网络SN9701矩阵列,集成计算机由一个加法器和一个除法器构成,输入向量经过神经网络矩阵列产生一个神经网络输出矩阵,再根据这个神经网络输出矩阵由集成计算机产生最终的分类决策。

【技术特征摘要】

【专利技术属性】
技术研发人员:黄德双赵仲秋
申请(专利权)人:中国科学院合肥物质科学研究院
类型:发明
国别省市:34[中国|安徽]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1