模式识别装置和方法制造方法及图纸

技术编号:4240656 阅读:203 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种模式识别装置和方法。该模式识别装置采用半监督学习机制,分析模式对象样本的结构特性,并在核空间内对模式对象样本进行线性嵌入分析,从而实现分类和排序的目的。特别的是,该模式识别装置采用局部线性嵌入机制来估计模式对象样本的流型结构,即:对任何一个模式对象样本,都用它的近邻对象样本的线性组合来进行重构,即线性嵌入。而所有对象样本的重构系数组合在一起就能较好地表达整个输入对象样本的流型结构。本发明专利技术在核空间中对模式对象样本进行重构、嵌入,从而,更好地反映了数据集的结构特征。

【技术实现步骤摘要】

本专利技术涉及模式识别装置.和方法,更具体地说,本专利技术涉及采用半 监督学习机制在核空间内对模式对象进行线性嵌入描述从而实现模式识 别的装置和方法。
技术介绍
为了实现模式识别、排序和检索等目的,传统的方法往往依靠一些 已标注的对象样本来进行训练、学习以获得一个目标函数,从而实现上 述的功能。举例来说,在手写体数字识别中,需要预先收集一些手写数 字的图像,然后对这些图像样本进行处理和学习,从而得到一个分类函 数。例如首先对图像进行二值化处理,然后提取笔划方向和结构信息 特征,最后根据这些特征判断数字的类别,即生成分类函数进行识别分 类。在这一学习过程中,需要告知各个图像中的数字的真实值,即需要 对这些图像样本进行标注。分类函数的输入为手写数字图像(或者是对 应的特征),输出为该图像中的数字的值。这样,当需要识别一个新的手 写数字图像时,直接将该手写数字图像输入上述分类函数,即可得到其 中的数字的值。然而,在实际应用中,获取标注样本往往需要花费很多的时间和精 力,而且只有专业的人员才能完成获取标注样本的任务。例如,在生物 和计算科学领域中,为了对蛋白质进行分类,需要获取蛋白质的形状样 本进行预学习,然而,即使是专业的结晶体分析人员,也需要花费几个 月的时间才能获取一个蛋白质样本。与此相反,未标注样本往往大量存 在,而且很容易获取。因此,如何将未标注样本同标注样本结合起来,并从中提取有用的信息,就成为机器学习领域的一个重要任务。标注样本和未标注样本的区别在于是否提供了与其对应的目标值。所谓的未标注样本,仅是一个被处理对象,而标注样本则不仅包含被处 理对象,还包含该被处理对象的目标值。例如,在手写体数字识别中, 未标注样本就是一个手写体数字图像,而标注样本除了包含该图像以外, 还包含该图像中的数字的真实值。依靠标注样本进行模式分类的方法可以分为两类,即监督学习和 半监督学习。监督学习是指仅仅依靠标注样本进行学习、训练,并从中 得到分类函数;半监督学习是指同时从标注样本和未标注样本中进行学 习的机制和方法。半监督学习的基本思路为未标注样本中虽然不包含 对象的目标值,因而不能像标注样本那样直接进行学习和训练,然而, 这些未标注样本中包含了一些关于对象样本空间分布的有用信息。如果 能够将这些有用信息提取出来,并同标注样本结合在一起,就能帮助提 高分类、识别的性能。给定一个模式识别问题,如果能提供足够多的标 注样本进行学习、训练,那么监督学习方法也能达到较好的性能;然而, 如果标注样本较少,例如上述的蛋白质分类问题,监督学习方法往往失 败。与此相反,由于半监督学习方法能从未标注样本中提取有用的信息, 因此,能大大提高识别的性能。在半监督学习机制中,给定一个由标注样本和未标注样本组成的样本集合(称为部分标注样本集, 一般来说,该集合包含少量的标注样本 和大量的未标注样本)后,首先分析这些样本的内在结构,得到其空间 分布特征;然后,基于样本的空间分布和标注样本进行学习;最后,对 未标注样本进行分类、排序。'在实际应用中,输入的模式对象样本往往包含很多变量,即这些样 本位于一个高维空间中。例如在手写体数字识别中,输入的对象样本均 为图像,因此,对象样本原始空间的维数就可以看作为图像中的像素数。 然而,这些图像样本的内在空间的维数远低于其原始空间的维数。以数 字0为例,如果用椭圆来近似这个数字的话,其内在空间的维数为4,即 中心坐标和长短轴的半径。考虑到手写数字的变形以及椭圆近似的畸变 等因素,与数字0对应的图像样本的内在维数要高于4,然而,这个值还 是要远远小于图像中的像素数。基于这种现象,半监督学习机制一般都假设(1)高维空间中的这些数据样本具有内在的低维空间结构,而且, 在这个低维空间中服从流型结构分布,所谓流型结构分布,是指这些样 本的分布是平滑的;(2)在该流型结构上,近邻的样本点一般具有相同 的类别或标号。近年来,已经提出了很多半监督学习方法,以达到从未标注样本中提取信息从而提高性能的目的。拉普拉斯本征图(L即lacian Eigenmap) 是一种比较有代表性的半监督学习方法,参见。在该方法 中,首先利用样本点.(所有的样本,包括标注样本和未标注样本)间的 欧氏距离和k近邻方法构建一个邻接图,由此得到其拉普拉斯矩阵。所 谓邻接图就是用图的方式来表达样本点间的关系,图的节点对应于样本 点,图的边由k近邻方法确定。所谓k近邻方法,就是对每一个样本, 找出与其欧式距离最近的前k'个样本,在邻接图中,为这个样本和它的 前k个近邻样本添加边,边的属性值为样本间的欧式距离。在建立邻接 图之后,可以很容易地得到其拉普拉斯矩阵,之后对该矩阵进行特征值 分解。最后,根据特征值较小的特征向量以及标注的样本,对数据集中 的未标注样本进行分类。从本质上看,该方法有三个重要的特性(1) 该方法假设输入的数据集是以流型结构嵌入在高维的原始空间中,即这 些数据的内在空间的维数比较低;(2)采用所有的数据(即包括标注样 本和未标注样本)来估计其流型结构;(3)利用Laplacian Beltrami算 子实现高维空间到低维空间的映射,并完成分类的目的。局部邻域拉普拉斯本征图方法(参见)事实上是对中的拉普拉斯本征图方法的延伸。在的方法 中,根据样本集中的所有样本点构建拉普拉斯矩阵,并进行特征值分解, 因此,当样本点较多时,该方法比较费时。为了解决这个问题,中只对待分类样本点所在的一个子矩阵进行特征值分解,因而,能 较大地提高速度。与此同时,中的方法还解决了新样本点的 分类问题。流型排序是另一种常见的半监督学习方法,参见。该 方法的主要思想是根据样本点的内在结构对样本点进行排序。与类似,该方法首先根据样本点间的欧氏距离构建k近邻图,之后,将标注样本的目标值沿这个近邻图进行重复传播,最后所有的样本点都 将得到一个评价值,而这些评价值就是最终的排序依据。该方法的原理 可以用一个电路网络来解释正如前面所述,样本点的关系可以用邻接 图来表示,邻接图的节点对应于样本点,图的边由k近邻方法确定;下 面,将这个邻接图看作为一个电路网络,图中与标注样本对应的节点分 别和电极相连,正样本连接正的电极,负样本连接负的电极,图的边看 作为电阻器,边的属性值(样本间的欧式距离)对应于电阻器的电阻值, 就是说,样本间的欧式距离越小,对应节点间的电阻就越小,反之亦然; 开通电源后,电路网络达到平衡状态,那么,在每一个未标注样本对应 的节点上,都可以测量到一个电压值,电压值越高,说明该样本越接近 于正样本,电压值越低,说明该样本越接近于负样本。在具体实施中,采用了图正则化技术实现上述过程。中提出了利用高斯场调和函数(Gaussian Fields and Harmonic Functions)进行半监督学习的方法,该方法事实上同中的方法属于同一个范畴,只是图正则化的实现手段不同而已, 在该方法中,采用了内推正则化(Interpolated regularization)。对这两种不同的方法进行了分析,并从理论上得出了其误差 上限。在图正则化的框架之下,对优化的目标函数进行修 正,并引入松弛因子,从而将图正则化转化成标准支持向量机的形式。同上述方法类似,现有的半本文档来自技高网...

【技术保护点】
一种模式识别装置,该模式识别装置利用半监督学习机制来对输入的模式对象样本进行识别,其中所述模式对象样本包括标注样本和未标注样本,并以数字化特征表示,所述标注样本包括模式对象的数字化特征以及相应的目标值, 所述模式识别装置包括:  非欧空间内核构建部,其基于输入的模式对象样本来构建非欧空间内核矩阵,该非欧空间适于构造模式对象的流型结构; 核空间内局部线性嵌入部,其根据所述非欧空间内核构建部构建出的非欧空间内核矩阵,对模式对象样本进行局部线性嵌入,以生成模式对象样 本的重构系数矩阵;以及 正则化部,其根据所述核空间内局部线性嵌入部生成的重构系数矩阵和所述标注样本的目标值,来为所有输入的模式对象样本生成评测值。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘汝杰王月红马场孝之远藤进椎谷秀一上原祐介增本大器长田茂美
申请(专利权)人:富士通株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利