当前位置: 首页 > 专利查询>刘军专利>正文

基于线性分类树和神经网络的两阶段快速分类器制造技术

技术编号:8387302 阅读:208 留言:0更新日期:2013-03-07 07:58
分类器的设计是机器学习和模式识别中最基本和最关键的问题之一,广泛应用于数据挖掘、数据分析、专家系统、生物医学、农业等众多领域。本发明专利技术解决正态的、明显特征的、大规模的、多种类的样本集分割与识别问题。通常情况下,样本集大概分为线性可分的和线性不可分的类别。首先,本发明专利技术首先对线性可分的样本集进行分类,即通过相关的统计知识,对特征明显的类别进行分类,形成线性的分类树;其次,为了进一步提高神经网络的正确分辨率,需对相对不重要的样本进行删除;再次,由于神经网络具有很强的逼近能力和泛化能力,非线性分类器是基于神经网络的分类器。针对神经网络的训练时间较长的问题,分别通过线性分类树和降维技术减少样本的规模;针对神经网络的输出不稳定的问题,分别通过调整神经网络的目标函数和验证神经网络的训练指标是否达到要求来解决。

【技术实现步骤摘要】

本专利技术涉及机器学习和模式识别的快速分类器,特别针对正态的、明显特征的、大量的数据集分割与识别问题。快速分类器包括二个重要的阶段构造线性分类树和构造神经网络。线性分类树主要对具有明显特征的样本进行分类,能减少非线性分类器的时间,提高非线性分类器的泛化能力;神经网络主要是对具有重叠的样本集进行分类。
技术介绍
分类器的设计是机器学习和模式识别中最基本和最关键的问题之一,广泛应用于机器学习、模式识别、数据挖掘、数据分析、智能系统、专家系统、生物医学、农业等领域中,不但具有广阔的应用前景,而且具有一定的学术研究价值。快速分类器的设计主要由以下几个部分构成数据的预处理、数据的统计特性、线性分类树分类器、降维技术、神经网络分 类器。目前智能系统和模式识别中常用的分类器主要有I.神经网络分类器神经网络是模式识别中最常用的分类器的方法之一。从本质上看,神经网络是从输入空间到输出空间的一种非线性映射。从理论上讲,当隐藏层的节点个数足够多和选择的网络权值合适时,神经网络能够以任意精度逼近任意非线性函数。但是Hornik证明了选择隐藏层节点个数和确定网络权值是一个完全NP问题。神经网络能够广泛应用于函数逼近、人脸识别、路标识别、语音识别、石油探测、特征提取、数据压缩、股票预测、市场分析等,其主要原因是用户不需要事先对系统的内部结构有完全的了解,能够通过神经网络的逼近能力建立输入数据与输出数据的数学关系。特别针对建立复杂的、强耦合的、非线性的系统数学模型,神经网络具有很强的优势。神经网络的分类器设计主要包括以下几个步骤(I)选择网络的结构。(2)通过样本集的输入数据和输出数据,调节神经网络中各层的权值和阈值。(3)用测试数据检验神经网络模型的泛化能力。在神经网络的实际应用过程中,有以下几个不足(I)神经网络的训练时间较长,即神经网络从初始权值调节合适权值需要较长的时间。导致该原因的几个重要的因素包括训练数据较多;训练算法效率较低;网络中调节参数过多。(2)神经网络的不稳定性,即神经网络的每次训练结果都不同,有时效果好,有时候效果不好,主要是由调节网络权值的算法所导致的。因为,神经网络最常用的训练算法是基于梯度下降法的BP算法,当初始的条件不同时,梯度下降法可能会陷入不同的局部极小值,只有在特殊的情况下,才能找到整个解空间的最忧解。2.分类树分类树是模式识别中最直观和最常用的分类器之一,是一种基于规则的、逻辑的、不涉及距离的分类器。分类树从根节点开始,对属性值进行判断,然后根据判断结果,决定样本的分类。分类树中的叶子节点代表每种分类结果。通过数据集的数据,不断构造分类树的中间节点和叶子节点,导致分类树的规模不断扩大,计算的复杂度不断增加。从本质上来说,分类树是一种基于规则的线性分类器,能够很直观理解分类器的物理含义,很好处理那些有明显特征的样本集。不足之处是(I)不能处理有交叉样本集的分类问题,即分类树不能处理线性不可分的样本集;(2)分类树的边界确定问题难以解决,即中间节点的判断条件很难确定。3.支持向量机(SVM)基本原理是将线性不可分的样本集映射到高维空间,实现样本集间线性可分。支持向量机主要的目的是在解空间中寻找一个最优超平面,使最优超平面到不同类边际的距 离最大。SVM的最优超平面主要是由关键样本所决定,即支持向量所决定。故SVM不但能避免“维数灾难”,而且能有很好的鲁棒性。其不足之处有(I)针对大规模的训练样本,SVM需要大量的训练时间;(2)因为支持向量机只能处理二分类问题,这一方法不能很好地解决多分类的问题。综上所述,针对大规模的分类问题,现有的分类方法主要存在训练时间长,输出结果的不稳定性,训练的精度比较低,多种类的分类问题。
技术实现思路
本专利提出基于线性分类树和神经网络的快速分类器,并将该分类器应用于高维散点图的识别与分割,主要解决正态的、多种类的、大量的、耦合的数据集的分类问题。线性分类树的主要目标是将具有明显特征的类分离出来,从而减少非线性分类器(神经网络)的训练时间和提高神经网络的预测精度。并通过三维散点图的分割与识别验证快速分类器的有效性。从而实现分类器的训练时间少,训练精度高,输出结果相对稳定。其主要包括以下几个步骤(I)数据预处理数据预处理主要包括数据的归一化、随机提取训练样本集、构造训练样本输入数据、构造训练样本的输出数据、构造测试样本的输入数据、构造测试样本的输出数据。首先,数据的归一化。由于数据在通常情况下代表不同的物理意义和有不同的数字范围,则需要对数据进行归一化,它不但使数学模型不会受到数据范围的影响,即减少对数据的依赖性,而且有利于建立统一的衡量标准。通常情况下,将原始的数据映射到(0,1)之间,或者映射到(Xmin, Xmax)之间。其次,随机提取训练样本集和测试样本集。为了构造快速的分类器,随机抽取所有的样本的2/3构成训练样本集;为了验证分类器的有效性和正确性,将剩下的1/3样本集构成为测试样本。再次,构造训练样本集和测试样本集的输入数据。所采集的数据为输入信号,样本所属的类别为分类器的输出信号。最后,构造训练样本集和测试样本集的输出数据。对于输出样本的数据,一般情况下,将所属种类转换为二进制,其主要原因是在训练非线性的分类器的过程中,为了构造相对稳定的输出结果,通常建立多输出的神经网络结构,而神经网络的输出节点数与训练数据的种类数有关。一般情况下,输出所属类别数据是一维数据,故需要确定输出节点的总数和将相应的类别转换为二进制的个数。首先,确定输出节点的个数2类分类问题需要用I个输出节点,3-4类分类问题需2个输出节点,5-8类分类问题需3个输出节点,9-16类分类问题需4个输出节点等等。其次,类号转换为相应的二进制“第6类”的输出信号转化为“0110”,“第10类”的输出信号为“1010”,等等。(2)线性分类树为了提高非线性分类器的训练精度和减少非线性分类器的训练时间,我们设计了一个线性分类树,主要手段是根据样本特殊的属性值判断该样本的所属类别。通常情况下,当每一类中出现了很明显的数据特征时,即其中某个类的某个属性值特别大,或者特别小,则我们可以利用这种明显的属性值确定该样本的类别。首先,根据训练样本集的类别,计算每维中每种类别的最大值、最小值、平均值。其次,对每一维数据,通过平均值进行排序,判断是否存在这样的类别该类别的最小值大于前一种类的最大值,而且该类别的最大值小于后一类别的最小值。如果是第一个类别,则只需要判断其最大值是否小于第二类别的最小值;如果是最后一个类别,则只需要判断其最小值是否大于前一类的最大值。样本集类别满足以上的关系,则存在一个线性的分类树,能·将该类别分开。(3)减少样本的规模当样本集的规模相当大时,S卩训练样本的数量较大时,如果使用所有样本去训练非线性分类器,则所需的训练时间比较多。为了减少分类器的训练时间,需要删除一些相对不重要的样本。通过相应的分析,非线性分类器的主要功能是寻找一个非线性的曲面,将某一类与其他类分开,则每种类的边界点是非常重要的,离中心点不远的点不是那么重要的,则我们利用“80/20”规则减少样本集的规模。通过计算每个点到中心的距离,判断该距离是否超过某个阈值。如果超过阈值,则以80%保留,20%删除;如果没有超本文档来自技高网
...

【技术保护点】
基于线性分类树与神经网络的快速分类器,主要包括以下几个内容:数据归一化、构造线性分类树、减少样本的规模、训练神经网络分类器。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘军马宏宾任雪梅李阳铭马晓贺
申请(专利权)人:刘军马宏宾任雪梅
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1