一种集“分类与聚类”为一体的模糊神经网络算法制造技术

技术编号:16756620 阅读:47 留言:0更新日期:2017-12-09 02:39
本发明专利技术提供了一种集“分类与聚类”为一体的模糊神经网络算法,以模糊最小‑最大神经网络为基准,重新设计其各步骤,在每一步骤中,充分考虑未标识和已标识样本同时存在的可能性,区分分类学习与聚类学习的不同之处,实现两种学习方法共存在同一个模糊神经网络系统中。当输入样本集全是未标识的样本,采用非监督学习方式对样本集进行聚类操作;当输入样本集全是已标识的样本,或部分是已标识、部分是未标识的样本,采用监督学习方式对样本集进行分类操作。本发明专利技术提供的算法既可以用于纯聚类、纯分类,也可以用于聚类与分类的混合学习方式。在混合样本学习过程中,无论是已标识的样本,还是未标识的样本,都得到了充分的利用,提高了分类正确率。

A fuzzy neural network algorithm integrating \classification and clustering\

The present invention provides a set of \classification and clustering\ as one of the fuzzy neural network algorithm based on fuzzy minimum maximum neural network as a benchmark, to redesign its various steps, at every step, considering the possibility of unlabeled and labeled samples exist at the same time, the difference between classification learning and clustering two kinds of learning methods, there are with a fuzzy neural network system. When the input is not the whole sample set of labeled samples, using unsupervised learning methods in cluster the sample; when the input sample set is labeled samples, or part is identified, is not identified by supervised learning method in sample classification operations on sample. The algorithm provided by this invention can be used not only in pure clustering, pure classification, but also in the mixed learning method of clustering and classification. In the learning process of mixed samples, both the identified samples and the unidentified samples have been fully utilized to improve the classification accuracy.

【技术实现步骤摘要】
一种集“分类与聚类”为一体的模糊神经网络算法
本专利技术涉及模式分类
,尤其涉及一种集“分类与聚类”为一体的模糊神经网络算法。
技术介绍
在模式分类领域中,监督与非监督学习一直扮演着相当重要的角色。所谓监督学习,即作为训练样本的输入数据都有着类别信息,被称之为已标识样本(labeled);模式分类(Classification)的主要任务就是探索某个类与类之间的判定边界,使得类别的误分率最小化。而非监督学习方式正相反,作为训练样本的输入数据没有类别信息,被称之为未标识样本(unlabeled);模式聚类(Clustering)的主要任务是根据某种相似性准则,将输入模式划分成若干个组(class)或者类(cluster)。通常,这两种学习方式被分开来研究与应用,例如,Simpson提出的模糊最小-最大神经网络(FuzzyMin-MaxNeuralNetwork),简称FMM,就是一种既可以应用于模式分类,也可以用于模式聚类的模糊神经网络。但它们都是分别应用于两种不同的模式分类,一种称为有监督学习,另一种称为无监督学习,因为这两种方法都实现简单,并且效率较高,故这两种方法得到了广泛的研究。Simpson提出的模糊最小-最大神经网络FMM是一种采用超盒(hyperbox)隶属度函数的模糊神经网络,一个超盒就定义了n维模式空间中的一个区域,所有包含在超盒内的模式对该超盒都具有完全的隶属度(membership)。一个超盒完全由它的最小点和最大点确定,且此最小-最大点对和这个超盒的隶属度函数联合起来定义了一个模糊集(即类别)。下面详细说明Simpson提出的模糊最小-最大神经网络FMM的工作原理:FMM主要采用超盒对模式空间进行划分,一个超盒定义了n维模式空间的一个区域。所有包含在超盒中的模式具有相同的类别,一个超盒由它在模式空间的最小点和最大点共同表示,并且对应一个模糊隶属度函数。(1)在分类问题中,表示相同类别的超盒模糊集合构成并表示一个类别的模糊集合;(2)在聚类问题中,超盒的最小点与最大点对,和这个超盒的隶属度函数联合起来定义了一个模糊集(即聚类)。图1所示为三维模式空间中的一个超盒C,从图1中可以看出,它完全由一对最小点Min和最大点Max确定。虽然超盒的每一维分量都可以取任何范围的值,但FMM中规定超盒每维分量的取值都在0和1之间。因此,模式空间将是一个三维的单位立方体。每个超盒模糊集的隶属度函数都描述了样本隶属于该超盒的程度,且隶属度取值范围也在0到1之间。假设Bj为第j个超盒模糊集,则定义Bj为如下有序集合:Bj={Xh,Vj,Wj,bj(Xh,Vj,Wj)}(1)其中:h={1,2,...m},m为设定的正整数;是第h个输入模式,是低端点,是高端点。Vj是第h个输入模式的最小点,Wj是第h个输入模式的最大点,模糊隶属度函数0≤bj(Xh,Vj,Wj)≤1。隶属度函数衡量了第h个输入样本Xh位于由最小点Vi和最大点Wj形成的超盒中的程度。在逐维比较的标准中,这一准则可以被看成是数据落在超盒最小-最大边界之外的每维分量比该超盒最大(小)点的值大(小)多少。Xh越接近于超盒,0≤bj(Xh,Vj,Wj)≤1就越接近于1。FMM的学习方法就是一个扩张与压缩超盒的过程,假设训练集为X∈{Xh|h=1,2,...,m},其中,Xh=(xh1,xh2,...xhn)∈In是第n个样本。开始学习中选择有序对并寻找离此样本最近的超盒,如果超盒满足扩张条件,则扩张该超盒以包含这个样本;如果不能找到满足扩张准则的超盒,则形成一个新的超盒并将其加入到系统中。这个递增的过程允许多次修改已存在的超盒,同时,也可以避免新的超盒加入时的重新训练。但是,超盒扩张带来一个问题,就是超盒的重叠。超盒重叠会引起歧义,试想一个样本对不止一个超盒集有相同的部分隶属度是合理的,但一个样本完全属于多个超盒集就不合理了。因此,最理想的情况就是清晰的类别间没有重叠。由此,FMM的学习算法由四步组成:初始化-扩张-重叠测试-压缩。每输入一个样本都要重复上述四步,直至边界稳定为止。(1)初始化(Initialization):在正式开始学习前,初始化所有超盒的最大点。(2)扩张(Expansion):判断离输入样本最近的超盒是否可被扩张,如果可,则扩张该超盒。如果不存在这样的超盒,则加入一个新的超盒到系统中。(3)重叠测试(Overlaptest):确定最近扩张的超盒是否导致了超盒间的重叠。(4)压缩(Contraction):如果重叠测试检测出任何重叠超盒,则压缩这盒以消除重叠。一旦检测出两个超盒间有重叠,则立即执行压缩操作,这样做可以避免重叠先检测再消除时可能导致的不必要的或错误的压缩操作。输入样本数据集中的每一个样本都要重复上述的步骤(1)~(4),直到得到稳定的边界结果。这里定义边界稳定性为在以相同的顺序连续的输入数据集时,所有超盒的最小-最大点都不再改变。图2是一个A、B两类分类问题的二维示意图。上述原理分析可以看出,FMM的学习过程过程就是在模式空间中构造和调整超盒的过程。一旦对输入样本训练完毕,分类界面就此形成。随后,对于给定的测试样本,网络的操作就是计算该样本对于当前已存在的每个超盒集的隶属度值,以此判定该样本属于哪一类超盒集。在此过程中,每一个样本都只有一次通过分类器的机会。综上所述,FMM的学习算法由四步组成:初始化-扩张-重叠测试-压缩。每输入一个样本都要重复上述四步,直至边界稳定为止。这四步学习算法中,每一步都只考虑单个种类的学习样本,即:要么样本是已标识的,要么样本是未标识的,两种不同的样本不能同时作为学习样本存在。可是,在现实生活中,人类已能够将已标识样本与未标识样本集成在一个识别系统中,将监督与非监督这两种学习方式集成在一起,这是人类对未知世界进行认知的一个重要特征。如何模拟人类认知的这一重要特征,将分类与聚类两种不同的学习方法集成在一个模糊神经网络系统中,同时实现既对“已标识的样本”进行有监督学习(分类),又对“未标识的样本”进行无监督学习(聚类),是本领域技术人员致力于解决的难题。
技术实现思路
本专利技术要解决的技术问题是如何将分类与聚类两种不同的学习方法集成在一个模糊神经网络系统中,同时实现既对“已标识的样本”进行有监督学习(分类),又对“未标识的样本”进行无监督学习(聚类)。为了解决上述技术问题,本专利技术的技术方案是提供一种集“分类与聚类”为一体的模糊神经网络算法,其特征在于,具体为:一、基本定义1、输入向量集成算法模型的输入模式采用下列形式的序对:{Xh,dh};其中,表示第h个输入模式,是低端点,是高端点,h为正整数;dh∈{0,1,2,...p}表示p+1类中某一类的类别标记,p为正整数,当dh=0时意味着输入样本为未标识样本;2、模糊超盒隶属度函数一个超盒定义n维模式空间中的一个区域,n为正整数;每个超盒具有一个模糊隶属度函数,模糊隶属度函数决定了模式空间中任意一点对该超盒的隶属程度;超盒的最小最大点和模糊隶属度函数定义了一个模糊集,属于同一类模式的超盒模糊集的并就构成了该类模式的分类空间;首先,第j个超盒模糊集定义为一个有序集合:Bj={Xh,Vj,Wj,bj(Xh,Vj,Wj)}(1)其中:本文档来自技高网
...
一种集“分类与聚类”为一体的模糊神经网络算法

【技术保护点】
一种集“分类与聚类”为一体的模糊神经网络算法,其特征在于,具体为:一、基本定义1)、输入向量集成算法模型的输入模式采用下列形式的序对:{Xh,dh};其中,

【技术特征摘要】
1.一种集“分类与聚类”为一体的模糊神经网络算法,其特征在于,具体为:一、基本定义1)、输入向量集成算法模型的输入模式采用下列形式的序对:{Xh,dh};其中,表示第h个输入模式,是低端点,是高端点,h为正整数;dh∈{0,1,2,...p}表示p+1类中某一类的类别标记,p为正整数,当dh=0时意味着输入样本为未标识样本;2)、模糊超盒隶属度函数一个超盒定义n维模式空间中的一个区域,n为正整数;每个超盒具有一个模糊隶属度函数,模糊隶属度函数决定了模式空间中任意一点对该超盒的隶属程度;超盒的最小最大点和模糊隶属度函数定义了一个模糊集,属于同一类模式的超盒模糊集的并就构成了该类模式的分类空间;首先,第j个超盒模糊集定义为一个有序集合:Bj={Xh,Vj,Wj,bj(Xh,Vj,Wj)}(1)其中:h={1,2,...m},m为正整数;是第h个输入模式,Vj是第h个输入模式的最小点,Wj第h个输入模式的最大点,模糊隶属度函数0≤bj(Xh,Vj,Wj)≤1,模糊隶属度函数定义如下:其中,f(r,γ)是两个参数的斜坡阈值函数,它符合在模糊逻辑系统中,能够简明直观的表达专家知识的特征;γ=[γ1,γ2,...γn]表示灵敏度参数,其表明隶属度值下降的速率;当γ变大时,模糊集边界将变得更加清晰,且随着γ的减小,模糊集边界的这种清晰性也会逐渐降低;其中,公式(2)中的Xihu表示第h个超盒高端点的第i维分量值,Wji表示第j个超盒的高端点,Vji表示第j个超盒的低端点,Xihl表示第h个输入模式低端点的第i维分量值;第h个超盒与第j个超盒两者之间逐维进行比较;二、学习算法1)、超盒初始化对于给定的样本集X∈{Xh|h=1,2,...,m},Vj及Wj的初始值设为:Vj=0,Wj=0;当第j个超盒被首次增加进来时,超盒的最大、最小点将依次被修改为:初始化标识集class(Bk)=dk对于所有的k=0,1....p,如果dk=0则意味着样本未被标识;2)、超盒扩张当从上一步中选出的第h个输入模式Bh与超盒Bj满足相似性测度最大时,判断其是否满足下列扩张准则:θ为自定义参数,用来限制超盒的最大尺寸,并且0<θ<1;其后再根据下列公式来调整Bj:如果class(Bh)=0则调整Bj(5)否则如果上述扩张可以分成两种情况,其一:当输入模式Bh属于未标识样本,即class(Bh)=...

【专利技术属性】
技术研发人员:胡静
申请(专利权)人:上海电机学院
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1