一种基于支持向量机的专家系统知识获取方法技术方案

技术编号:8563047 阅读:266 留言:0更新日期:2013-04-11 04:43
本发明专利技术提出了一种基于支持向量机的专家系统知识获取方法,基于支持向量机的规则提取过程包括:数据预处理、支持向量聚类、超矩形规则提取和规则简化、以及基于规则的样本识别过程;所述方法经过特征提取与规则简化之后,提取的规则更加简洁,易于解释;在计算聚类分配矩阵时,仅对支持向量进行聚类标识,大大降低了计算量;规则提取方法先进,诊断识别率更高;支持向量机是数据挖掘中的一种新兴的分类技术,具有坚实的理论基础和优良的泛化性能;本发明专利技术能有效地获取专家系统知识规则,突破专家系统知识动态获取的瓶颈。

【技术实现步骤摘要】

本专利技术属于信息处理
,特别是。
技术介绍
目前,基于数据挖掘的知识获取主要是通过机器学习或数理统计方面的一些算法从已有的一些数据中获取知识。其中关联分析法、人工神经元网络、粗糙集和决策树等在数据挖掘中的应用很广泛。如果能把这些算法和目前的实际应用相结合,就能够从实际的数据中自动获取知识规则,有效地突破了知识获取的瓶颈问题。将大大提升专家系统的智能化水平和知识获取能力。近年来,支持向量机作为数据挖掘中的一种新兴的分类技术,完善的泛化性理论指导和核函数强大的非线性映射能力使支持向量机和神经网络一样,具有逼近任意连续有界非线性函数的能力,并且它还具有神经网络所不具有的许多优点,如泛化能力强,学习问题不存在局部极小,可以自动确定学习机的结构,不存在维数灾难问题,以及处理小样本能力强等。由于这些优点,基于支持向量机的数据挖掘技术已受到数据挖掘界的重视,对它的研究不断深入。而且,迄今发表的SVM规则提取算法不仅简单而且具有广泛的适用性。目前已有的从SVM中提取知识的方法有二,一是首先利用K-means聚类算法得到训练样本集中每一类样本的聚类中心,然后在得到的聚类中心和支持向量的基础上构建椭圆型的规贝U,最后将椭圆型规则映射到样本空间坐标轴上,得到if-then规则。但是由该方法得到的椭圆型规则之间重叠的比较严重,而且由于K-means聚类效果过分依赖于聚类中心初始值,因此这种规则提取方法很难控制得到规则的数目以及规则的质量;另一是基于SVM的超矩形规则提取算法,首先将训练样本映射到高维特征空间中,以得到样本的支持向量和最优分类超平面,然后在得到的支持向量和聚类中心的基础上构建超矩形,最后将超矩形映射到样本空间坐标轴上,得到超矩形规则。但是这种方法得到的超矩形规则由于用到了样本的所有特征,这样得到的知识规则复杂、可理解性低。
技术实现思路
本专利技术针对上述问题,提出了,目的就在于解决上述现有技术的局限性,有效地获取专家系统知识规则,突破专家系统知识动态获取瓶颈。为达成上述目的,本专利技术的技术方案是,包括数据预处理、支持向量聚类、超矩形规则提取和规则简化、以及基于规则的样本识别过程;具体描述如下步骤A,对不平衡样本数据进行预处理;判断各类样本的数目是否平衡,若不平衡,则采用SMOTE过抽样算法对少数类样本进行重采样,以使得各类样本数目平衡;其过程如下步骤A-1,对少数类中的每一个样本X,计算X到少数类样本集中每个样本的欧几里德距离,获得其k个最近邻;步骤A-2,样本数据集中多数类与少数类样本数目的比值为不平衡比率U,根据U设置采样倍率;对每一个少数类样本X,从其k个最近邻中随机选择合适的一个样本为 ,在X与 之间进行随机线性插值;步骤A-3,构造新的少数类样本Xnew Xmw = x+ra//6/(0,l)x(;v- . )其中,rand(0,I)表示O到I之间的一个随机数;步骤A-4,把人工合成的新样本与原始训练样本集并为一个新的训练集;步骤B,利用遗传算法对特征维数大的样本,进行特征选取,其步骤为步骤B-1,二进制编码,二进制码中的每一位对应一个特征,对于二进制码中每一位的值,“O”表示特征未被选中;“1”表示特征被选中;步骤B-2,生成初始群体,随机产生S个初始串构成初始种群,S表示种群数,S为自然数;步骤B-3,计算个体适应度值,选取基于最近邻分类法的适应度函数,利用其分类识别率作为特征评价函数,其步骤为步骤B-3-1,将样本随机分为训练样本和测试样本集;步骤B-3-2,对每一个特征组合初始串,去掉训练样本和测试样本中未被选中的特征,从而得到新的训练样本和测试样本集,运用最近邻法对测试样本进行识别,得到识别率R;步骤B-3-3,考虑所选择的特征数目M,则构造适应度函数为J =及(1+們由于O彡R彡1,因此,特征数M越小、识别率越大,则适应度函数J值越大,η为平衡特征数目和识别率权重的参数,通常,O ^ n ^ I ;步骤Β-4,在S个初始串中选择适应度最大的个体,即种群中最好的个体无条件地复制到下一代新种群中,然后对对父代种群进行选择、交叉和变异等遗传算子运算,从而繁殖出下一代新种群其它S-1个基因串;交叉和变异是产生新个体的遗传算子,交叉率取值范围为[O, I],变异率取值范围为[O, I];步骤Β-5,如果达到设定的繁衍代数,返回最好的基因串,所述基因串中,I表示特征被选中,O表示特征未被选中,从而得到特征组合,并将其作为特征选取的依据,算法结束;否则,回到步骤Β-4继续下一代的繁衍;步骤C,利用支持向量机聚类算法得到特征选取后样本的聚类分配矩阵,根据所述聚类分配矩阵构建超矩形规则;步骤C-1,支持向量聚类,其步骤如下步骤C-1-1,特征空间中的一个样本点到其最小包含超球球心的距离为D(Xi)本文档来自技高网
...

【技术保护点】
一种基于支持向量机的专家系统知识获取方法,其特征在于,所述方法包括:数据预处理、支持向量聚类、超矩形规则提取和规则简化、以及基于规则的样本识别过程;具体描述如下:步骤A,对不平衡样本进行数据预处理;判断各类样本的数目是否平衡,若不平衡,则采用SMOTE过抽样算法对少数类样本进行重采样,以使得各类样本数目平衡;其过程如下:步骤A?1,对少数类中的每一个样本x,计算x到少数类样本集中每个样本的欧几里德距离,获得其k个最近邻,k为自然数;步骤A?2,样本数据集中多数类与少数类样本数目的比值为不平衡比率U,根据U设置采样倍率;对每一个少数类样本x,从其k个最近邻中随机选择合适的一个样本为在x与之间进行随机线性插值;步骤A?3,构造新的少数类样本xnew:xnew=x+rand(0,1)×(x~-x)其中,rand(0,1)表示0到1之间的一个随机数;步骤A?4,把人工合成的新样本与原始训练样本集并为一个新的训练集;步骤B,利用遗传算法对特征维数大的样本,进行特征选取,其步骤为:步骤B?1,二进制编码,二进制码中的每一位对应一个特征,对于二进制码中每一位的值,“0”表示特征未被选中;“1”表示特征被选中;步骤B?2,生成初始群体,随机产生S个初始串构成初始种群,S表示种群数,S定义为自然数;步骤B?3,计算个体适应度值,选取基于最近邻分类法的适应度函数,利用其分类识别率作为特征评价函数,其步骤为:步骤B?3?1,将样本随机分为训练样本和测试样本集;步骤B?3?2,对每一个特征组合初始串,去掉训练样本和测试样本中未被选中的特征,从而得到新的训练样本和测试样本集,运用最近邻法对测试样本进行识别,得到识别率R;步骤B?3?3,考虑所选择的特征数目M,则构造适应度函数为:J=R(1+Mn)由于0≤R≤1,因此,特征数M越小、识别率越大,则适应度函数J值越大, n为平衡特征数目和识别率权重的参数,0≤n≤1;步骤B?4,在S个初始串中选择适应度最大的个体,即种群中最好的个体无条件地复制到下一代新种群中,然后对父代种群进行选择、交叉和变异遗传算子运算,从而繁殖出下一代新种群其它S?1个基因串;交叉和变异是产生新个体的遗传算子,交叉率取值范围为[0,1],变异率取值范围为[0,1];步骤B?5,如果达到设定的繁衍代数,返回最好的基因串,所述基因串中,1表示特征被选中,0表示特征未被选中,从而得到特征组合,算法结束;否则,回到步骤B?4继续下一代的繁衍;步骤C,利用支持向量机聚类算法得到特征选取后样本的聚类分配矩阵,根据所述聚类分配矩阵构建超矩形规则;步骤C?1,支持向量聚类SVC,其步骤如下步骤C?1?1,特征空间中的一个样本点到其最小包含超球球心的距离为D(xi):D(xi)=Σi,j=1NβiβjK(xi,xj)+K(xi,xi)-2Σj=1NK(xj,xi)βj其中,βi≥0、βj≥0,i∈[1,N],j∈[1,N];为N个样本点的数据集合,Rd为数据空间;K(xi,xj)=exp(||xi?xj||2/q2)为高斯径向基核函数,q为高斯核参数;特征空间中样本最小包含超球半径可以写为βi,βj为任一支持向量,C是惩罚系数;输入样本空间中包含数据样本点的聚类定义成集合:Ω={x|D(x)=R};步骤C?1?2,特征空间类簇的标识,聚类标识特征空间中的样本点;构造一个邻接矩阵A:如果在连接线上取10~20个采样点,只要他们都满足Aij=1,即可认为D(y)≤R成立,找出邻接矩阵A表示的图中的连通部分,一个连通部分就表示一个聚类,对于那些只有一个元素的连通部分,标记为噪声;步骤C?1?3,采用10折交叉验证的方法得到惩罚因子C和参数q;步骤C?2,超矩形规则提取,每一类簇决定一个超矩形由类簇中各个属性的区间x1∈[x1L,x1U]∩···∩xi∈[xiL,xiU]∩···∩xN∈[xNL,xNU]定义,xi上标L表示下,xi上标U表示上,即分别代表类簇中第i个属性的取值区间的最小值和最大值,Lj代表类标号;将投影到坐标轴上,得到如下的if?then规则ifx1∈[x1L,x1U]∩···∩xi&E...

【技术特征摘要】
1.一种基于支持向量机的专家系统知识获取方法,其特征在于,所述方法包括数据预处理、支持向量聚类、超矩形规则提取和规则简化、以及基于规则的样本识别过程;具体描述如下 步骤A,对不平衡样本进行数据预处理;判断各类样本的数目是否平衡,若不平衡,则采用SMOTE过抽样算法对少数类样本进行重采样,以使得各类样本数目平衡;其过程如下步骤A-...

【专利技术属性】
技术研发人员:李爱陈果王洪伟郝腾飞于明月程小勇
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1