本发明专利技术公开了一种基于自动聚类的粒子群优化分类算法,主要解决现有技术对邻域信息参考的局限性和目标函数评价标准单一性的问题。其实现过程是:(1)对训练数据执行自动聚类方法,获得自动聚类方法的类标;(2)对训练数据执行粒子群优化分类方法,获得该分类方法的类标;(3)计算粒子的适应度值,计算最优关系矩阵;(4)更新粒子的位置;(5)更新粒子的历史最高适应度值和种群的全局历史最高适应度值;(6)判断算法是否满足终止条件,若满足,则停止迭代;否则转至步骤(3);(7)利用粒子种群判测试数据的类标;(8)计算分类正确率。本发明专利技术具有对UCI数据分类效果显著的优点,可用于纹理图像分类。
【技术实现步骤摘要】
本专利技术属于图像处理
,涉及数据分类,可用于纹理图像分类。
技术介绍
随着数据库规模的日益扩大,人类积累的数据量正在以指数速度迅速的增长。进入九十年代后,伴随着因特网的出现和发展,以及随之而来的企业内部网,企业外部网和虚拟私有网的产生和应用,令整个世界成为一个规模较小的地球村。展现在我们面前的已不是局限于本部门,本行业的硕大数据库,而是无穷无尽的信息海洋。同时,更多的数据也正以前所未有的速度收集于计算机中,因此,从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的工程就显的尤为重要。人们必须学习如何在广博的信息中发现和挖掘自己所需要的信息资源,掌握有效的分类方法,使得数据的分类效率和准确率都得到较大的提高。 其中,基于粒子群优化的分类方法,是将数据中具有某方面相似特征的数据点划分为一类,已经有很多成熟的分类算法被用到数据的分类中。粒子群优化作为一种新兴的进化算法,目前主要的研究工作集中在算法的更新方式和目标函数的设计上。不同的更新方式将获得不同的子代个体,不同的子代个体又会产生不同的分类效果。现有的更新方式主要有原始的粒子群优化更新方式和标准的粒子群优化方式两种。但是,利用此两种对个体进行更新迭代时,存在对邻域信息参与的局限性。其次,不同的目标函数设计,对算法的结果将有很大的影响。分类中,传统的目标函数,是仅将数据的分类正确率作为评价标准,利用此类函数进行判别时,存在对数据分布特点认知上的不足,这些局限和不足限制了其在数据分类上的广泛应用。
技术实现思路
本专利技术的目的在于针对上述已有的技术不足,提出一种,以明确分类阶段的聚类类别数,确定数据的分布结构特性,避免类别数被随机选择,提高分类效果。实现本专利技术目的技术方案是通过研究数据的分布结构特性,结合粒子群优化算法对数据进行分类,其步骤包括如下(I)输入数据X,数据X的大小为NXD,即数据X的样本个数为N,每一个样本是D维的,将数据X分为训练数据B和测试数据C两部分,其中,训练数据、测试数据的大小均为MXD, M = N/2 ;(2)输入训练数据B已知的类标E1,类标E1是一个IXM的向量e,向量e =Ie1, e2, · · ·,ei; · · ·,eM},向量e中每一个兀素Gi表不训练数据B中的样本所属的类,ei e {I, 2,..., T}, T表示训练数据B正确的分类数,i e {1,2,· · ·,M};(3)采用差分进化自动聚类算法对训练数据B进行自动聚类,得到聚类方法中训练数据B的类标E2,类标E2是一个IXM的向量f,f = {fv f2,. . . , fi,. . . , fM},向量中每一个元素fi表示训练数据B中的样本匕在聚类方法中所属的类,& e {1,2,...,K},K表示训练数据B在聚类方法中分为几类,i e {1,2,· · ·,M};(4)采用粒子群优化分类法对训练数据B进行分类,获得分类方法中训练数据B的类标E3,根据步骤(3)中自动聚类方法所得的类标E2和分类方法所得的类SE3,得到最终粒子的类标E4和粒子的位置V;(4. I)初始化粒子群优化分类方法中训练数据B的类标E3,其中,类标E3是一个IXM的向量h = Oi1, h2,. . . , hM},其中元素hi表示训练数据B中的样本IDi在该分类方法中所属的类,比初始为0,i e {1,2,...,M},M是训练数据B的样本个数;(4. 2)初始化粒子y的个数U = 10XT, T是已知训练数据B的正确分类; (4. 3)初始迭代次数t = O ;(4.4)初始化粒子yi的位置V丨为IXD的随机向量V’ =Iv1' ,V' 2,···,ν' j,...,v' j e u,2,….,D},其中元素 V' J 为 0和 I 之间的随机数,i e {I, 2,..., U};(4.5)初始化粒子yi的速度■^为IXD的随机向量x’ ={x' !,Xi 2,...,x/,...,X' 1)},」_£{1,2,...,0},其中元素叉」为0和1之间的随机数,i e {1,2,···,υ};(4. 6)初始化粒子的历史最高适应度值/4 = O,i e {I, 2, . . . , U};(4. 7)初始化种群粒子的全局最高适应度值< =0 ;(4. 8)初始化种群粒子的类标E4为IXU的向量g = {g” g2, · · ·,g” · · ·,gj ,其中元素gi表示粒子71所属的类,i e {1,2,...,奶,&在{1,2,...,T}中随机取值,T为已知训练数据B的正确分类;(4.9)根据训练数据B中的样本匕与粒子yj; j e {1,2,. . .,U}的欧氏距离d,得到距离最小的粒子y,」,将粒子y'」所属的类作为样本h在类标E3中的类,i e {1,2,· · ·,M},M表示训练数据B中的样本个数;(4. 10)根据步骤⑶中自动聚类方法所得的类标E2,以及步骤(4. 9)中粒子群优化分类方法所得的类标E3,利用全概率方法得出这两种类标的最优关系矩阵P ;(4. 11)利用最优关系矩阵P计算粒子的适应度值< :(4. 12)将粒子yi的适应度值4与其历史最高适应度值/i进行比较,并用两者中较高的那个值,更新历史最高适应度值K,,i e {1,2,...,U};(4. 13)将所有粒子的适应度值Jt中的最大值与全局适应度值进行比较,并用两者中较高的那个值,更新全局适应度值< ;(4. 14)更新粒子Ji在第t+Ι次迭代时的位置>,I = (OtVrj +C1 X ι\ X (Ptbi - Xti) + C2 x r2 x (^ - Xtj),其中,符号ω表示位置比率值,Cot = I. 4-0. 4Xt/Tmax,Tmax=500,为最大迭代次数;影响因子C1 = C2 = 2. OSjT1^r2为在O和I之间的随机数表示粒子Ji在第t代的位置,4表示粒子Ii在第t代的速度,表示粒子Yi在第t代的历史最高适应度值表示粒子Ii在第t代的全局最高适应度值,i e {1,2,...,U};(4. 15)将迭代次数t加1,判断此时t的值是否大于Tmax,如果大于,则停止迭代,得到粒子的位置V和粒子的类标E4,否则返回步骤(4.9);(5)利用所得的粒子位置V和粒子类标E4,根据测试数据的样本与每一个粒子的欧式距离d’,将距离最小的粒子的类作为样本的类;(6)利用测试数据得到的分类结果,计算分类的正确率:r =,, M其中,Num表示测试数据中分类正确的样本的个数,M表示测试数据的样本个数。本专利技术与现有技术相比具有以下优点I、本专利技术由于对数据的分布结构特性进行了充分的研究,以不同的关系矩阵来表达不同粒子分类能力的差异性,根据自动聚类算法,明确了在训练阶段中,聚 类中所用到的类别数,降低了分类的随机性;2、本专利技术相对已有的粒子群更新方式,从参考信息入手,对粒子进行全局更新,避免分类结果陷入局部最优的问题。仿真实验结果表明,本专利技术提出的基于粒子群优化的分类方法能够有效地运用于数据的分类,并进一步应用于纹理图像的分类。附图说明图I是本专利技术的总流程图;图2是本本文档来自技高网...
【技术保护点】
一种基于自动聚类的粒子群优化分类方法,包括如下步骤:(1)输入数据X,数据X的大小为N×D,即数据X的样本个数为N,每一个样本是D维的,将数据X分为训练数据B和测试数据C两部分,其中,训练数据、测试数据的大小均为M×D,M=N/2;(2)输入训练数据B已知的类标E1,类标E1是一个1×M的向量e,向量e={e1,e2,...,ei,...,eM},向量e中每一个元素ei表示训练数据B中的样本bi所属的类,ei∈{1,2,...,T},T表示训练数据B正确的分类数,i∈{1,2,...,M};(3)采用差分进化自动聚类算法对训练数据B进行自动聚类,得到聚类方法中训练数据B的类标E2,类标E2是一个1×M的向量f,f={f1,f2,...,fi,...,fM},向量中每一个元素fi表示训练数据B中的样本bi在聚类方法中所属的类,fi∈{1,2,...,K},K表示训练数据B在聚类方法中分为几类,i∈{1,2,...,M};(4)采用粒子群优化分类法对训练数据B进行分类,获得分类方法中训练数据B的类标E3,根据步骤(3)中自动聚类方法所得的类标E2和分类方法所得的类标E3,得到最终粒子的类标E4和粒子的位置v;(4.1)初始化粒子群优化分类方法中训练数据B的类标E3,其中,类标E3是一个1×M的向量:h={h1,h2,...,hM},其中元素hi表示训练数据B中的样本bi在该分类方法中所属的类,hi初始为0,i∈{1,2,...,M},M是训练数据B的样本个数;(4.2)初始化粒子y的个数:U=10×T,T是已知训练数据B的正确分类;(4.3)初始迭代次数t=0;(4.4)初始化粒子yi的位置为1×D的随机向量:v“={v′1,v′2,...,v′j,...,v′D},j∈{1,2,...,D},其中元素v′j为0和1之间的随机数,i∈{1,2,...,U};(4.5)初始化粒子yi的速度为1×D的随机向量:x“={x′1,x′2,...,x′j,...,x′D}, j∈{1,2,...,D},其中元素x′j为0和1之间的随机数,i∈{1,2,...,U};(4.6)初始化粒子yi的历史最高适应度值i∈{1,2,...,U};(4.7)初始化种群粒子的全局最高适应度值(4.8)初始化种群粒子的类标E4为1×U的向量:g={g1,g2,...,gi,...,gU},其中元素gi表示粒子yi所属的类,i∈{1,2,...,U},gi在{1,2,...,T}中随机取值,T为已知训练数据B的正确分类;(4.9)根据训练数据B中的样本bi与粒子yj,j∈{1,2,...,U}的欧氏距离d,得到距离最小的粒子y′j,将粒子y′j所属的类作为样本bi在类标E3中的类,i∈{1,2,...,M},M表示训练数据B中的样本个数;(4.10)根据步骤(3)中自动聚类方法所得的类标E2,以及步骤(4.9)中粒子群优化分类方法所得的类标E3,利用全概率方法得出这两种类标的最优关系矩阵P;(4.11)利用最优关系矩阵P计算粒子yi的适应度值(4.12)将粒子yi的适应度值与其历史最高适应度值进行比较,并用两者中较高的那个值,更新历史最高适应度值i∈{1,2,...,U};(4.13)将所有粒子的适应度值Jt中的最大值与全局适应度值进行比较,并用两者中较高的那个值,更新全局适应度值(4.14)更新粒子yi在第t+1次迭代时的位置vit+1=ωtvit+c1×r1×(pbit-xit)+c2×r2×(pgt-xit),其中,符号ω表示位置比率值,ωt=1.4?0.4×t/Tmax,Tmax=500,为最大迭代次数;影响因子c1=c2=2.05,r1、r2为在0和1之间的随机数;表示粒子yi在第t代的位置,表示粒子yi在第t代的速度,表示粒子yi在第t代的历史最高适应度值,表示粒子yi在第t代的全局最高适应度值,i∈{1,2,...,U};(4.15)将迭代次数t加1,判断此时t的值是否大于Tmax,如果大于,则停止迭 代,得到粒子的位置v和粒子的类标E4,否则返回步骤(4.9);(5)利用所得的粒子位置v和粒子类标E4,根据测试数据的样本与每一个粒子的欧式距离d′,将距离最小的粒子的类作为样本的类;(6)利用测试数据得到的分类结果,计算分类的正确率:其中,Num表示测试数据中分类正确的样本的个数,M表示测试数据的样本个数。FDA00001899213300011.jpg,FDA000018992...
【技术特征摘要】
1.ー种基于自动聚类的粒子群优化分类方法,包括如下步骤 (1)输入数据X,数据X的大小为NXD,即数据X的样本个数为N,每ー个样本是D维的,将数据X分为训练数据B和测试数据C两部分,其中,训练数据、测试数据的大小均为MXD,M = N/2 ; (2)输入训练数据B已知的类标E1,类标E1是ー个IXM的向量e,向量e =Ie1, e2, · · ·,e” · · ·,eM},向量e中姆ー个兀素Gi表不训练数据B中的样本所属的类,ちe {I, 2,..., T}, T表示训练数据B正确的分类数,i e {1,2,· · ·,M}; (3)采用差分进化自动聚类算法对训练数据B进行自动聚类,得到聚类方法中训练数据B的类标E2,类标E2是ー个IXM的向量f,f = {fi, f2,. . . , fi,. . . , fM},向量中姆ー个元素も表示训练数据B中的样本h在聚类方法中所属的类,もe {1,2,...,K},K表示训练数据B在聚类方法中分为几类,i e {1,2,· · ·,M}; (4)采用粒子群优化分类法对训练数据B进行分类,获得分类方法中训练数据B的类标E3,根据步骤(3)中自动聚类方法所得的类标E2和分类方法所得的类标E3,得到最終粒子的类标E4和粒子的位置ν; (4. I)初始化粒子群优化分类方法中训练数据B的类标E3,其中,类标E3是ー个IXM的向量h = {h” h2, . . . , hM},其中元素Iii表示训练数据B中的样本h在该分类方法中所属的类,h初始为0,i e {1,2,· · ·,M},M是训练数据B的样本个数; (4. 2)初始化粒子y的个数U = 10XT,T是已知训练数据B的正确分类; (4. 3)初始迭代次数t = O ; (4.4)初始化粒子Yi的位置V;为IXD的随机向量V’=IV !,Vi 2, j, j e U,2,...,D},其中元素 V' j 为 0和 I 之间的随机数,i e ...
【专利技术属性】
技术研发人员:刘若辰,张燕,吴沛,焦李成,刘静,李阳阳,王爽,马文萍,
申请(专利权)人:西安电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。