一种基于聚类的分步式数据降维方法技术

技术编号:17007755 阅读:40 留言:0更新日期:2018-01-11 04:01
本发明专利技术公开了一种基于聚类的分步式降维方法,包括如下步骤:步骤1、对工业监测数据按数据点之间的距离进行聚类;步骤2:对步骤1产生的聚类数据的每一类数据分别进行降维,即分区降维;步骤3:对步骤2产生的数据进行处理,对处理之后的数据再进行一次降维。本发明专利技术提出的方法可以同时进行行和列的两个方向降维,提高降维的有效性,提高降维的效率;为将来数据处理中提取有效信息这一部分做出贡献。

【技术实现步骤摘要】
一种基于聚类的分步式数据降维方法
本专利技术属于数据挖掘领域,具体涉及一种聚类和降维相结合的高效的数据降维方法。
技术介绍
近几年,工业监测数据大量产生,如何从大量数据中提取有效信息已成为工业界的重要研究课题。现有研究中,数据降维方法能够把高维数据通过低维空间表现出来的同时,保留绝大多部分有效信息,消除数据冗余,已成为一种有效的信息提取手段,被广泛研究。目前,主要的降维方法包括PCA、LDA、局部线性降维LLE、非线性降维核PCA、多层自动编码等,但由于各自方法的局限性,在数据维数较高时,效率较低,难以满足数据发展的迫切需求。
技术实现思路
本专利技术的目的在于提供一种基于聚类的分步式降维方法,可以进一步提高降维的有效性。为实现上述目的本专利技术采用以下技术方案:一种基于聚类的分步式降维方法,包括如下步骤:步骤1、对工业监测数据按数据点间的距离进行聚类;步骤2、对步骤1产生的聚类数据的每一类数据分别进行降维,即分区降维;步骤3:对步骤2产生降维后的数据进行一系列调整之后再进行一次降维。作为本专利技术进一步的方案,步骤1具体按照以下步骤实施:步骤(1.1)、工业监测数据为矩阵X,令xkT=(xk1,xk2,...,xkp),k=1,2,...,N,p为变量数目,N是采样的样本数目;步骤(1.2)、将所述步骤(1.1)中数据集分成a类,其中a为给定常数,随机选择a个样本作为初始均值向量,它的集合U={u1,u2,...,ua},即为a类样本的中心,ui=xkT,i=1,2,...,a;步骤(1.3)、分别计算N个采样样本xk分别到各个中心ui的距离,dik=||xkT-ui||2;步骤(1.4)、根据距离最近的均值向量确定每个样本xk的标记,每个样本只能属于某一类;聚类之后,第一类集合表示为C1,card(C1)=l1,其中i=1,2,...,l1,为样本向量xk,同理第a类集合表示为Ca,card(Ca)=la其中i=1,2,...,la,且要满足作为本专利技术进一步的方案,步骤2具体按照以下步骤实施:对步骤1聚类后每类的样本数据进行降维,先对聚类之后的第一类数据进行降维,再用同样的方法对剩下的(a-1)类依次进行降维,第一类样本集合为C1,步骤(2.1)、对第一类样本集合C1进行中心化,中心化过程为其中xij分别表示样本集合C1中第i行第j列的数据,中心化过程就是把C1中的每一个数据减去该列数据的平均数;步骤(2.2)、计算样本的协方差矩阵C1TC1;步骤(2.3)、对协方差矩阵C1TC1做特征值分解;步骤(2.4)、取最大的d1个特征值对应的特征向量其中q=1,2,...,d1,且d1≤l1;同理分别对剩下的(a-1)类样本用步骤2的方式进行降维。取降维后的(a-1)类维数分别为d2,d3,...,da,且有d2≤l2,d3≤l3,...,da≤la。第一类样本降维之后取d1个特征向量为其中q=1,2,...,d1;第二类样本降维之后取d2个特征向量为其中q=1,2,...,d2;第a类样本降维之后取da个特征向量为其中q=1,2,...,da。作为本专利技术进一步的方案,步骤3具体按照以下步骤实施:对步骤(2)得到的样本数据Z再进行一次向降维,令矩阵并写成集合的形式Z={y1,y2,L,ys},令s=card(m),有s≤N;步骤(3.1)、对步骤(2)产生的数据进行一系列整合后的样本数据Z进行一次列降维,根据欧氏距离确定每个样本点的z个近邻点,高维空间和低维空间的线性度保持近似不变,其中z<s,且为给定常数。把每个样本用它的z个近邻点线性表示,如y1用它的z个近邻点线性表示:y1=w12y2+w13y3+...+w1(z+1)yz+1;步骤(3.2)、令Cfd=(yg-yif)T(yg-yid),yg为第g个样本点,g=1,2,...,s,ygf、ygd分别为yg的第f个和第d个近邻点,d,f=1,2,...,z,求得计算出局部权值矩阵W,W(i,j)=wij;步骤(3.3)、根据式子M=(I-W)T(I-W)求得M矩阵,I为和W规模大小一样的单位矩阵;步骤(3.4)、对M进行特征分解;步骤(3.5)、取M的最小d个非零特征值对应的特征向量,维数降到d维,且d<p,得到集合D={r1,r2,L,rd},o=1,2,...,d。本专利技术的有益效果是:首先对工业监测数据进行聚类,聚类之后分别对每一个小类进行样本降维,对第一次降维后的数据进行处理,最后对样本数据进行变量降维,本专利技术提出的方法可以同时进行列和行的两个方向降维,提高降维的有效性,提高降维的效率。为将来数据处理中提取有效信息这一部分做出贡献。附图说明图1是本专利技术基于聚类分步式数据降维方法的总体程图。图2是本专利技术用到的聚类流程图。图3是本专利技术第一次降维方法流程图。图4是本专利技术第二次降维方法流程图。图5是本专利技术中方法流程说明图。具体实施方式下面结合附图和具体实施方式对本专利技术进行详细说明。本专利技术一种基于聚类的分步式降维方法,具体总流程如图1所示,具体按照以下步骤实施:步骤1、对工业监测数据按数据点间的距离进行聚类;步骤2、对步骤1产生的聚类数据的每一类数据分别进行降维,即分区降维;步骤3:对步骤2产生降维后的数据进行一系列调整之后再进行一次降维。步骤1具体流程图如图2所表示:按照以下步骤实施:步骤1具体按照以下步骤实施:步骤(1.1)、工业监测数据为矩阵X,令xkT=(xk1,xk2,...,xkp),k=1,2,...,N,p为变量数目,N是采样的样本数目;步骤(1.2)、将所述步骤(1.1)中数据集分成a类,其中a为给定常数,随机选择a个样本作为初始均值向量,它的集合U={u1,u2,...,ua},即为a类样本的中心,ui=xkT,i=1,2,...,a;步骤(1.3)、分别计算N个采样样本xk分别到各个中心ui的距离,dik=||xkT-ui||2;步骤(1.4)、根据距离最近的均值向量确定每个样本xk的标记,每个样本只能属于某一类。聚类之后,第一类集合表示为C1,card(C1)=l1,其中i=1,2,...,l1,为样本向量xk。同理第a类集合表示为Ca,card(Ca)=la其中i=1,2,...,la,且要满足步骤2具体流程图如图3所示:按照以下步骤实施:对步骤1聚类后每类的样本数据进行降维,先对聚类之后的第一类数据进行降维,再用同样的方法对剩下的(a-1)类依次进行降维。第一类样本集合为C1,步骤(2.1)、对第一类样本集合C1进行中心化,中心化过程为其中xij分别表示样本集合C1中第i行第j列的数据,中心化过程就是把C1中的每一个数据减去该列数据的平均数;步骤(2.2)、计算样本的协方差矩阵C1TC1;步骤(2.3)、对协方差矩阵C1TC1做特征值分解;步骤(2.4)、取最大的d1个特征值对应的特征向量其中q=1,2,...,d1,且d1≤l1;同理分别对剩下的(a-1)类样本用步骤2的方式进行降维。取降维后的(a-1)类维数分别为d2,d3,...,da,且有d2≤l2,d3≤l3,...,da≤la。第一类样本降维之后取d1个特征向量为其中q=1,2,...,d1;第二类样本降维之后取d2个特征向量为其中q=1,2,...,d2;第a类样本文档来自技高网...
一种基于聚类的分步式数据降维方法

【技术保护点】
一种基于聚类的分步式降维方法,其特征在于,包括如下步骤:步骤1、对工业监测数据按数据点间的距离进行聚类;步骤2、对步骤1产生的聚类数据的每一类数据分别进行降维,即分区降维;步骤3:对步骤2产生降维后的数据进行一系列调整之后再进行一次降维。

【技术特征摘要】
1.一种基于聚类的分步式降维方法,其特征在于,包括如下步骤:步骤1、对工业监测数据按数据点间的距离进行聚类;步骤2、对步骤1产生的聚类数据的每一类数据分别进行降维,即分区降维;步骤3:对步骤2产生降维后的数据进行一系列调整之后再进行一次降维。2.如权利要求1所述的一种基于聚类的分步式降维方法,其特征在于,所述步骤1具体步骤如下:步骤(1.1)、工业监测数据为矩阵X,令xkT=(xk1,xk2,...,xkp),p为变量数目,N是采样的样本数目;步骤(1.2)、将所述步骤(1.1)中数据集分成a类,其中a为给定常数,随机选择a个样本作为初始均值向量,它的集合U={u1,u2,...,ua},即为a类样本的中心,ui=xkT,i=1,2,...,a;步骤(1.3)、分别计算N个采样样本xk分别到各个中心ui的距离,dik=||xkT-ui||2.步骤(1.4)、根据距离最近的均值向量确定每个样本xk的标记,每个样本只能属于某一类;聚类之后,第一类集合表示为C1,card(C1)=l1,其中为样本向量xk,同理第a类集合表示为Ca,card(Ca)=la其中且要满足3.如权利要求1所述的一种基于聚类的分步式降维方法,其特征在于,所述步骤2具体步骤如下:对步骤1聚类后每类的样本数据进行降维,先对聚类之后的第一类数据进行降维,再用同样的方法对剩下的(a-1)类依次进行降维,第一类样本集合为C1,步骤(2.1)、对第一类样本集合C1进行中心化,中心化过程为其中xij分别表示样本集合C1中第i行第j列的数据,中心化过程就是把C1中的每一个数据减去该列数据的平均数;步骤(2.2)、计算样本的协方差矩阵C1T...

【专利技术属性】
技术研发人员:谢国张永艳张春丽刘伟黑新宏钱富才
申请(专利权)人:西安理工大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1