一种基于聚类的分步式数据降维方法技术

技术编号：17007755 阅读：40 留言：0更新日期：2018-01-11 04:01

本发明专利技术公开了一种基于聚类的分步式降维方法，包括如下步骤：步骤1、对工业监测数据按数据点之间的距离进行聚类；步骤2：对步骤1产生的聚类数据的每一类数据分别进行降维，即分区降维；步骤3：对步骤2产生的数据进行处理，对处理之后的数据再进行一次降维。本发明专利技术提出的方法可以同时进行行和列的两个方向降维，提高降维的有效性，提高降维的效率；为将来数据处理中提取有效信息这一部分做出贡献。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于聚类的分步式数据降维方法
本专利技术属于数据挖掘领域，具体涉及一种聚类和降维相结合的高效的数据降维方法。
技术介绍
近几年，工业监测数据大量产生，如何从大量数据中提取有效信息已成为工业界的重要研究课题。现有研究中，数据降维方法能够把高维数据通过低维空间表现出来的同时，保留绝大多部分有效信息，消除数据冗余，已成为一种有效的信息提取手段，被广泛研究。目前，主要的降维方法包括PCA、LDA、局部线性降维LLE、非线性降维核PCA、多层自动编码等，但由于各自方法的局限性，在数据维数较高时，效率较低，难以满足数据发展的迫切需求。
技术实现思路
本专利技术的目的在于提供一种基于聚类的分步式降维方法，可以进一步提高降维的有效性。为实现上述目的本专利技术采用以下技术方案：一种基于聚类的分步式降维方法，包括如下步骤：步骤1、对工业监测数据按数据点间的距离进行聚类；步骤2、对步骤1产生的聚类数据的每一类数据分别进行降维，即分区降维；步骤3：对步骤2产生降维后的数据进行一系列调整之后再进行一次降维。作为本专利技术进一步的方案，步骤1具体按照以下步骤实施：步骤(1.1)、工业监测数据为矩阵X，令xkT＝(xk1，xk2，...，xkp)，k＝1，2，...，N，p为变量数目，N是采样的样本数目；步骤(1.2)、将所述步骤(1.1)中数据集分成a类，其中a为给定常数，随机选择a个样本作为初始均值向量，它的集合U＝{u1，u2，...，ua}，即为a类样本的中心，ui＝xkT，i＝1，2，...，a；步骤(1.3)、分别计算N个采样样本xk分别到各个中心ui的距离，dik＝||x...
一种基于聚类的分步式数据降维方法

【技术保护点】
一种基于聚类的分步式降维方法，其特征在于，包括如下步骤：步骤1、对工业监测数据按数据点间的距离进行聚类；步骤2、对步骤1产生的聚类数据的每一类数据分别进行降维，即分区降维；步骤3：对步骤2产生降维后的数据进行一系列调整之后再进行一次降维。

【技术特征摘要】
1.一种基于聚类的分步式降维方法，其特征在于，包括如下步骤：步骤1、对工业监测数据按数据点间的距离进行聚类；步骤2、对步骤1产生的聚类数据的每一类数据分别进行降维，即分区降维；步骤3：对步骤2产生降维后的数据进行一系列调整之后再进行一次降维。2.如权利要求1所述的一种基于聚类的分步式降维方法，其特征在于，所述步骤1具体步骤如下：步骤(1.1)、工业监测数据为矩阵X，令xkT＝(xk1，xk2，...，xkp)，p为变量数目，N是采样的样本数目；步骤(1.2)、将所述步骤(1.1)中数据集分成a类，其中a为给定常数，随机选择a个样本作为初始均值向量，它的集合U＝{u1，u2，...，ua}，即为a类样本的中心，ui＝xkT，i＝1，2，...，a；步骤(1.3)、分别计算N个采样样本xk分别到各个中心ui的距离，dik＝||xkT-ui||2.步骤(1.4)、根据距离最近的均值向量确定每个样本xk的标记，每个样本只能属于某一类；聚类之后，第一类集合表示为C1，card(C1)＝l1，其中为样本向量xk，同理第a类集合表示为Ca，card(Ca)＝la其中且要满足3.如权利要求1所述的一种基于聚类的分步式降维方法，其特征在于，所述步骤2具体步骤如下：对步骤1聚类后每类的样本数据进行降维，先对聚类之后的第一类数据进行降维，再用同样的方法对剩下的(a-1)类依次进行降维，第一类样本集合为C1，步骤(2.1)、对第一类样本集合C1进行中心化，中心化过程为其中xij分别表示样本集合C1中第i行第j列的数据，中心化过程就是把C1中的每一个数据减去该列数据的平均数；步骤(2.2)、计算样本的协方差矩阵C1T...

【专利技术属性】
技术研发人员：谢国，张永艳，张春丽，刘伟，黑新宏，钱富才，
申请(专利权)人：西安理工大学，
类型：发明
国别省市：陕西,61

全部详细技术资料下载我是这个专利的主人