基于变分自编码器和密度峰值的混合属性数据聚类方法技术

技术编号：19389142 阅读：29 留言：0更新日期：2018-11-10 02:07

本发明专利技术公开了一种基于变分自编码器和密度峰值的混合属性数据聚类方法，首先对原始混合属性数据进行编码、归一化、降维等预处理，消除冗余特征；接下来用变分自编码器提取潜在的特征，最后利用改进的密度峰值算法进行聚类，有助于提高聚类的效果。本发明专利技术方法利用变分自编码器提取预处理后原始混合属性数据的特征，并利用改进的密度峰值算法进行聚类，克服了传统的混合属性数据聚类方法对离群点和初始簇中心选择的敏感性，使得聚类的结果更为稳定，本方法不仅适用于球形分布数据，对非球形分布数据的聚类也能取得理想的效果。

Hybrid attribute data clustering method based on variational self coder and peak density

The invention discloses a hybrid attribute data clustering method based on variational self-encoder and density peak value. Firstly, the original mixed attribute data is pre-processed by encoding, normalizing and dimensionality reduction to eliminate redundant features; secondly, the potential features are extracted by variational self-encoder, and finally, the improved density peak value algorithm is used to improve the clustering method. Row clustering helps to improve clustering results. The method uses variational self-encoder to extract the characteristics of the original mixed attribute data after pretreatment, and uses the improved density peak algorithm to cluster, which overcomes the sensitivity of the traditional mixed attribute data clustering method to the selection of outliers and initial cluster centers, and makes the clustering result more stable. The method is not only suitable. It can also achieve ideal results for clustered non spherical data.

全部详细技术资料下载

【技术实现步骤摘要】
基于变分自编码器和密度峰值的混合属性数据聚类方法
本专利技术涉及人工智能与数据挖掘的
，特别是一种基于变分自编码器和密度峰值的混合属性数据聚类方法。
技术介绍
聚类分析技术作为一种重要的无监督数据挖掘方法，它根据数据属性将样本划分成若干不同的簇，使得同一个簇内的样本具有较高的相似度，不同簇的样本差异性较大。k-means、DBSCAN、谱聚类等传统的聚类分析算法主要适用于仅含数值型属性的数据，不能直接对含有分类型属性的数据进行有效聚类。针对既有数值型属性又含有分类型属性的混合属性数据的聚类问题，不少学者已经得到了一些有意义的研究成果，其中1997年Huang提出的k-prototype算法应用最为广泛，该算法是对数值型属性数据聚类的k-means算法和分类型属性数据聚类的k-modes算法的综合。虽然算法计算速度快，适合大规模混合属性数据的聚类，但是该算法对初始簇中心和离群点较敏感，并且主要适用于球形分布的数据集。2014年，Rodriguez和Laio提出的密度峰值聚类算法(DensityPeakClustering，DPC)，将具有局部密度大、且与局部密度更大的样本距离远的样本作为簇中心，然后按最近邻原则确定非簇中心样本所属的簇标号。该算法新颖直观，可以对任意形状分布的样本聚类，但是该算法需要计算任意两个样本之间的距离，计算复杂度高。2013年，Kingma和Welling将变分推理方法和神经网络结合提出了变分自编码器，Dilokthanakul和Mediano将高斯混合先验分布的变分自编码器应用于聚类分析。2017年，Bai等研究了对原始数据先...

【技术保护点】
1.一种基于变分自编码器和密度峰值的混合属性数据聚类方法，其特征在于，包括以下步骤：步骤1、读取原始混合属性数据集；步骤2、采用one‑hot编码技术对原始混合属性数据集中每一个原始混合属性样本的分类型属性值进行编码，对原始混合属性数据集中每一个原始混合属性样本的数值型属性值进行归一化，构造标准化数据矩阵；步骤3、采用t‑SNE算法对标准化数据矩阵进行降维处理，得到低维数据矩阵；步骤4、构建并训练变分自编码器，得到每个低维样本的潜在特征，构造联合特征矩阵；步骤5、基于联合特征矩阵，利用改进的密度峰值聚类算法进行聚类，从而得到联合特征矩阵对应的所有联合特征样本的聚类结果，该聚类结果也是与联合特征样本对应的原始混合属性样本的聚类结果；所述步骤5中利用改进的密度峰值聚类算法进行聚类包括以下步骤：(5‑1)给定预聚类的类别数，利用模糊C‑均值聚类算法对联合特征矩阵对应的联合特征样本进行预聚类，得到每个联合特征样本隶属于每个簇的隶属度，按最大隶属度原则，确定每个联合特征样本的簇标号，计算每个联合特征样本到各个簇中心的距离，以及每个簇的半径；(5‑2)根据每个簇的簇中心、簇半径及给定的截断距离，确...

【技术特征摘要】
1.一种基于变分自编码器和密度峰值的混合属性数据聚类方法，其特征在于，包括以下步骤：步骤1、读取原始混合属性数据集；步骤2、采用one-hot编码技术对原始混合属性数据集中每一个原始混合属性样本的分类型属性值进行编码，对原始混合属性数据集中每一个原始混合属性样本的数值型属性值进行归一化，构造标准化数据矩阵；步骤3、采用t-SNE算法对标准化数据矩阵进行降维处理，得到低维数据矩阵；步骤4、构建并训练变分自编码器，得到每个低维样本的潜在特征，构造联合特征矩阵；步骤5、基于联合特征矩阵，利用改进的密度峰值聚类算法进行聚类，从而得到联合特征矩阵对应的所有联合特征样本的聚类结果，该聚类结果也是与联合特征样本对应的原始混合属性样本的聚类结果；所述步骤5中利用改进的密度峰值聚类算法进行聚类包括以下步骤：(5-1)给定预聚类的类别数，利用模糊C-均值聚类算法对联合特征矩阵对应的联合特征样本进行预聚类，得到每个联合特征样本隶属于每个簇的隶属度，按最大隶属度原则，确定每个联合特征样本的簇标号，计算每个联合特征样本到各个簇中心的距离，以及每个簇的半径；(5-2)根据每个簇的簇中心、簇半径及给定的截断距离，确定每个簇的近邻簇、过渡簇、外围簇，其中，若两个不同簇内的任意两个联合特征样本之间的距离均小于截断距离，则两个簇互为近邻簇；若两个不同簇内的任意两个联合特征样本之间的距离均大于截断距离，则两个簇互为外围簇；既不是近邻簇也不是外围簇的为过渡簇；(5-3)确定每一个联合特征样本的近邻样本，统计近邻样本的总数即得该联合特征样本的局部密度，然后将联合特征样本按局部密度从大到小排序；(5-4)计算每个联合特征样本到不低于其局部密度的所有联合特征样本之间的距离，取其最小值作为该联合特征样本的相对距离，其中按局部密度从大到小排序在第一位的联合特征样本的相对距离取其余联合特征样本相对距离的最大值；(5-5)计算每个联合特征样本的局部密度与相对距离的乘积，作为该联合特征样本的综合度量值，将每个联合特征样本按综合度量值从大到小排序；(5-6)根据给定的聚类数k，选取综合度量值最大的前k个联合特征样本作为簇中心，其余联合特征样本按离其最近的簇中心确定簇号，最近的簇中心对应的簇号作为该联合特征样本的簇号，从而得到所有联合特征样本的聚类结果，该聚类结果也是与联合特征样本对应的原始混合属性样本的聚类结果。2.根据权利要求1所述的一种基于变分自编码器和密度峰值的混合属性数据聚类方法，其特征在于，所述步骤2中构造标准化数据矩阵，具体如下：(2-1)对原始混合属性数据集中每个原始混合属性样本的分类型属性值进行one-hot编码，编码后将每个分类型属性值转换成一个行向量；(2-2)将原始混合属性数据集中每个原始混合属性样本的数值型属性值归一化，并将其和该原始混合属性样本的各分类型属性值编码后的向量串联起来，转置后构成该原始混合属性样本的标准化向量；(2-3)依次将每一个原始混合属性样本的标准化向量作为矩阵的一列，得到的矩阵即为标准化数据矩阵。3.根据权利要求1所述的一种基于变分自编码器和密...

【专利技术属性】
技术研发人员：段宝彬，韩立新，勾智楠，
申请(专利权)人：河海大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人