The invention discloses a hybrid attribute data clustering method based on variational self-encoder and density peak value. Firstly, the original mixed attribute data is pre-processed by encoding, normalizing and dimensionality reduction to eliminate redundant features; secondly, the potential features are extracted by variational self-encoder, and finally, the improved density peak value algorithm is used to improve the clustering method. Row clustering helps to improve clustering results. The method uses variational self-encoder to extract the characteristics of the original mixed attribute data after pretreatment, and uses the improved density peak algorithm to cluster, which overcomes the sensitivity of the traditional mixed attribute data clustering method to the selection of outliers and initial cluster centers, and makes the clustering result more stable. The method is not only suitable. It can also achieve ideal results for clustered non spherical data.
【技术实现步骤摘要】
基于变分自编码器和密度峰值的混合属性数据聚类方法
本专利技术涉及人工智能与数据挖掘的
,特别是一种基于变分自编码器和密度峰值的混合属性数据聚类方法。
技术介绍
聚类分析技术作为一种重要的无监督数据挖掘方法,它根据数据属性将样本划分成若干不同的簇,使得同一个簇内的样本具有较高的相似度,不同簇的样本差异性较大。k-means、DBSCAN、谱聚类等传统的聚类分析算法主要适用于仅含数值型属性的数据,不能直接对含有分类型属性的数据进行有效聚类。针对既有数值型属性又含有分类型属性的混合属性数据的聚类问题,不少学者已经得到了一些有意义的研究成果,其中1997年Huang提出的k-prototype算法应用最为广泛,该算法是对数值型属性数据聚类的k-means算法和分类型属性数据聚类的k-modes算法的综合。虽然算法计算速度快,适合大规模混合属性数据的聚类,但是该算法对初始簇中心和离群点较敏感,并且主要适用于球形分布的数据集。2014年,Rodriguez和Laio提出的密度峰值聚类算法(DensityPeakClustering,DPC),将具有局部密度大、且与局部密度更大的样本距离远的样本作为簇中心,然后按最近邻原则确定非簇中心样本所属的簇标号。该算法新颖直观,可以对任意形状分布的样本聚类,但是该算法需要计算任意两个样本之间的距离,计算复杂度高。2013年,Kingma和Welling将变分推理方法和神经网络结合提出了变分自编码器,Dilokthanakul和Mediano将高斯混合先验分布的变分自编码器应用于聚类分析。2017年,Bai等研究了对原始数据先 ...
【技术保护点】
1.一种基于变分自编码器和密度峰值的混合属性数据聚类方法,其特征在于,包括以下步骤:步骤1、读取原始混合属性数据集;步骤2、采用one‑hot编码技术对原始混合属性数据集中每一个原始混合属性样本的分类型属性值进行编码,对原始混合属性数据集中每一个原始混合属性样本的数值型属性值进行归一化,构造标准化数据矩阵;步骤3、采用t‑SNE算法对标准化数据矩阵进行降维处理,得到低维数据矩阵;步骤4、构建并训练变分自编码器,得到每个低维样本的潜在特征,构造联合特征矩阵;步骤5、基于联合特征矩阵,利用改进的密度峰值聚类算法进行聚类,从而得到联合特征矩阵对应的所有联合特征样本的聚类结果,该聚类结果也是与联合特征样本对应的原始混合属性样本的聚类结果;所述步骤5中利用改进的密度峰值聚类算法进行聚类包括以下步骤:(5‑1)给定预聚类的类别数,利用模糊C‑均值聚类算法对联合特征矩阵对应的联合特征样本进行预聚类,得到每个联合特征样本隶属于每个簇的隶属度,按最大隶属度原则,确定每个联合特征样本的簇标号,计算每个联合特征样本到各个簇中心的距离,以及每个簇的半径;(5‑2)根据每个簇的簇中心、簇半径及给定的截断距离,确 ...
【技术特征摘要】
1.一种基于变分自编码器和密度峰值的混合属性数据聚类方法,其特征在于,包括以下步骤:步骤1、读取原始混合属性数据集;步骤2、采用one-hot编码技术对原始混合属性数据集中每一个原始混合属性样本的分类型属性值进行编码,对原始混合属性数据集中每一个原始混合属性样本的数值型属性值进行归一化,构造标准化数据矩阵;步骤3、采用t-SNE算法对标准化数据矩阵进行降维处理,得到低维数据矩阵;步骤4、构建并训练变分自编码器,得到每个低维样本的潜在特征,构造联合特征矩阵;步骤5、基于联合特征矩阵,利用改进的密度峰值聚类算法进行聚类,从而得到联合特征矩阵对应的所有联合特征样本的聚类结果,该聚类结果也是与联合特征样本对应的原始混合属性样本的聚类结果;所述步骤5中利用改进的密度峰值聚类算法进行聚类包括以下步骤:(5-1)给定预聚类的类别数,利用模糊C-均值聚类算法对联合特征矩阵对应的联合特征样本进行预聚类,得到每个联合特征样本隶属于每个簇的隶属度,按最大隶属度原则,确定每个联合特征样本的簇标号,计算每个联合特征样本到各个簇中心的距离,以及每个簇的半径;(5-2)根据每个簇的簇中心、簇半径及给定的截断距离,确定每个簇的近邻簇、过渡簇、外围簇,其中,若两个不同簇内的任意两个联合特征样本之间的距离均小于截断距离,则两个簇互为近邻簇;若两个不同簇内的任意两个联合特征样本之间的距离均大于截断距离,则两个簇互为外围簇;既不是近邻簇也不是外围簇的为过渡簇;(5-3)确定每一个联合特征样本的近邻样本,统计近邻样本的总数即得该联合特征样本的局部密度,然后将联合特征样本按局部密度从大到小排序;(5-4)计算每个联合特征样本到不低于其局部密度的所有联合特征样本之间的距离,取其最小值作为该联合特征样本的相对距离,其中按局部密度从大到小排序在第一位的联合特征样本的相对距离取其余联合特征样本相对距离的最大值;(5-5)计算每个联合特征样本的局部密度与相对距离的乘积,作为该联合特征样本的综合度量值,将每个联合特征样本按综合度量值从大到小排序;(5-6)根据给定的聚类数k,选取综合度量值最大的前k个联合特征样本作为簇中心,其余联合特征样本按离其最近的簇中心确定簇号,最近的簇中心对应的簇号作为该联合特征样本的簇号,从而得到所有联合特征样本的聚类结果,该聚类结果也是与联合特征样本对应的原始混合属性样本的聚类结果。2.根据权利要求1所述的一种基于变分自编码器和密度峰值的混合属性数据聚类方法,其特征在于,所述步骤2中构造标准化数据矩阵,具体如下:(2-1)对原始混合属性数据集中每个原始混合属性样本的分类型属性值进行one-hot编码,编码后将每个分类型属性值转换成一个行向量;(2-2)将原始混合属性数据集中每个原始混合属性样本的数值型属性值归一化,并将其和该原始混合属性样本的各分类型属性值编码后的向量串联起来,转置后构成该原始混合属性样本的标准化向量;(2-3)依次将每一个原始混合属性样本的标准化向量作为矩阵的一列,得到的矩阵即为标准化数据矩阵。3.根据权利要求1所述的一种基于变分自编码器和密...
【专利技术属性】
技术研发人员:段宝彬,韩立新,勾智楠,
申请(专利权)人:河海大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。