当前位置: 首页 > 专利查询>河海大学专利>正文

基于变分自编码器和密度峰值的混合属性数据聚类方法技术

技术编号:19389142 阅读:29 留言:0更新日期:2018-11-10 02:07
本发明专利技术公开了一种基于变分自编码器和密度峰值的混合属性数据聚类方法,首先对原始混合属性数据进行编码、归一化、降维等预处理,消除冗余特征;接下来用变分自编码器提取潜在的特征,最后利用改进的密度峰值算法进行聚类,有助于提高聚类的效果。本发明专利技术方法利用变分自编码器提取预处理后原始混合属性数据的特征,并利用改进的密度峰值算法进行聚类,克服了传统的混合属性数据聚类方法对离群点和初始簇中心选择的敏感性,使得聚类的结果更为稳定,本方法不仅适用于球形分布数据,对非球形分布数据的聚类也能取得理想的效果。

Hybrid attribute data clustering method based on variational self coder and peak density

The invention discloses a hybrid attribute data clustering method based on variational self-encoder and density peak value. Firstly, the original mixed attribute data is pre-processed by encoding, normalizing and dimensionality reduction to eliminate redundant features; secondly, the potential features are extracted by variational self-encoder, and finally, the improved density peak value algorithm is used to improve the clustering method. Row clustering helps to improve clustering results. The method uses variational self-encoder to extract the characteristics of the original mixed attribute data after pretreatment, and uses the improved density peak algorithm to cluster, which overcomes the sensitivity of the traditional mixed attribute data clustering method to the selection of outliers and initial cluster centers, and makes the clustering result more stable. The method is not only suitable. It can also achieve ideal results for clustered non spherical data.

【技术实现步骤摘要】
基于变分自编码器和密度峰值的混合属性数据聚类方法
本专利技术涉及人工智能与数据挖掘的
,特别是一种基于变分自编码器和密度峰值的混合属性数据聚类方法。
技术介绍
聚类分析技术作为一种重要的无监督数据挖掘方法,它根据数据属性将样本划分成若干不同的簇,使得同一个簇内的样本具有较高的相似度,不同簇的样本差异性较大。k-means、DBSCAN、谱聚类等传统的聚类分析算法主要适用于仅含数值型属性的数据,不能直接对含有分类型属性的数据进行有效聚类。针对既有数值型属性又含有分类型属性的混合属性数据的聚类问题,不少学者已经得到了一些有意义的研究成果,其中1997年Huang提出的k-prototype算法应用最为广泛,该算法是对数值型属性数据聚类的k-means算法和分类型属性数据聚类的k-modes算法的综合。虽然算法计算速度快,适合大规模混合属性数据的聚类,但是该算法对初始簇中心和离群点较敏感,并且主要适用于球形分布的数据集。2014年,Rodriguez和Laio提出的密度峰值聚类算法(DensityPeakClustering,DPC),将具有局部密度大、且与局部密度更大的样本距离远的样本作为簇中心,然后按最近邻原则确定非簇中心样本所属的簇标号。该算法新颖直观,可以对任意形状分布的样本聚类,但是该算法需要计算任意两个样本之间的距离,计算复杂度高。2013年,Kingma和Welling将变分推理方法和神经网络结合提出了变分自编码器,Dilokthanakul和Mediano将高斯混合先验分布的变分自编码器应用于聚类分析。2017年,Bai等研究了对原始数据先利用k-means进行快速预聚类,通过分析预聚类的结果,提出两种方法减少密度峰值聚类算法中一些不必要的距离计算,大大提高了算法的运行效率。但上述方法只适合数值型属性数据的聚类,不能直接应用于既有数值型属性又包含分类型属性的混合属性数据的聚类。
技术实现思路
本专利技术所要解决的技术问题是克服现有技术的不足而提供一种基于变分自编码器和密度峰值的混合属性数据聚类方法,本专利技术克服了传统的混合属性数据聚类方法对离群点和初始簇中心选择的敏感性,使得聚类的结果更为稳定,本方法不仅适用于球形分布数据,对非球形分布数据的聚类也能取得理想的效果。本专利技术为解决上述技术问题采用以下技术方案:根据本专利技术提出的一种基于变分自编码器和密度峰值的混合属性数据聚类方法,包括以下步骤:步骤1、读取原始混合属性数据集;步骤2、采用one-hot编码技术对原始混合属性数据集中每一个原始混合属性样本的分类型属性值进行编码,对原始混合属性数据集中每一个原始混合属性样本的数值型属性值进行归一化,构造标准化数据矩阵;步骤3、采用t-SNE算法对标准化数据矩阵进行降维处理,得到低维数据矩阵;步骤4、构建并训练变分自编码器,得到每个低维样本的潜在特征,构造联合特征矩阵;步骤5、基于联合特征矩阵,利用改进的密度峰值聚类算法进行聚类,从而得到联合特征矩阵对应的所有联合特征样本的聚类结果,该聚类结果也是与联合特征样本对应的原始混合属性样本的聚类结果;所述步骤5中利用改进的密度峰值聚类算法进行聚类包括以下步骤:(5-1)给定预聚类的类别数,利用模糊C-均值聚类算法对联合特征矩阵对应的联合特征样本进行预聚类,得到每个联合特征样本隶属于每个簇的隶属度,按最大隶属度原则,确定每个联合特征样本的簇标号,计算每个联合特征样本到各个簇中心的距离,以及每个簇的半径;(5-2)根据每个簇的簇中心、簇半径及给定的截断距离,确定每个簇的近邻簇、过渡簇、外围簇,其中,若两个不同簇内的任意两个联合特征样本之间的距离均小于截断距离,则两个簇互为近邻簇;若两个不同簇内的任意两个联合特征样本之间的距离均大于截断距离,则两个簇互为外围簇;既不是近邻簇也不是外围簇的为过渡簇;(5-3)确定每一个联合特征样本的近邻样本,统计近邻样本的总数即得该联合特征样本的局部密度,然后将联合特征样本按局部密度从大到小排序;(5-4)计算每个联合特征样本到不低于其局部密度的所有联合特征样本之间的距离,取其最小值作为该联合特征样本的相对距离,其中按局部密度从大到小排序在第一位的联合特征样本的相对距离取其余联合特征样本相对距离的最大值;(5-5)计算每个联合特征样本的局部密度与相对距离的乘积,作为该联合特征样本的综合度量值,将每个联合特征样本按综合度量值从大到小排序;(5-6)根据给定的聚类数k,选取综合度量值最大的前k个联合特征样本作为簇中心,其余联合特征样本按离其最近的簇中心确定簇号,最近的簇中心对应的簇号作为该联合特征样本的簇号,从而得到所有联合特征样本的聚类结果,该聚类结果也是与联合特征样本对应的原始混合属性样本的聚类结果。作为本专利技术所述的一种基于变分自编码器和密度峰值的混合属性数据聚类方法进一步优化方案,所述步骤2中构造标准化数据矩阵,具体如下:(2-1)对原始混合属性数据集中每个原始混合属性样本的分类型属性值进行one-hot编码,编码后将每个分类型属性值转换成一个行向量;(2-2)将原始混合属性数据集中每个原始混合属性样本的数值型属性值归一化,并将其和该原始混合属性样本的各分类型属性值编码后的向量串联起来,转置后构成该原始混合属性样本的标准化向量;(2-3)依次将每一个原始混合属性样本的标准化向量作为矩阵的一列,得到的矩阵即为标准化数据矩阵。作为本专利技术所述的一种基于变分自编码器和密度峰值的混合属性数据聚类方法进一步优化方案,所述步骤3的降维处理具体如下:(3-1)根据标准化数据矩阵,用高斯分布构建高维空间高维样本之间的联合概率分布P,用来表示它们在高维空间的相似度;(3-2)用t分布构建低维空间对应低维样本之间的联合概率分布Q,用来表示它们在低维空间的相似度;(3-3)使用梯度下降法优化P和Q的相对熵,使其达到最小,得到最优困惑度值,从而利用该最优困惑度值计算出每个高维样本的低维表示,进而构造出低维数据矩阵。作为本专利技术所述的一种基于变分自编码器和密度峰值的混合属性数据聚类方法进一步优化方案,所述步骤4中构造联合特征矩阵,包括以下步骤:(4-1)给定编码层参数的初始值,将低维数据矩阵对应的低维样本输入变分自编码器的编码层,计算低维样本对应特征的均值向量和标准差向量;利用模特卡洛模拟法从服从标准正态分布的总体中抽取一个采样值,从而计算出低维样本对应的初始特征;(4-2)将编码层得到的低维样本的初始特征输入变分自编码器解码层,得到对应的初始重构低维样本;利用使最大似然原则不断优化网络权值参数,利用最优网络权值参数计算出变分编码器中低维样本的特征;(4-3)将所有低维样本的特征排成矩阵形式,从而构造出联合特征矩阵。作为本专利技术所述的一种基于变分自编码器和密度峰值的混合属性数据聚类方法进一步优化方案,步骤(5-1)中每个簇的半径指簇内联合特征样本到簇中心的最大距离。作为本专利技术所述的一种基于变分自编码器和密度峰值的混合属性数据聚类方法进一步优化方案,所述步骤(5-3)确定每一个联合特征样本的近邻样本包括以下步骤:(5-3-1)每个联合特征样本所在簇的近邻簇内的所有联合特征样本均为该联合特征样本的近邻样本;(5-3-2)每个联合特征样本所在簇的外围簇内的所有联合本文档来自技高网
...

【技术保护点】
1.一种基于变分自编码器和密度峰值的混合属性数据聚类方法,其特征在于,包括以下步骤:步骤1、读取原始混合属性数据集;步骤2、采用one‑hot编码技术对原始混合属性数据集中每一个原始混合属性样本的分类型属性值进行编码,对原始混合属性数据集中每一个原始混合属性样本的数值型属性值进行归一化,构造标准化数据矩阵;步骤3、采用t‑SNE算法对标准化数据矩阵进行降维处理,得到低维数据矩阵;步骤4、构建并训练变分自编码器,得到每个低维样本的潜在特征,构造联合特征矩阵;步骤5、基于联合特征矩阵,利用改进的密度峰值聚类算法进行聚类,从而得到联合特征矩阵对应的所有联合特征样本的聚类结果,该聚类结果也是与联合特征样本对应的原始混合属性样本的聚类结果;所述步骤5中利用改进的密度峰值聚类算法进行聚类包括以下步骤:(5‑1)给定预聚类的类别数,利用模糊C‑均值聚类算法对联合特征矩阵对应的联合特征样本进行预聚类,得到每个联合特征样本隶属于每个簇的隶属度,按最大隶属度原则,确定每个联合特征样本的簇标号,计算每个联合特征样本到各个簇中心的距离,以及每个簇的半径;(5‑2)根据每个簇的簇中心、簇半径及给定的截断距离,确定每个簇的近邻簇、过渡簇、外围簇,其中,若两个不同簇内的任意两个联合特征样本之间的距离均小于截断距离,则两个簇互为近邻簇;若两个不同簇内的任意两个联合特征样本之间的距离均大于截断距离,则两个簇互为外围簇;既不是近邻簇也不是外围簇的为过渡簇;(5‑3)确定每一个联合特征样本的近邻样本,统计近邻样本的总数即得该联合特征样本的局部密度,然后将联合特征样本按局部密度从大到小排序;(5‑4)计算每个联合特征样本到不低于其局部密度的所有联合特征样本之间的距离,取其最小值作为该联合特征样本的相对距离,其中按局部密度从大到小排序在第一位的联合特征样本的相对距离取其余联合特征样本相对距离的最大值;(5‑5)计算每个联合特征样本的局部密度与相对距离的乘积,作为该联合特征样本的综合度量值,将每个联合特征样本按综合度量值从大到小排序;(5‑6)根据给定的聚类数k,选取综合度量值最大的前k个联合特征样本作为簇中心,其余联合特征样本按离其最近的簇中心确定簇号,最近的簇中心对应的簇号作为该联合特征样本的簇号,从而得到所有联合特征样本的聚类结果,该聚类结果也是与联合特征样本对应的原始混合属性样本的聚类结果。...

【技术特征摘要】
1.一种基于变分自编码器和密度峰值的混合属性数据聚类方法,其特征在于,包括以下步骤:步骤1、读取原始混合属性数据集;步骤2、采用one-hot编码技术对原始混合属性数据集中每一个原始混合属性样本的分类型属性值进行编码,对原始混合属性数据集中每一个原始混合属性样本的数值型属性值进行归一化,构造标准化数据矩阵;步骤3、采用t-SNE算法对标准化数据矩阵进行降维处理,得到低维数据矩阵;步骤4、构建并训练变分自编码器,得到每个低维样本的潜在特征,构造联合特征矩阵;步骤5、基于联合特征矩阵,利用改进的密度峰值聚类算法进行聚类,从而得到联合特征矩阵对应的所有联合特征样本的聚类结果,该聚类结果也是与联合特征样本对应的原始混合属性样本的聚类结果;所述步骤5中利用改进的密度峰值聚类算法进行聚类包括以下步骤:(5-1)给定预聚类的类别数,利用模糊C-均值聚类算法对联合特征矩阵对应的联合特征样本进行预聚类,得到每个联合特征样本隶属于每个簇的隶属度,按最大隶属度原则,确定每个联合特征样本的簇标号,计算每个联合特征样本到各个簇中心的距离,以及每个簇的半径;(5-2)根据每个簇的簇中心、簇半径及给定的截断距离,确定每个簇的近邻簇、过渡簇、外围簇,其中,若两个不同簇内的任意两个联合特征样本之间的距离均小于截断距离,则两个簇互为近邻簇;若两个不同簇内的任意两个联合特征样本之间的距离均大于截断距离,则两个簇互为外围簇;既不是近邻簇也不是外围簇的为过渡簇;(5-3)确定每一个联合特征样本的近邻样本,统计近邻样本的总数即得该联合特征样本的局部密度,然后将联合特征样本按局部密度从大到小排序;(5-4)计算每个联合特征样本到不低于其局部密度的所有联合特征样本之间的距离,取其最小值作为该联合特征样本的相对距离,其中按局部密度从大到小排序在第一位的联合特征样本的相对距离取其余联合特征样本相对距离的最大值;(5-5)计算每个联合特征样本的局部密度与相对距离的乘积,作为该联合特征样本的综合度量值,将每个联合特征样本按综合度量值从大到小排序;(5-6)根据给定的聚类数k,选取综合度量值最大的前k个联合特征样本作为簇中心,其余联合特征样本按离其最近的簇中心确定簇号,最近的簇中心对应的簇号作为该联合特征样本的簇号,从而得到所有联合特征样本的聚类结果,该聚类结果也是与联合特征样本对应的原始混合属性样本的聚类结果。2.根据权利要求1所述的一种基于变分自编码器和密度峰值的混合属性数据聚类方法,其特征在于,所述步骤2中构造标准化数据矩阵,具体如下:(2-1)对原始混合属性数据集中每个原始混合属性样本的分类型属性值进行one-hot编码,编码后将每个分类型属性值转换成一个行向量;(2-2)将原始混合属性数据集中每个原始混合属性样本的数值型属性值归一化,并将其和该原始混合属性样本的各分类型属性值编码后的向量串联起来,转置后构成该原始混合属性样本的标准化向量;(2-3)依次将每一个原始混合属性样本的标准化向量作为矩阵的一列,得到的矩阵即为标准化数据矩阵。3.根据权利要求1所述的一种基于变分自编码器和密...

【专利技术属性】
技术研发人员:段宝彬韩立新勾智楠
申请(专利权)人:河海大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1