一种基于数据安全的混合聚类方法技术

技术编号:16129625 阅读:50 留言:0更新日期:2017-09-01 21:15
本发明专利技术适用于数据挖掘技术领域,提供了一种基于数据安全的混合聚类方法,该方法包括如下步骤:采用结合线性变换的旋转扰动方法对初始矩阵进行扰动;利用密度峰聚类算法构造初始质心解空间;利用万有引力搜索算法迭代完成数据点的聚类。本发明专利技术实施例采用结合线性变换的旋转扰动方法对初始矩阵进行扰动,保证聚类的相似性度量函数不变,同时对原始数据进行了数据隐私处理,之后利用密度峰聚类算法根据各数据点密度特性选取质心的方法构造初始质心解空间,最后使用万有引力搜索方法将扰动后的数据依据相似性度量函数进行聚类,直至所有数据对象完成聚类,且测评聚类质量的总均方量化误差最小,从而实现数据的最优聚类,保证数据效用且隐藏数据隐私。

【技术实现步骤摘要】
一种基于数据安全的混合聚类方法
本专利技术属于数据安全、隐私保护及数据挖掘
,尤其涉及一种基于数据安全的混合聚类方法。
技术介绍
基于互联网的迅速发展,复杂网络已经成为人类社会中社会关系维系和信息传播的重要渠道和载体,在用户数量日益壮大的同时,数据量也以指数型暴涨,此时,数据挖掘技术发挥出不可替代的作用,通过对基于互联网的服务过程产生的数据进行挖掘研究,对分析复杂网络数据的拓扑结构、理解网络功能、发现数据中隐藏的规律、挖掘其中隐含的关联信息等方面有着十分重要的理论意义。基于数据挖掘在海量数据中提取隐藏信息的强大能力,挖掘数据过程中产生的安全问题越来越受到社会各界的关注,比如通过关联规则分析可以从公开的属性结构信息获取一些隐藏信息从而实现商业化目的,通过数据库分析技术可以从海量数据中提取未知模式。由于以互联网为载体的服务具有特定的属性结构信息,并且其参与主体比较特殊,所以在数据共享和数据挖掘过程带来最直接也最主要的问题就是个人隐私泄漏问题。现存许多数据保护方法无法兼顾数据效用以及隐私保护度的平衡,通常以牺牲隐私保护度来提高数据效用,造成数据隐私保护度低。专利技术内容本专利技术实施本文档来自技高网...
一种基于数据安全的混合聚类方法

【技术保护点】
一种基于数据安全的混合聚类方法,其特征在于,所述方法包括如下步骤:S1、采用结合线性变换的旋转扰动方法对初始矩阵进行扰动;S2、利用密度峰聚类算法构造初始质心解空间;S3、利用万有引力搜索算法迭代完成数据点的聚类。

【技术特征摘要】
1.一种基于数据安全的混合聚类方法,其特征在于,所述方法包括如下步骤:S1、采用结合线性变换的旋转扰动方法对初始矩阵进行扰动;S2、利用密度峰聚类算法构造初始质心解空间;S3、利用万有引力搜索算法迭代完成数据点的聚类。2.如权利要求1所述的基于数据安全的混合聚类方法,其特征在于,所述步骤S1具体包括如下步骤:S11、对初始数据矩阵Dm×n进行归一化,且随机生成扰动参数k;S12、基于所述扰动参数k和参数t对归一化后的初始矩阵进行线性变换,参数其中,rij为归一化后初始矩阵中第i行第j列的矩阵元素;S13、对线性变换后的矩阵进行旋转扰动,其旋转角度S14、根据公式(1)对旋转扰动后的矩阵元素进行预处理,获取扰动数据,所述公式(1)表示如下:scaledij=oldValueij-minValue.j/maxValue.j-minValue.j(1)其中i=1,2,...,m;j=1,2,...,n,oldValueij为旋转扰动后矩阵中的第i行第j列的矩阵元素,minValue.j为旋转扰动后矩阵中第j列的最小值,maxValue.j为旋转扰动后矩阵中第j列的最大值,scaledij为重新生成的矩阵元素。3.如权利要求1所述的基于数据安全的混合聚类方法,其特征在于,所述步骤S2具体包括如下步骤:S21、选取截断距离的参数p;S22、通过相似度量函数计算距离矩阵S,将距离矩阵S中的距离值按升序排列,将距离值按升序排列后的矩阵记为S1;S23、依次...

【专利技术属性】
技术研发人员:孙丽萍陶涛郭良敏陈付龙罗永龙
申请(专利权)人:安徽师范大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1