一种基于本地差分隐私的K-prototypes聚类数据隐私保护方法技术

技术编号:32161801 阅读:31 留言:0更新日期:2022-02-08 15:14
本发明专利技术提供了一种基于本地差分隐私的K

【技术实现步骤摘要】
一种基于本地差分隐私的K

prototypes聚类数据隐私保护方法


[0001]本专利技术属于计算机科学与
,特别涉及一种基于本地差分隐私的K

prototypes聚类数据隐私保护方法。

技术介绍

[0002]聚类是一种常用的数据分析方法,它按照某种特定标准将数据集分割为不同的簇,使得同一个簇中数据相似性较高。K

means是聚类中的经典算法,其实现简单且聚类高效,但它只适用于处理数值型数据集,对分类型数据的聚类通常使用K

modes算法。实际应用中大部分数据都既包含数值型数据又包含分类型数据,对此通常使用结合K

means和K

modes两种算法的K

prototypes算法。目前,聚类分析在数据挖掘、服务推荐等多个领域发挥着重要的作用。例如通过对客户数据的聚类分析,将客户分为不同的类型,从而针对性的提供服务。然而聚类数据中通常包含大量的个人敏感信息,攻击者可以从位置信息中推测用户的家庭住址或工作地本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于本地差分隐私的K

prototypes聚类数据隐私保护方法,其特征在于,包括以下步骤:步骤1:用户在本地端对数据进行扰动;步骤1.1:利用本地差分隐私技术对用户数据进行扰动,生成扰动数据;步骤1.2:用户将步骤1.1生成的扰动数据发送给服务端,进入步骤2;所述本地端是用户控制下的终端,它存储着用户的数据,这些数据需要传输给服务端来进行聚类;所述服务端是提供聚类分析服务的平台,用于对收集到的用户数据进行聚类分析;所述用户数据的类型为维混合型数据,既包含分类型数据又包含数值型数据。服务端采用K

prototypes方法对混合型数据进行聚类,将其划分为个簇:步骤2:服务端利用基于步骤1.1生成的扰动数据,通过与用户端的交互迭代来进行聚类;步骤2.1:服务端接收步骤1.2中用户发送过来的扰动数据,然后依据属性集随机生成个维属性元组作为初始质心发送给用户;步骤2.2:用户在接收到步骤2.1服务端发送的初始质心后,计算自身真实数据与个初始质心间的距离,然后判断自身数据属于个簇中的哪个簇,最后用户将得到的簇信息发送给服务端:步骤2.3:服务端在接收到步骤2.2用户发送的簇信息后,根据簇信息将扰动数据划分为个簇,然后分别计算每个簇中分类属性对应的各个属性值频率和数值属性的均值。服务端在完成频率和均值计算后,对于分类属性选取频率最高的属性值,对于数值属性则直接采用计算出的均值,以它们的集合作为每个簇的质心,最终得到新的质心集。之后服务端将得到的质心集与上次迭代产生的质心集进行对比,若两者相同则结束迭代,完成聚类。如果两者不同,则将质心集发送给用户,循环执行步骤2.2和步骤2.3。2.根据权利要求1所述的基于本地差分隐私的K

prototypes聚类数据隐私保护方法,其特征在于,所述步骤1.1中,用户在本地端采用随机采样技术对自身拥有的混合型数据进行采样,获得采样值。然后,如果是分类型数据,用户采用高精度的最优一元编码算法(Optimized Unary Encoding,OUE)对进行扰动。该算法在扰动数据前需要先对其进行编码,以为例,假设它对应的属性为“民族”,则属性域大小为56,用一个长度为56的比特向量来表示该属性域。每个民族对应中一个比特位,假设为汉族,而汉族对应第个比特位,故将第个比特位设为1,得到比特向量。对中的属性值按照上述过程进行编码,以表示属性值对应的比特位,以表示的取值范围,编码过程如下:编码完成后得到比特向量,然后采用OUE算法对进行扰动。的扰动过程如下:其中,,扰动完成后得到。如果是数值型数据,用户采用高精度的Harmony

Mean(HM)算法对其进行扰动。该算法在扰动前将归一化到[

1...

【专利技术属性】
技术研发人员:张少波原刘杰朱更明
申请(专利权)人:湖南科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1