一种基于聚类匿名化与差分隐私保护的数据处理方法及系统技术方案

技术编号:21736407 阅读:30 留言:0更新日期:2019-07-31 19:19
本发明专利技术公开了一种基于聚类匿名化与差分隐私保护的数据处理方法及系统,包括:对原始数据集中的数据进行转换和归一化处理;对经过转换和归一化处理的数据集进行聚类处理,以获取具有属性相互独立的多个数据簇;对多个数据簇进行划分,并计算每个等价组的质心值,用质心值代替相应等价组的数据记录的值,以获取匿名化后的多个等价组;根据差分隐私保护的并行组合性质对删除某条数据记录的等价组添加噪声,获取满足差分隐私的查询集;计算相似度,并在所述相似度大于0时,发布该等价组的满足差分隐私保护的数据集。本发明专利技术有效地节省了计算开销和隐私预算,提高了非交互式差分隐私保护高维数据发布查询结果的准确性,确保了发布数据的可用性。

A Data Processing Method and System Based on Clustering Anonymity and Differential Privacy Protection

【技术实现步骤摘要】
一种基于聚类匿名化与差分隐私保护的数据处理方法及系统
本专利技术涉及计量校准领域,并且更具体地,涉及一种基于聚类匿名化与差分隐私保护的数据处理方法及系统。
技术介绍
随着智能电网采集、处理和存储能力的快速提高,个人电力数据的采集也有了巨大的增长。对于收集到的高维电力数据,利用大数据分析和挖掘技术,不仅可以准确分析个人用电情况,还可以为用户提供个性化的用电服务。然而,原始电力数据往往包含有关个人的敏感信息,直接发布电力数据会导致个人隐私泄露。因此,如何在准确分析用户用电数据的同时,保护用户的隐私不被泄露,成为亟待解决的问题。隐私保护数据发布是近年来研究的热点,其目的是在挖掘和分析敏感数据的同时,保护数据集中的个人隐私。传统的隐私保护数据发布模型,如k-匿名、l-多样性、t-近似等模型,它们根据原始数据的特性,将全部数据记录泛化成为若干组记录,不仅使得每一组中的各个记录无法相互区分。差分隐私保护是一种更强健的隐私保护模型,它对隐私泄露风险给出了严格的、定量化的表示和证明,从根本上解决了传统的隐私保护方法无法量化隐私保护程度和缺少对攻击模型的定义等问题。然而,在用电信息采集系统环境下,当输入数据集包含多维和混合类型的属性域时,如果要实现在差分隐私的约束下提供准确的高维数据发布结果,则需要解决两个关键问题:(1)如何减少数据的稀疏性与高维度性;(2)如何降低高敏感度查询中的噪声。因为,在非交互式用电信息采集场景中,使用差分隐私的噪声机制对数据集进行保护时,电力数据的稀疏性与高维度会使噪声机制引入大量的错误。而且电力数据之间具有一定的相关性,数据之间的相关性越高,使用的噪声机制的敏感度越高,高敏感度会导致大量的随机噪声引入到查询结果中,使查询发布数据时无法提供准确的查询结果,导致发布数据失去应有的效用性,直接制约了差分隐私在非交互式隐私保护数据发布中的应用。
技术实现思路
本专利技术提出了一种基于聚类匿名化与差分隐私保护的数据处理方法及系统,以解决如何对数据进行处理,以实现对数据进行隐私保护的目的。为了解决上述问题,根据本专利技术的一个问题,提供了一种基于聚类匿名化与差分隐私保护的数据处理方法,其特征在于,所述方法包括:根据数据的属性类型对原始数据集中每条数据记录中的数据进行转换和归一化处理,并分别计算任意两条数据记录之间的距离;其中,所述属性类型包括:分类型属性和数值型属性;对经过转换和归一化处理的数据集进行聚类处理,以获取具有属性相互独立的多个数据簇;对所述多个数据簇利用微聚集匿名方法进行划分,以获取多个大小为预设阈值个数的等价组,并计算每个等价组的质心值,用质心值代替相应等价组的数据记录的值,以获取匿名化后的多个等价组;对所述多个等价组中的任意一个等价组,分别计算删除该等价组中的任意一条数据记录后,获取查询函数询问该等价组的敏感度,根据差分隐私保护的并行组合性质对删除该条数据记录的该等价组添加噪声,并利用所述敏感度和当前的隐私预算参数获取删除该条数据记录并添加噪声后的该等价组的满足差分隐私的查询集;对所述多个等价组中的任意一个等价组,利用分别删除任意一条数据并添加噪声后的该等价组的满足差分隐私的查询集和该等价组的真实的查询集计算相似度,并在所述相似度大于0时,发布该等价组的满足差分隐私保护的数据集。优选地,其中所述根据数据的属性类型对原始数据集中每条数据记录中的数据进行转换和归一化处理,并分别计算任意两条数据记录之间的距离,包括:将分类型属性的数据转换为数值型属性的数据,并分别计算任意两条数据记录中的分类型属性的距离:对数值型属性的数据进行归一化处理,并分别计算任意两条数据记录中的数值型属性的距离;分别将任意两条数据记录对应的分类型属性的距离和数值型属性的距离求和,以获取该两条数据记录之间的距离。优选地,其中所述对经过转换和归一化处理的数据集进行聚类处理,以获取具有属性相互独立的多个数据簇,包括:标记经过转换和归一化处理的数据集内的所有数据点为未访问;对所述经过转换和归一化处理的数据集中的任意一条记录的任意一个数据点,分别计算该数据点与所述数据集中其他数据点的欧式距离;根据所述每个数据点的欧式距离确定该数据点的K最近邻集合,并根据任意两个数据点的K最近邻集合确定所述任意两个数据点的共享最近邻集合;计算所述任意两个数据点的共享最近邻相似度;计算每个数据点的共享最近邻密度,并将共享最近邻密度大于等于预设的共享最近邻密度阈值的数据点确定为核心点;计算非核心点与各个聚类的质心的欧式聚距离,并除去不在核心点的邻域半径内的噪声点;将非核心点分配到与其最近的核心点所在的聚类中,以获取多个数据簇。优选地,其中所述方法还包括:设置邻域半径,判断其他未确定为核心点的数据点是否满足预设的核心点判断策略,若是,则将该未确定为核心点的数据点确定为核心点;反之,则为非核心点;其中,所述预设的核心点判断策略,包括:若核心点xj与为未确定为核心点的yj为直接密度可达,即满足Similarity(xi,xj)≥Eps,则确定yj为核心点;或若核心点xj,yj为直接密度可达,且yj与Zj直接密度可达,则确定xj与Zj密度可达,则确定Zj为核心点;其中,Eps为预设的核心点xj的邻域半径;Similarity(xi,xj)为数据点xj和yj的共享最近邻相似度;zj∈D。优选地,其中对所述多个数据簇利用微聚集匿名方法进行划分,以获取多个大小为预设阈值个数的等价组,并计算每个等价组的质心值,用质心值代替相应等价组的数据点的值,以获取匿名化后的多个等价组,包括:步骤1,计算所述多个数据簇中每个数据簇的质心值;步骤2,计算每个数据点与其对应的数据簇的质心的距离;步骤3,根据每个数据点与其对应的数据簇的质心的距离,确定离该簇的质心最远的第一数据点;步骤4,以所述第一数据点为中心,将与所述第一数据点最近的第一预设阈值个数的数据点划为一个等价类;步骤5,确定离所述第一数据点的距离最远的第二数据点,并以所述第二数据点为中心,将与所述第二数据点最近的第一预设阈值个数的数据点划分为一个等价类;步骤6,将剩余的数据点的数量和第一预设阈值和第二预设阈值进行比较,包括:若剩余的数据点的数量大于等于第一预设阈值个数并且小于第二预设个数阈值,则将剩余的数据点划分为一个等价类;若剩余的数据点的数量大于等于第二预设个数阈值,则返回步骤3;若剩余的数据点的数量小于第一预设阈值个数,则将所述剩余的数据点划分到最近的等价类中;步骤7,计算每个等价组的质心值,用质心值代替相应等价组的数据点的值,以获取匿名化后的多个等价组;其中,实现数据匿名化后,即一条元数据记录隐藏于一个等价组中。优选地,其中利用如下方式获取删除某个等价组中的某条数据记录后,查询函数询问该等价组的敏感度:其中,为查询函数询问等价组Di的敏感度;j为第j条数据记录;为等价组Di与删除等价组Di的第j条数据后产生的数据集后的等价组。所述获取删除该条数据记录并添加噪声后的该等价组的满足差分隐私的查询集,包括:其中,为删除该条数据记录并添加噪声后的该等价组Di的满足差分隐私的查询集;f(Di)为等价组Di的满足差分隐私的查询集;k为第一预设阈值;ε为隐私预算参数。优选地,其中所述对所述多个等价组中的任意一个等价组,利用分别删除本文档来自技高网
...

【技术保护点】
1.一种基于聚类匿名化与差分隐私保护的数据处理方法,其特征在于,所述方法包括:根据数据的属性类型对原始数据集中每条数据记录中的数据进行转换和归一化处理,并分别计算任意两条数据记录之间的距离;其中,所述属性类型包括:分类型属性和数值型属性;对经过转换和归一化处理的数据集进行聚类处理,以获取具有属性相互独立的多个数据簇;对所述多个数据簇利用微聚集匿名方法进行划分,以获取多个大小为预设阈值个数的等价组,并计算每个等价组的质心值,用质心值代替相应等价组的数据记录的值,以获取匿名化后的多个等价组;对所述多个等价组中的任意一个等价组,分别计算删除该等价组中的任意一条数据记录后,获取查询函数询问该等价组的敏感度,根据差分隐私保护的并行组合性质对删除该条数据记录的该等价组添加噪声,并利用所述敏感度和当前的隐私预算参数获取删除该条数据记录并添加噪声后的该等价组的满足差分隐私的查询集;对所述多个等价组中的任意一个等价组,利用分别删除任意一条数据并添加噪声后的该等价组的满足差分隐私的查询集和该等价组的真实的查询集计算相似度,并在所述相似度大于0时,发布该等价组的满足差分隐私保护的数据集。

【技术特征摘要】
1.一种基于聚类匿名化与差分隐私保护的数据处理方法,其特征在于,所述方法包括:根据数据的属性类型对原始数据集中每条数据记录中的数据进行转换和归一化处理,并分别计算任意两条数据记录之间的距离;其中,所述属性类型包括:分类型属性和数值型属性;对经过转换和归一化处理的数据集进行聚类处理,以获取具有属性相互独立的多个数据簇;对所述多个数据簇利用微聚集匿名方法进行划分,以获取多个大小为预设阈值个数的等价组,并计算每个等价组的质心值,用质心值代替相应等价组的数据记录的值,以获取匿名化后的多个等价组;对所述多个等价组中的任意一个等价组,分别计算删除该等价组中的任意一条数据记录后,获取查询函数询问该等价组的敏感度,根据差分隐私保护的并行组合性质对删除该条数据记录的该等价组添加噪声,并利用所述敏感度和当前的隐私预算参数获取删除该条数据记录并添加噪声后的该等价组的满足差分隐私的查询集;对所述多个等价组中的任意一个等价组,利用分别删除任意一条数据并添加噪声后的该等价组的满足差分隐私的查询集和该等价组的真实的查询集计算相似度,并在所述相似度大于0时,发布该等价组的满足差分隐私保护的数据集。2.根据权利要求1所述的方法,其特征在于,所述根据数据的属性类型对原始数据集中每条数据记录中的数据进行转换和归一化处理,并分别计算任意两条数据记录之间的距离,包括:将分类型属性的数据转换为数值型属性的数据,并分别计算任意两条数据记录中的分类型属性的距离:对数值型属性的数据进行归一化处理,并分别计算任意两条数据记录中的数值型属性的距离;分别将任意两条数据记录对应的分类型属性的距离和数值型属性的距离求和,以获取该两条数据记录之间的距离。3.根据权利要求1所述的方法,其特征在于,所述对经过转换和归一化处理的数据集进行聚类处理,以获取具有属性相互独立的多个数据簇,包括:标记经过转换和归一化处理的数据集内的所有数据点为未访问;对所述经过转换和归一化处理的数据集中的任意一条记录的任意一个数据点,分别计算该数据点与所述数据集中其他数据点的欧式距离;根据所述每个数据点的欧式距离确定该数据点的K最近邻集合,并根据任意两个数据点的K最近邻集合确定所述任意两个数据点的共享最近邻集合;计算所述任意两个数据点的共享最近邻相似度;计算每个数据点的共享最近邻密度,并将共享最近邻密度大于等于预设的共享最近邻密度阈值的数据点确定为核心点;计算非核心点与各个聚类的质心的欧式聚距离,并除去不在核心点的邻域半径内的噪声点;将非核心点分配到与其最近的核心点所在的聚类中,以获取多个数据簇。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:设置邻域半径,判断其他未确定为核心点的数据点是否满足预设的核心点判断策略,若是,则将该未确定为核心点的数据点确定为核心点;反之,则为非核心点;其中,所述预设的核心点判断策略,包括:若核心点xj与为未确定为核心点的yj为直接密度可达,即满足Similarity(xi,xj)≥Eps,则确定yj为核心点;或若核心点xj,yj为直接密度可达,且yj与zj直接密度可达,则确定xj与Zj密度可达,则确定Zj为核心点;其中,Eps为预设的核心点xj的邻域半径;Similarity(xi,xj)为数据点xj和yj的共享最近邻相似度;zj∈D。5.根据权利要求1所述的方法,其特征在于,对所述多个数据簇利用微聚集匿名方法进行划分,以获取多个大小为预设阈值个数的等价组,并计算每个等价组的质心值,用质心值代替相应等价组的数据点的值,以获取匿名化后的多个等价组,包括:步骤1,计算所述多个数据簇中每个数据簇的质心值;步骤2,计算每个数据点与其对应的数据簇的质心的距离;步骤3,根据每个数据点与其对应的数据簇的质心的距离,确定离该簇的质心最远的第一数据点;步骤4,以所述第一数据点为中心,将与所述第一数据点最近的第一预设阈值个数的数据点划为一个等价类;步骤5,确定离所述第一数据点的距离最远的第二数据点,并以所述第二数据点为中心,将与所述第二数据点最近的第一预设阈值个数的数据点划分为一个等价类;步骤6,将剩余的数据点的数量和第一预设阈值和第二预设阈值进行比较,包括:若剩余的数据点的数量大于等于第一预设阈值个数并且小于第二预设个数阈值,则将剩余的数据点划分为一个等价类;若剩余的数据点的数量大于等于第二预设个数阈值,则返回步骤3;若剩余的数据点的数量小于第一预设阈值个数,则将所述剩余的数据点划分到最近的等价类中;步骤7,计算每个等价组的质心值,用质心值代替相应等价组的数据点的值,以获取匿名化后的多个等价组;其中,实现数据匿名化后,即一条元数据记录隐藏于一个等价组中。6.根据权利要求1所述的方法,其特征在于,利用如下方式获取删除某个等价组中的某条数据记录后,查询函数询问该等价组的敏感度:其中,为查询函数询问等价组Di的敏感度;j为第j条数据记录;为等价组Di与删除等价组Di的第j条数据后产生的数据集后的等价组。所述获取删除该条数据记录并添加噪声后的该等价组的满足差分隐私的查询集,包括:其中,为删除该条数据记录并添加噪声后的该等价组Di的满足差分隐私的查询集;f(Di)为等价组Di的满足差分隐私的查询集;k为第一预设阈值;ε为隐私预算参数。7.根据权利要求6所述的方法,其特征在于,所述对所述多个等价组中的任意一个等价组,利用分别删除任意一条数据并添加噪声后的该等价组的满足差分隐私的查询集和该等价组的真实的查询集计算相似度,包括:其中,Sim(θ)为相似度;为等价组Di在删除第n条数据记录并添加噪声后获取的该等价组的满足差分隐私的查询集;f(Din)为等价组Di真是的查询集。8.根据权利要求1所述的方法,其特征在于,所述方法还包括:若所述相似度小于等于0,则调整所述隐私预算参数,并返回获取删除该条数据记录并添加噪声后的该等价组的满足差分隐私的查询集的步骤。9.一种基于聚类匿名化与差分隐私保护的数据处理系统,其特征在于,所述系统包括:数据处理单元,用于根据数据的属性类型对原始数据集中每条数据记录中的数据进行转换和归一...

【专利技术属性】
技术研发人员:许斌梁晓兵翟峰刘鹰吕英杰岑炜付义伦李保丰曹永峰张庚孔令达徐萌冯云王楠袁泉冯占成杨全萍任博周琪卢艳韩文博李丽丽王新刚
申请(专利权)人:中国电力科学研究院有限公司国家电网有限公司国网上海市电力公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1