【技术实现步骤摘要】
基于聚类匿名化与差分隐私保护的异构用电数据发布方法
[0001]本专利技术涉及信息技术安全领域,具体涉及一种基于匿名化与差分隐私的异构用电数据发布方法。
技术介绍
[0002]随着智能电网采集、处理和存储能力的快速提高,所采集用电数据的也有了巨大的增长。对于收集到的多种类型的用电数据,利用大数据分析和挖掘技术,不仅可以准确分析个人用电情况,还可以为用户提供个性化的用电服务。然而,原始用电数据往往包含有关个人的敏感信息,直接发布用电数据会导致个人隐私泄露。因此,如何在准确分析用户用电数据的同时,保护用户的隐私不被泄露,成为亟待解决的问题。
[0003]隐私保护数据发布是近年来研究的热点,其目的是在挖掘和分析敏感数据的同时,保护数据集中的个人隐私。传统的隐私保护数据发布模型,如k
‑
匿名、l
‑
多样性、t
‑
近似等模型,它们根据原始数据的特性,将全部数据记录泛化成为若干组记录,不仅使得每一组中的各个记录无法相互区分。差分隐私保护是一种更强健的隐私保护模型,它对隐私泄露 ...
【技术保护点】
【技术特征摘要】
1.一种基于聚类匿名化与差分隐私保护的异构用电数据发布方法,其特征在于,包括以下步骤:根据数据使用者的聚类分析请求,对原始数据集D中的原始用电数据进行聚类处理,得到具有类标签的标签数据集D
*
,标签数据集D
*
包括多个原始数据记录;对标签数据集D
*
中的数值型属性、分类型属性、集值型属性分别进行泛化处理;对泛化处理后的数据进行以下匿名处理:按照预定义的分类树对分类型属性数据进行分组,利用拉普拉斯机制对集值型属性数据添加噪声,利用指数机制对数值型属性数据添加噪声,确保数据满足差分隐私,得到匿名数据集D
′
;通过在匿名数据集D
′
上删除任意一条数据记录并添加噪声后获得满足差分隐私的查询集,计算上述查询集与原始数据集的真实查询集的相似度,当该相似度大于0时,发布满足差分隐私保护的数据集给所述数据使用者。2.如权利要求1所述的方法,其特征在于,采用k
‑
means算法或DBSCAN算法进行聚类处理。3.如权利要求1所述的方法,其特征在于,标签数据集D
*
的原始数据记录中的属性表示为r
*
={A1,...,A
d
,Class},其中A表示属性,Class表示每个原始数据记录r
i
在标签数据集D
*
中的类标签。4.如权利要求1所述的方法,其特征在于,泛化处理的方法为:使用t
‑
接近划分算法对标签数据集D
*
进行层次泛化。5.如权...
【专利技术属性】
技术研发人员:奚建飞,徐欢,雷美炼,张锐,沈博,孙一帆,
申请(专利权)人:中国南方电网有限责任公司中国科学院信息工程研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。