【技术实现步骤摘要】
一种基于互信息相关技术的差分隐私动态数据发布方法
本专利技术涉及动态数据隐私发布
,具体来说是一种基于互信息相关技术的差分隐私动态数据发布方法。
技术介绍
在混合云数据中心中,不仅存在定期收集的静态数据,也会有源源不断的动态数据流进入,常见的交通流数据、在线交易数据、环境监测数据等均属于动态数据,这些数据通常以一种实时、连续不断、非匀速的方式到达,而且通常类型繁杂、数量无法预知。在对这类数据进行统计发布时,一方面可以挖掘其中蕴含的价值,但另一方面也存在隐私信息泄漏的危险,为了对隐私数据进行保护,不少研究者对此进行了研究。为了保护隐私信息的安全性,研究使用泛化、抑制等方法隐藏敏感信息实现对数据的保护,通常采用k-匿名(SWEENEYL.k-anonymity:amodelforprotectingprivacy[J].Inter-nationalJournalonUncertainty,FuzzinessandKnowledge-basedSystems,2002,10(5):557-570)以及在其基础上改进的l-多样性(MACHANAVAJJHALAA,KIFERD,GEHRKEJ,etal.l-diversity:privacybeyondk-anonymity[C]//Procofthe22ndInternationalConferenceonDataEngineering.WashingtonDC:IEEEComputerSociety,2006:24-35)、t-保密性(LiN,LiT,Ven ...
【技术保护点】
1.一种基于互信息相关技术的差分隐私动态数据发布方法,其特征在于,包括以下步骤:/n11)动态数据流的获取:获取待处理的动态数据流;/n12)动态数据流的分割:利用滑动窗口技术对动态数据流进行分割,使数据以静态方式展示在滑动窗口中;/n13)初始聚类处理:随机抽取滑动窗口内的数据,对其进行初始聚类,计算初始聚类中每个簇的分形维数;/n14)待发布分组的形成:对滑动窗口内的剩余数据进行分形维数聚类,利用互信息计算每个聚类成员的权值,选择符合条件的聚类成员,对每个聚类成员的聚类结果进行按类统计,形成待发布分组;/n15)分组数据的发布:对待发布分组的数据进行拉普拉斯加噪,发布加噪后的分组数据;/n对每个聚类成员的每个簇的统计分组结果进行拉普拉斯加噪,/n
【技术特征摘要】
1.一种基于互信息相关技术的差分隐私动态数据发布方法,其特征在于,包括以下步骤:
11)动态数据流的获取:获取待处理的动态数据流;
12)动态数据流的分割:利用滑动窗口技术对动态数据流进行分割,使数据以静态方式展示在滑动窗口中;
13)初始聚类处理:随机抽取滑动窗口内的数据,对其进行初始聚类,计算初始聚类中每个簇的分形维数;
14)待发布分组的形成:对滑动窗口内的剩余数据进行分形维数聚类,利用互信息计算每个聚类成员的权值,选择符合条件的聚类成员,对每个聚类成员的聚类结果进行按类统计,形成待发布分组;
15)分组数据的发布:对待发布分组的数据进行拉普拉斯加噪,发布加噪后的分组数据;
对每个聚类成员的每个簇的统计分组结果进行拉普拉斯加噪,
其中ε表示隐私预算,得到每个聚类成员加入噪声干扰的数据:
16)差分隐私动态数据的发布:当某个聚类成员的分组数据的数量达到滑动窗口大小时,滑动窗口向前平移,重复初始聚类处理、待发布分组的形成和分组数据的发布步骤,完成差分隐私动态数据的发布。
2.根据权利要求1所述的一种基于互信息相关技术的差分隐私动态数据发布方法,其特征在于,所述初始聚类处理包括以下步骤:
21)抽取滑动窗口内70%-90%的数据量,对其进行初始聚类:
将从第D个数据集XD抽取出的部分数据组成数据集XD',对其进行H次初始聚类,得到H个初始聚类结果,组成聚类结果集λ={λ1,λ2,...,λi,...,λH},λi表示第i次聚类结果;
22)若将初始聚类的簇数设置为k个,则第i次聚类结果λi中每个簇分别记为分别计算每个簇对应的分形维数,其中,第k个簇的分形维数记为
其中,计算每个簇的分形维数的公式为:
式中,r表示覆盖数据空间所用的盒子边长,r1表示最小边长,r2表示最大边长;q表示阶数,取值可以不同,当q=0时,表示该维数是豪斯道夫维数,当q=1时,表示该维数是信息维数...
【专利技术属性】
技术研发人员:冉家敏,刘胜军,谢飞,倪志伟,陈千,丁正,朱旭辉,倪丽萍,
申请(专利权)人:合肥城市云数据中心股份有限公司,合肥工业大学,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。