一种基于互信息相关技术的差分隐私动态数据发布方法技术

技术编号:26845865 阅读:62 留言:0更新日期:2020-12-25 13:08
本发明专利技术涉及一种基于互信息相关技术的差分隐私动态数据发布方法,与现有技术相比解决了噪声积累多、隐私预算分配不当、数据可用性差的缺陷。本发明专利技术包括以下步骤:动态数据流的获取;动态数据流的分割;初始聚类处理;待发布分组的形成;分组数据的发布;差分隐私动态数据的发布。本发明专利技术根据动态数据流的特点,采用分形技术对数据进行聚类处理,并利用互信息相关知识进行聚类成员选择,最后结合差分隐私技术对聚类结果添加隐私保护再发布数据,从而提高动态数据发布的安全性及数据的可用性。

【技术实现步骤摘要】
一种基于互信息相关技术的差分隐私动态数据发布方法
本专利技术涉及动态数据隐私发布
,具体来说是一种基于互信息相关技术的差分隐私动态数据发布方法。
技术介绍
在混合云数据中心中,不仅存在定期收集的静态数据,也会有源源不断的动态数据流进入,常见的交通流数据、在线交易数据、环境监测数据等均属于动态数据,这些数据通常以一种实时、连续不断、非匀速的方式到达,而且通常类型繁杂、数量无法预知。在对这类数据进行统计发布时,一方面可以挖掘其中蕴含的价值,但另一方面也存在隐私信息泄漏的危险,为了对隐私数据进行保护,不少研究者对此进行了研究。为了保护隐私信息的安全性,研究使用泛化、抑制等方法隐藏敏感信息实现对数据的保护,通常采用k-匿名(SWEENEYL.k-anonymity:amodelforprotectingprivacy[J].Inter-nationalJournalonUncertainty,FuzzinessandKnowledge-basedSystems,2002,10(5):557-570)以及在其基础上改进的l-多样性(MACHANAVAJJHALAA,KIFERD,GEHRKEJ,etal.l-diversity:privacybeyondk-anonymity[C]//Procofthe22ndInternationalConferenceonDataEngineering.WashingtonDC:IEEEComputerSociety,2006:24-35)、t-保密性(LiN,LiT,VenkatasubramanianS.t-closeness:Privacybeyondk-anonymityandl-diversity[C]//DataEngineering,2007.ICDE2007.IEEE23rdInternationalConferenceon.IEEE,2007:106-115)等方法进行数据发布隐私保护。但上述隐私保护方法在现实应用中仍然存在不小的局限性,只能针对特定的攻击手段。近年来,为了抵抗背景知识攻击,差分隐私技术应运而生,该技术可保证即使攻击者获取所能得到的最大背景知识,也无法获取用户的隐私信息,因而结合差分隐私技术的数据发布方法逐渐流行起来(屈晶晶,蔡英,夏红科.面向动态数据发布的差分隐私保护研究综述[J].北京信息科技大学学报(自然科学版),2019,34(06):30-36)。目前,由于数据中心中动态数据体量庞大,针对动态数据的数据发布问题需求强烈,但由于和静态数据特征的不同,导致静态数据的差分隐私发布方法无法支撑动态数据发布。同时,由于动态数据流需要快速而准确的进行统计发布,在进行差分隐私数据发布时通常容易出现噪声积累过多、隐私预算分配不当、数据可用性降低等问题,从而导致数据发布结果误差大,隐私容易泄露等后果。
技术实现思路
本专利技术的目的是为了解决现有技术中噪声积累多、隐私预算分配不当、数据可用性差的缺陷,提供一种基于互信息相关技术的差分隐私动态数据发布方法来解决上述问题。为了实现上述目的,本专利技术的技术方案如下:一种基于互信息相关技术的差分隐私动态数据发布方法,包括以下步骤:动态数据流的获取:获取待处理的动态数据流;动态数据流的分割:利用滑动窗口技术对动态数据流进行分割,使数据以静态方式展示在滑动窗口中;初始聚类处理:随机抽取滑动窗口内的数据,对其进行初始聚类,计算初始聚类中每个簇的分形维数;待发布分组的形成:对滑动窗口内的剩余数据进行分形维数聚类,利用互信息计算每个聚类成员的权值,选择符合条件的聚类成员,对每个聚类成员的聚类结果进行按类统计,形成待发布分组;分组数据的发布:对待发布分组的数据进行拉普拉斯加噪,发布加噪后的分组数据;对每个聚类成员的每个簇的统计分组结果进行拉普拉斯加噪,其中ε表示隐私预算,得到每个聚类成员加入噪声干扰的数据:差分隐私动态数据的发布:当某个聚类成员的分组数据的数量达到滑动窗口大小时,滑动窗口向前平移,重复初始聚类处理、待发布分组的形成和分组数据的发布步骤,完成差分隐私动态数据的发布。所述初始聚类处理包括以下步骤:抽取滑动窗口内70%-90%的数据量,对其进行初始聚类:将从第D个数据集XD抽取出的部分数据组成数据集XD',对其进行H次初始聚类,得到H个初始聚类结果,组成聚类结果集λ={λ1,λ2,...,λi,...,λH},λi表示第i次聚类结果;若将初始聚类的簇数设置为k个,则第i次聚类结果λi中每个簇分别记为分别计算每个簇对应的分形维数,其中,第k个簇的分形维数记为其中,计算每个簇的分形维数的公式为:式中,r表示覆盖数据空间所用的盒子边长,r1表示最小边长,r2表示最大边长;q表示阶数,取值可以不同,当q=0时,表示该维数是豪斯道夫维数,当q=1时,表示该维数是信息维数,当q=2时,表示该维数是关联维数;表示盒子所覆盖的数据点数。所述待发布分组的形成包括以下步骤:对滑动窗口内的剩余数据,抽取其中的每一个数据点e,将它加入到每一个初始聚类的簇中,得到其中分别计算加入新的数据点e后组成新的簇的分形维数;计算加入数据点前后的分形影响度Vi,其计算公式如下:式中,表示第i个聚类成员的第k个簇的分形影响度,表示第i个聚类成员的第k个簇的分形维数,表示第i个聚类成员的第k个簇加入数据点e后的分形维数;找到每一个数据点e加入后分形影响度最小的簇,若其对应的分形影响度小于给定阈值δ,则认为数据点e属于该簇,加入该簇中;若数据点e未找到任何符合的簇,则将其判定为离群点;利用互信息计算每个聚类成员的权值;当聚类成员的权值小于给定阈值μ时,舍弃,留下权值大于μ的聚类成员,得到部分聚类成员λ'={λ′1,λ′2,...,λ′i,...,λ'H}。所述利用互信息计算每个聚类成员的权值为:设定计算互信息的公式为:式中,λp和λq表示聚类成员,p,q为整数,且1≤p,q≤H,n表示数据集大小,k表示聚类的簇数,ni表示聚类成员λp中属于第i个簇的数据点的数量,nj表示聚类成员λq中属于第j个簇的数据点的数量,nij表示聚类成员λp中第i个簇和聚类成员λq中第j个簇之间所含有的相同数据点的数量;计算平均互信息的公式为:式中,αi表示第i个聚类成员的平均互信息;计算聚类成员的权值的公式为:式中,ωi满足ωi>0(i=1,2,...,H)且有益效果本专利技术的一种基于互信息相关技术的差分隐私动态数据发布方法,与现有技术相比根据动态数据流的特点,采用分形技术对数据进行聚类处理,并利用互信息相关知识进行聚类成员选择,最后结合差分隐私技术对聚类结果添加隐私保护再发布数据,从而提高动态数据发布的安全性及数据的可用性。本专利技术基于发现交通流数据、在线交易数据、环境监本文档来自技高网
...

【技术保护点】
1.一种基于互信息相关技术的差分隐私动态数据发布方法,其特征在于,包括以下步骤:/n11)动态数据流的获取:获取待处理的动态数据流;/n12)动态数据流的分割:利用滑动窗口技术对动态数据流进行分割,使数据以静态方式展示在滑动窗口中;/n13)初始聚类处理:随机抽取滑动窗口内的数据,对其进行初始聚类,计算初始聚类中每个簇的分形维数;/n14)待发布分组的形成:对滑动窗口内的剩余数据进行分形维数聚类,利用互信息计算每个聚类成员的权值,选择符合条件的聚类成员,对每个聚类成员的聚类结果进行按类统计,形成待发布分组;/n15)分组数据的发布:对待发布分组的数据进行拉普拉斯加噪,发布加噪后的分组数据;/n对每个聚类成员的每个簇的统计分组结果进行拉普拉斯加噪,/n

【技术特征摘要】
1.一种基于互信息相关技术的差分隐私动态数据发布方法,其特征在于,包括以下步骤:
11)动态数据流的获取:获取待处理的动态数据流;
12)动态数据流的分割:利用滑动窗口技术对动态数据流进行分割,使数据以静态方式展示在滑动窗口中;
13)初始聚类处理:随机抽取滑动窗口内的数据,对其进行初始聚类,计算初始聚类中每个簇的分形维数;
14)待发布分组的形成:对滑动窗口内的剩余数据进行分形维数聚类,利用互信息计算每个聚类成员的权值,选择符合条件的聚类成员,对每个聚类成员的聚类结果进行按类统计,形成待发布分组;
15)分组数据的发布:对待发布分组的数据进行拉普拉斯加噪,发布加噪后的分组数据;
对每个聚类成员的每个簇的统计分组结果进行拉普拉斯加噪,

其中ε表示隐私预算,得到每个聚类成员加入噪声干扰的数据:
16)差分隐私动态数据的发布:当某个聚类成员的分组数据的数量达到滑动窗口大小时,滑动窗口向前平移,重复初始聚类处理、待发布分组的形成和分组数据的发布步骤,完成差分隐私动态数据的发布。


2.根据权利要求1所述的一种基于互信息相关技术的差分隐私动态数据发布方法,其特征在于,所述初始聚类处理包括以下步骤:
21)抽取滑动窗口内70%-90%的数据量,对其进行初始聚类:
将从第D个数据集XD抽取出的部分数据组成数据集XD',对其进行H次初始聚类,得到H个初始聚类结果,组成聚类结果集λ={λ1,λ2,...,λi,...,λH},λi表示第i次聚类结果;
22)若将初始聚类的簇数设置为k个,则第i次聚类结果λi中每个簇分别记为分别计算每个簇对应的分形维数,其中,第k个簇的分形维数记为
其中,计算每个簇的分形维数的公式为:



式中,r表示覆盖数据空间所用的盒子边长,r1表示最小边长,r2表示最大边长;q表示阶数,取值可以不同,当q=0时,表示该维数是豪斯道夫维数,当q=1时,表示该维数是信息维数...

【专利技术属性】
技术研发人员:冉家敏刘胜军谢飞倪志伟陈千丁正朱旭辉倪丽萍
申请(专利权)人:合肥城市云数据中心股份有限公司合肥工业大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1