一种基于四叉树自适应划分技术的二维空间数据差分隐私发布方法技术

技术编号:26845863 阅读:22 留言:0更新日期:2020-12-25 13:08
本发明专利技术涉及一种基于四叉树自适应划分技术的二维空间数据差分隐私发布方法,与现有技术相比解决了难以高效划分复杂分布数据空间、数据可用性差的缺陷。本发明专利技术包括以下步骤:二维空间数据的获取;网格区域的划分;自适应网格区域的划分处理;对四叉树进行后置处理;差分隐私二维空间数据的发布。本发明专利技术能够有效的划分各种复杂分布形式的二维空间数据集,降低数据的长范围查询误差,实现二维空间数据的差分隐私有效发布。

【技术实现步骤摘要】
一种基于四叉树自适应划分技术的二维空间数据差分隐私发布方法
本专利技术涉及数据隐私发布
,具体来说是一种基于四叉树自适应划分技术的二维空间数据差分隐私发布方法。
技术介绍
近年来,移动社交网络、车联网等许多实际热门应用产生了大量二维空间数据,使得二维空间数据及其统计数据的采集和使用越来越便捷。随着信息技术的发展,需要将大量的用户数据进行发布,为数据挖掘、分析处理等工作提供支持,然而这些数据的直接发布会给个人隐私造成威胁,用户的隐私保护问题亟需得到保护。针对这一问题,传统基于K匿名的隐私保护技术需要对攻击者的能力和背景知识进行假设估计,在实际应用中存在一定局限性。目前,差分隐私技术作为一种新出现的隐私保护框架,通过对发布数据进行随机扰动,能够为防止攻击者在任意背景知识下的攻击提供有力保护,在数据安全发布领域得到了广泛应用。然而二维空间大数据尤为庞大,实际生活中的大数据随着区域不同,其分布变化多样,与差分隐私模型相结合后长范围查询误差累积问题严重,所带来的噪音误差造成了数据的可用性降低,因此,在二维空间数据发布时如何平衡数据的隐私安全和数据的可用性,是当前隐私保护技术的一个主要目的。对于二维空间统计数据的发布,通常需要将数据集进行划分,其中常用的有基于网格结构和树结构的划分方法。在网格划分方法中,均匀网格划分算法(见文献QardajiW,YangW,LiN.DifferentiallyPrivateGridsforGeospatialData[C]//2013IEEE29thInternationalConferenceonDataEngineering(ICDE).IEEE,2013:757-758)对二维空间数据均匀的划分为等宽的单元格,为每个单元格计数添加拉普拉斯噪音,没有考虑到数据分布的不均匀性;自适应划分策略(见文献QardajiW,YangW,LiN.DifferentiallyPrivateGridsforGeospatialData[C]//2013IEEE29thInternationalConferenceonDataEngineering(ICDE).IEEE,2013:757-758)先以α·ε(0<α<1)的隐私预算使用均匀网格进行粗粒度划分,再根据网格的密度以(1-α)·ε的隐私预算进行第二次自适应网格划分,其考虑到数据分布的密度,但是没有给出启发式规则来区分数据稠密和稀疏的边界。树结构划分中分为数据依赖的划分方法和数据独立的划分方法,数据依赖的划分方法中常用的kd树划分(见文献CormodeG,ProcopiucM,ShenE,etal.DifferentiallyPrivateSpatialDecompositions[C]//2012IEEE28thInternationalConferenceonDataEngineering.IEEE,2012.CormodeG,ProcopiucM,ShenE,etal.DifferentiallyPrivateSpatialDecompositions[C]//2012IEEE28thInternationalConferenceonDataEngineering(ICDE).IEEE,2012:20-31)根据数据空间的中值数确定划分线,但在此过程中容易披露中值数的真实值,需要耗费一部分差分隐私预算;数据独立的划分方法中多采用完全四分树结构(见文献CormodeG,ProcopiucM,ShenE,etal.DifferentiallyPrivateSpatialDecompositions[C]//2012IEEE28thInternationalConferenceonDataEngineering.IEEE,2012.CormodeG,ProcopiucM,ShenE,etal.DifferentiallyPrivateSpatialDecompositions[C]//2012IEEE28thInternationalConferenceonDataEngineering(ICDE).IEEE,2012:20-31)对数据空间自顶向下划分,其需要事先定义树的高度且均匀假设误差较高。晏燕等人(见文献晏燕,郝晓弘.差分隐私密度自适应网格划分发布方法[J].山东大学学报(理学版),2018,53(09):12-22.)提出的ADG方法,对二维空间数据进行两层密度自适应网格划分的方法,其对于非均匀分布的数据集较为适用,在处理分布较为均匀数据集时效率较差。吴英杰等人(见文献吴英杰,卢清,蔡剑平,王晓东.基于四分树的差分隐私二维数据划分发布算法[J].华中科技大学学报(自然科学版),2016,44(03):99-104.)提出的Quad-heu方法首先对二维空间进行h层完全四叉树划分,然后根据事先设定的均匀性判定条件对划分结果进行自底向上的调整合并,从而降低均匀假设误差提高查询精度,但是在不同的密度区域和不同的隐私预算下,固定的均匀性判定条件无法自适应的准确判断四分树节点是否分布均匀。综上所述,现有的二维空间发布方法基本可以对二维空间数据进行安全发布,但是仍然一些缺点:首先空间大数据分布情况复杂,现有的大多数算法难以自适应划分多种分布情况的数据;其次,空间大数据的长范围误差累计问题较为严重,数据可用性上仍有很大的提升空间。因此,需要更加深入地研究自适应的划分方法和后置处理方法,使其能够适用于不同分布情况的数据,在数据安全发布的前提下,降低长范围查询的误差,提升数据的可用性。
技术实现思路
本专利技术的目的是为了解决现有技术中难以划分多种分布情况、数据可用性差的缺陷,提供一种基于四叉树自适应划分技术的二维空间数据差分隐私发布方法来解决上述问题。为了实现上述目的,本专利技术的技术方案如下:一种基于四叉树自适应划分技术的二维空间数据差分隐私发布方法,包括以下步骤:二维空间数据的获取,获取待进行隐私发布的二维空间数据;网格区域的划分:对二维空间数据进行聚类,将二维空间数据根据密度聚类形成自适应网格,将数据空间划分为不同密度的区域;自适应网格区域的划分处理:对自适应网格区域中数据分布最为稀疏的区域计数根据隐私预算直接添加噪音;对剩余密度区域作为密集区域采用四叉树分割数据空间,将粗粒度区域进一步划分为均匀细粒度区块,以降低区域内的均匀假设误差;对四叉树进行后置处理:对于纵向结构,采用重构算法自底向上改进四叉树,有效减小均匀假设误差;对于横向结构,结合抽样排序和贪心算法,将四叉树划分结果分层合并,有效减小长范围区间查询的误差累计;二维空间数据差分隐私的发布:对密集区域添加噪音分配隐私预算:将四叉树与个性化分配隐私预算相结合,根据需求个性化调整相邻两层分配的隐私预算;对四叉树分层添加噪音后融合已添加噪声的稀疏区域后对外发布数据。所述网格区域的划分包括以下步骤:根据待发布的二维数据集合L,创建两个集合:一个只包含所有横坐标位置记为Lx,另一个只包含所有纵坐标位置本文档来自技高网
...

【技术保护点】
1.一种基于四叉树自适应划分技术的二维空间数据差分隐私发布方法,其特征在于,包括以下步骤:/n11)二维空间数据的获取,获取待进行隐私发布的二维空间数据;/n12)网格区域的划分:对二维空间数据进行聚类,将二维空间数据根据密度聚类形成自适应网格,将数据空间划分为不同密度的区域;/n13)自适应网格区域的划分处理:对自适应网格区域中数据分布最为稀疏的区域计数根据隐私预算直接添加噪音;对剩余密度区域作为密集区域采用四叉树分割数据空间,将粗粒度区域进一步划分为均匀细粒度区块,以降低区域内的均匀假设误差;/n14)对四叉树进行后置处理:对于纵向结构,采用重构算法自底向上改进四叉树,有效减小均匀假设误差;对于横向结构,结合抽样排序和贪心算法,将四叉树划分结果分层合并,有效减小长范围区间查询的误差累计;/n15)二维空间数据差分隐私的发布:对密集区域添加噪音分配隐私预算:将四叉树与个性化分配隐私预算相结合,根据需求个性化调整相邻两层分配的隐私预算;对四叉树分层添加噪音后融合已添加噪声的稀疏区域后对外发布数据。/n

【技术特征摘要】
1.一种基于四叉树自适应划分技术的二维空间数据差分隐私发布方法,其特征在于,包括以下步骤:
11)二维空间数据的获取,获取待进行隐私发布的二维空间数据;
12)网格区域的划分:对二维空间数据进行聚类,将二维空间数据根据密度聚类形成自适应网格,将数据空间划分为不同密度的区域;
13)自适应网格区域的划分处理:对自适应网格区域中数据分布最为稀疏的区域计数根据隐私预算直接添加噪音;对剩余密度区域作为密集区域采用四叉树分割数据空间,将粗粒度区域进一步划分为均匀细粒度区块,以降低区域内的均匀假设误差;
14)对四叉树进行后置处理:对于纵向结构,采用重构算法自底向上改进四叉树,有效减小均匀假设误差;对于横向结构,结合抽样排序和贪心算法,将四叉树划分结果分层合并,有效减小长范围区间查询的误差累计;
15)二维空间数据差分隐私的发布:对密集区域添加噪音分配隐私预算:将四叉树与个性化分配隐私预算相结合,根据需求个性化调整相邻两层分配的隐私预算;对四叉树分层添加噪音后融合已添加噪声的稀疏区域后对外发布数据。


2.根据权利要求1所述的一种基于四叉树自适应划分技术的二维空间数据差分隐私发布方法的二维空间数据差分隐私发布方法,其特征在于,所述网格区域的划分包括以下步骤:
21)根据待发布的二维数据集合L,创建两个集合:一个只包含所有横坐标位置记为Lx,另一个只包含所有纵坐标位置记为LY;
22)定义横坐标和纵坐标的区间长度Δx和Δy,分别根据Lx、LY计算区间的密度,对区间进行密度判定,密度相似的临近区间进行聚类,形成横坐标和纵坐标的稠密区间和稀疏区间;
23)根据区间划分结果,对二维数据集合L进行密度自适应网格划分,得到粗粒度区块,得到不同密度的区域。


3.根据权利要求1所述的一种基于四叉树自适应划分技术的二维空间数据差分隐私发布方法的二维空间数据差分隐私发布方法,其特征在于,所述自适应网格区域划分处理包括以下步骤:
31)对于位于稀疏区域的第一层区块,不再划分,直接对其原始计数结果添加隐私预算为ε的Laplace噪声;
32)...

【专利技术属性】
技术研发人员:金媛媛刘胜军谢飞倪志伟卜凡耀陈千朱旭辉周芳倪丽萍
申请(专利权)人:合肥城市云数据中心股份有限公司合肥工业大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1