一种差分隐私噪声动态分配的实现方法技术

技术编号:15200288 阅读:185 留言:0更新日期:2017-04-22 01:46
本发明专利技术公开了一种差分隐私噪声动态分配的实现方法,该方法用于解决减少所发布的数据在基于差分隐私保护算法处理过程中产生相对误差的问题,最终实现提高数据的查询精度和有用性。在划分阶段运用AG算法对二维空间数据集进行划分,得到两层划分。在加入噪声阶段,先计算每一层的每个格子的标准差半径,并且计算每个格子在当层所有格子的标准差半径中所占比例,然后按照每个格子所占比例分配当层的总隐私预算。最终,针对每个区域分布情况的不同,动态加入不同的噪声对数据进行扰动,实现减少相对误差,从而有效的提高查询结果的精确度,即提高数据的有用性。

Method for implementing differential privacy noise dynamic allocation

The invention discloses a method for realizing differential privacy dynamic noise distribution, the method is used to solve the reduced data released in the relative error of the generated differential privacy protection algorithm based on process, and ultimately improve the accuracy and usefulness of the data query. The AG algorithm is used to divide the two dimensional spatial data sets in the division phase, and two levels are obtained. In the first stage of adding noise, calculation of each cell at each level of the standard deviation of the radius, and the calculation of each cell in all the lattice, the standard deviation of the proportion when the radius of each grid layer, then according to the proportion of the total budget allocation when the layer of privacy. Finally, for each regional distribution of different dynamic data with different noise disturbance, reduce the relative error, so as to effectively improve the accuracy of query results, which improve the usefulness of the data.

【技术实现步骤摘要】

本专利技术涉及数据挖掘中二维空间数据集发布的隐私保护领域,具体涉及一种基于标准差圆半径的差分隐私噪声动态分配方法。
技术介绍
随着地理位置采集技术在移动设备上的广泛使用,通过收集用户的移动轨迹数据(即空间数据集)实现对用户行为习惯的分析已成为热门研究。为了能够获取有用的用户行为模型,大量的用户个人历史位置信息被收集和分析。但是一个主要的担忧是,用户的位置信息伴随着的大量个人隐私存在被泄露的风险。因而用户在分享位置信息的同时如何保护个人隐私是一个具有挑战性的问题。空间数据集被攻击、推理可能导致个人兴趣爱好、行为模式、社会习惯、健康状况等隐私信息的暴露,通过传统的隐私保护算法包括K-匿名等对隐私数据进行保护,有一定的隐私保护效果,但是这些算法没有严格定义攻击模型,对攻击者所掌握的知识未能作出的定量化定义,往往会遭到一致性攻击和背景知识攻击,使得数据的隐私和有用性得不到有效的保障。差分隐私是一个极为严格的攻击模型,并对隐私泄露风险给出了严谨、定量化的表示和证明。差分隐私保护在大大降低隐私泄露风险的同时,极大地保证了数据的有用性。但是,当前基于差分隐私保护算法的研究主要是通过减少绝对误差,即通过测算全局敏感度,适当的减少对查询结果加入噪声的规模来提高查询结果的精确度。然而,所加入的噪声值的大小和查询结果的规模的大小毫无关联。局部区域添加过多噪声,容易产生较大的相对误差,从而导致整体的查询结果的准确性得不到有效的保证,即数据的有用性大大降低。因而,在基于差分隐私的数据发布隐私保护研究工作中,关于如何减少数据处理过程中产生的相对误差进而提高数据的查询精度和有用性成为了本专利技术要解决的问题。
技术实现思路
本专利技术目的在于针对上述现有技术的不足,提供了一种差分隐私噪声动态分配的实现方法,该方法用于解决减少所发布的数据在基于差分隐私保护算法处理过程中产生相对误差的问题,最终实现提高数据的查询精度和有用性。在划分阶段运用AG算法对二维空间数据集进行划分,得到两层划分。在加入噪声阶段,先计算每一层的每个格子的标准差半径,并且计算每个格子在当层所有格子的标准差半径中所占比例,然后按照每个格子所占比例分配当层的总隐私预算。最终,针对每个区域分布情况的不同,动态加入不同的噪声对数据进行扰动,实现减少相对误差,从而有效的提高查询结果的精确度,即提高数据的有用性。本专利技术解决其技术问题所采取的技术方案是:一种基于标准差圆(StandardDeviationCircle,SDC)半径的差分隐私(DifferentialPrivacy)噪声动态分配算法(SDC-DP算法),包含以下步骤:步骤1:数据集的处理对于给定的空间数据集,本专利技术将其中的每条位置信息记录视为一个二维坐标点,将其映射在矩形二维平面区域内,最终本专利技术划定一个包含这些点的矩形区域作为本专利技术的研究对象。步骤2:引用改进的AG算法先对数据集进行层次划分给定的矩形区域内,本专利技术引用改进的AG算法对其进行自适应网格划分,得到两层划分。在第一层,实行粗粒度划分,形成m1×m1个格子。同时,分配给第一层数据总隐私预算:ε1=ε×α,其中0<α<1,ε是总隐私预算。然后,将第一层各个格子按照格子中的点的个数再次划分为m2×m2个子格子。同时,分配给第二层数据总隐私预算为:ε2=ε-ε1。步骤3:计算每个格子中数据的隐私保护需求在运用AG算法对数据集划分的过程中,求出每个格子中数据的标准差圆半径占当层所有格子的标准差圆半径的比例,并依此表示每个格子中数据的隐私保护需求。步骤4:噪声加入按照上述步骤3得到的比例把当层的总隐私预算分配到每个格子中,根据每个格子所分配得到相应的隐私预算,对每个格子中的数据查询结果加入相应的Laplace噪声,进而得到带噪声的查询结果。步骤5:结果发布将经过处理后、带有噪声的计数查询结果进行发布。进一步地,本专利技术所述步骤3中通过计算获得每个格子中数据的标准差圆半径占当层所有格子的标准差圆半径的比例,并且用这个比例表示每个格子中数据的隐私保护需求。进一步地,本专利技术所述步骤3中的每个格子中的数据的标准差圆半径通过以下公式计算得到:其中,是分布在某一空间数据集点的坐标值的平均数,xi,yi是各个点的横、纵坐标值,n为所在空间的点的数量,r为标准差圆的半径。进一步地,本专利技术所述步骤3中每个格子的隐私保护需求通过计算获取得到每个格子中的数据的标准差圆半径在当层所有格子的标准差半径中所占的比例表示。计算公式如下:其中,ri是第i个区域的标准差圆半径,sumj表示包第i个区域在内的第j层所有区域的标准差圆半径之和。进一步地,本专利技术所述步骤2中应用改进的AG算法进行层次划分,所述的划分粒度计算包括:在第一层,实行粗粒度划分,形成m1×m1个格子,其中m1的取值,文献中采用独立于数据的启发式计算方式求得:其中,N表示整个矩形区域内所有点的个数;ε是总隐私预算;C1是经过实验论证设定为C1=10.分配给第一层数据总隐私预算的部分预算:ε1=ε×α,其中0<α<1。然后,将第一层各个格子按照格子中的点的个数再次划分为m2×m2个子格子,其中,N'是对应的第一层格子查询得到的点的个数;ε2=ε-ε1;C2常量进一步地,本专利技术所述步骤4中,噪声的加入是通过权利4中求得的每个格子的隐私保护需求,加入相应的隐私预算,包括:第一层的某个格子Ri,其标准差圆半径为ri,第一层总隐私预算是ε1,该层所有格子的标准差圆半径之和为sum,则格子Ri被分配到的隐私预算为:根据每个格子所分配得到的隐私预算,对每个格子中的数据查询结果加入相应的Laplace噪声,进而得到带噪声的查询结果:Ni’=Ni+lap(εi)其中,Ni表示某一层中第i个原始的技术查询结果;Ni'表示某一层中第i个带有噪声用于发布的计数查询结果;lap(εi)表示参数为εi的Laplace分布函数的结果。有益效果:1、本专利技术首次提出运用计算数据的标准差圆半径表示其离散程度,进而很好地表示其隐私保护需求力度。2、本专利技术根据数据不同的隐私保护需求,动态分配噪声,有效地减少加入噪声过程中易产生较多的相对误差,很好地提高数据的有用性。附图说明图1为本专利技术的SDC-DP算法中数据数据处理流程图。图2为本引用的AG算法的示意图。具体实施方式下面结合说明书附图对本专利技术创造作进一步的详细说明。如图1所示,本专利技术为了减少所发布的数据在基于差分隐私保护算法处理过程中产生的相对误差,先计算每层格子中数据的标准差圆半径所占比例表示数据的离散程度,最后根据离散程度动态分配相应的隐私预算。实现减少相对误差,进而提高数据的查询精度和有用性。方法流程:本专利技术提供了一种差分隐私噪声动态分配的实现方法,该方法包括如下步骤:步骤1:数据集的处理,包含以下内容:对于给定的空间数据集,本专利技术将其中的每条记录视为一个二维坐标点,将其映射在矩形二维平面区域内,最终本专利技术划定一个包含这些点的矩形区域作为本专利技术的研究对象。步骤2:应用改进的AG算法进行层次划分,包括以下内容:给定的矩形区域内,本专利技术应用改进的AG算法对其进行自适应网格划分,得到两层划分。AG算法采用两层划分,每层有不同粒度的划分。在第一层,实行粗粒度划分,形成m1×m1个格子,其中m1的取值,采用独立于数据的启发本文档来自技高网
...
一种差分隐私噪声动态分配的实现方法

【技术保护点】
一种差分隐私噪声动态分配的实现方法,其特征在于,所述方法包括如下步骤:步骤1:数据集的处理;对于给定的空间数据集,将其中的每条位置信息记录视为一个二维坐标点,将其映射在矩形二维平面区域内,最终划定一个包含这些点的矩形区域作为研究对象;步骤2:引用AG算法先对数据集进行层次划分;在第一层,实行粗粒度划分,形成m1×m1个格子,同时,分配给第一层数据总隐私预算:ε1=ε×α,其中0<α<1,ε是总隐私预算,然后,将第一层各个格子按照格子中的点的个数再次划分为m2×m2个子格子,同时,分配给第二层数据总隐私预算为:ε2=ε‑ε1;步骤3:计算每个格子中数据的隐私保护需求;在运用AG算法对数据集划分的过程中,求出每个格子中数据的标准差圆半径占当层所有格子的标准差圆半径的比例,并依此表示每个格子中数据的隐私保护需求;步骤4:噪声加入;按照上述步骤3得到的比例把当层的总隐私预算分配到每个格子中,根据每个格子所分配得到相应的隐私预算,对每个格子中的数据查询结果加入相应的Laplace噪声,进而得到带噪声的查询结果;步骤5:结果发布;将经过处理后、带有噪声的计数查询结果进行发布。

【技术特征摘要】
1.一种差分隐私噪声动态分配的实现方法,其特征在于,所述方法包括如下步骤:步骤1:数据集的处理;对于给定的空间数据集,将其中的每条位置信息记录视为一个二维坐标点,将其映射在矩形二维平面区域内,最终划定一个包含这些点的矩形区域作为研究对象;步骤2:引用AG算法先对数据集进行层次划分;在第一层,实行粗粒度划分,形成m1×m1个格子,同时,分配给第一层数据总隐私预算:ε1=ε×α,其中0<α<1,ε是总隐私预算,然后,将第一层各个格子按照格子中的点的个数再次划分为m2×m2个子格子,同时,分配给第二层数据总隐私预算为:ε2=ε-ε1;步骤3:计算每个格子中数据的隐私保护需求;在运用AG算法对数据集划分的过程中,求出每个格子中数据的标准差圆半径占当层所有格子的标准差圆半径的比例,并依此表示每个格子中数据的隐私保护需求;步骤4:噪声加入;按照上述步骤3得到的比例把当层的总隐私预算分配到每个格子中,根据每个格子所分配得到相应的隐私预算,对每个格子中的数据查询结果加入相应的Laplace噪声,进而得到带噪声的查询结果;步骤5:结果发布;将经过处理后、带有噪声的计数查询结果进行发布。2.根据权利要求1所述的一种差分隐私噪声动态分配的实现方法,其特征在于,所述步骤2中应用改进的AG算法进行层次划分,所述的划分粒度计算包括:在第一层,实行粗粒度划分,形成m1×m1个格子,其中m1的取值,文献中采用独立于数据的启发式计算方式求得:其中,N表示整个矩形区域内所有点的个数;ε是总隐私预算;C1是经过实验论证设定为C1=10.分配给第一层数据总隐私预算的部分预算:ε1=ε×α,其中0<α<1,然后,将第一层各个格子按照格子中的点的个数再次划分为m2×m2个子格子,其中,N'是对应的第一层格子查询得到的点的个数;ε2=ε-ε1;C2常量3.根据权利要求1所述的一种差分隐私噪声动态分配的实现...

【专利技术属性】
技术研发人员:周国强周洪飞
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1