一种差分隐私空间分解方法和系统技术方案

技术编号:20160928 阅读:48 留言:0更新日期:2019-01-19 00:13
本发明专利技术公开了一种差分隐私空间分解方法,包括:获取d维点数据集,根据该d维点数据集生成用于构建β树的完整域Ω、以及该完整域Ω中的点计数cnt,并从包括拉普拉斯噪声的文件中读取所有拉普拉斯噪声数据,利用得到的完整域Ω、以及该完整域Ω中的点计数cnt创建d维点数据集的β树,在创建好的β树的每个叶子节点的点计数中增加拉普拉斯噪声数据中的任意一个乘以噪声系数后得到的乘积,其中对于不同的叶子节点而言,选择使用不同的拉普拉斯噪声数据。本发明专利技术能够解决现有基于普拉斯分布的差分隐私空间分解方法存在的中间节点的隐私容易暴露、区域分解不精确导致噪声代价高、以及难以准确确定空间分解隐私树的深度的技术问题。

【技术实现步骤摘要】
一种差分隐私空间分解方法和系统
本专利技术属于隐私保护
,更具体地,涉及一种差分隐私空间分解方法和系统。
技术介绍
差分隐私作为一种新出现的隐私保护框架,其通过向查询或者分析结果中添加适当噪音,从而达到隐私保护的效果。在差分隐私保护过程中,基于安全考量,需要将整个域递归地分解成子域,以生成分层的隐私树,并向隐私树中的每个节点的点计数添加拉普拉斯噪声,这一过程被称为差分隐私空间分解。然而,现有基于拉普拉斯分布的差分隐私空间分解方法存在一些不可忽略的技术问题:第一,由于拉普拉斯分布对于原点是对称的,在空间分解隐私树中,每一个中间节点的点个数等于其所有子节点的点个数之和,因此当所有子节点的拉普拉斯噪声之和被抵消时,会导致中间节点的隐私被暴露;第二,现有的方法在空间分解隐私树的所有节点上都增加了噪声,从根节点到叶子节点的噪声会使得区域分解不精确,同时也导致了更高的噪声代价;第三,现有方法难以准确确定空间分解隐私树的深度,空间分解隐私树的深度过大会导致添加到隐私树的噪声增加,深度过小则会导致分解的子域数量过小,进而造成查询或者分析结果会不准确。
技术实现思路
针对现有技术的以上缺陷或改进需求,本专利技术提供了一种差分隐私空间分解方法和系统,其目的在于,解决现有基于拉普拉斯分布的差分隐私空间分解方法存在的中间节点的隐私容易暴露、区域分解不精确导致噪声代价高、以及难以准确确定空间分解隐私树的深度的技术问题。为实现上述目的,按照本专利技术的一个方面,提供了一种差分隐私空间分解方法,包括以下步骤:(1)获取d维点数据集,根据该d维点数据集生成用于构建β树的完整域Ω、以及该完整域Ω中的点计数cnt,并从包括拉普拉斯噪声的文件中读取所有拉普拉斯噪声数据;其中d是大于或等于2的自然数;(2)利用步骤(1)中得到的完整域Ω、以及该完整域Ω中的点计数cnt创建d维点数据集的β树;(3)在创建好的β树的每个叶子节点的点计数中增加拉普拉斯噪声数据中的任意一个乘以噪声系数后得到的乘积,其中对于不同的叶子节点而言,选择使用不同的拉普拉斯噪声数据。优选地,步骤(1)具体包括以下子步骤:(1-1)从预设区域中确定多个地理坐标的极值点;(1-2)获取d维点数据集,并从d维点数据集中选择地理坐标位于步骤(1-1)所选择的多个极值点构成的区域以内的d维点,构成新的数据集D,选择的d维点的总数即为点计数cnt;(1-3)根据构成的新的数据集D中地理坐标的极值构建完整域Ω。优选地,步骤(1)具体包括以下子步骤:(1-1)从预设区域中确定多个地理坐标的极值点;(1-2)根据多个地理坐标的极值点构建完整域。优选地,步骤(2)具体包括以下子步骤:(2-1)创建根节点,将该根节点的域的范围设置为完整域Ω的范围,并将根节点标记为已被访问;(2-2)根据创建的根节点创建n个子节点,并将所有n个子节点标记为未被访问,其中n表示β树的扇出数,其为大于或等于2的自然数;(2-3)将该根节点的域平均分配给n个子节点,对每个子节点而言,如果其所分配到的域的大小大于域阈值θ,并且数据集D中落入该子节点的域中的d维点的数量大于点计数阈值,则根据该子节点继续创建其下层的n个子节点,然后对于其下层的n个子节点中的每一个继续上述判断和创建其下层子节点的过程,如果该子节点不满足其所分配到的域的大小大于域阈值θ,或者数据集D中落入该子节点的域中的d维点的数量大于点计数阈值,则将该子节点标记为已被访问,最终生成β树。优选地,步骤(2)具体包括以下子步骤:(2-1)创建根节点,将该根节点的域的范围设置为完整域Ω的范围,并将根节点标记为已被访问;(2-2)根据创建的根节点创建n个子节点,并将所有n个子节点标记为未被访问,其中n表示β树的扇出数,其为大于或等于2的自然数;(2-3)将该根节点的域平均分配给n个子节点,对每个子节点而言,如果其所分配到的域的大小大于域阈值θ,并且数据集D中落入该子节点的域中的d维点的数量与拉普拉斯噪声数据中任意一个拉普拉斯噪声的和大于点计数阈值,则根据该子节点继续创建其下层的n个子节点,然后对于其下层的n个子节点中的每一个继续上述判断和创建其下层子节点的过程;如果该子节点不满足其所分配到的域的大小大于域阈值θ,或者数据集D中落入该子节点的域中的d维点的数量与拉普拉斯噪声数据中任意一个拉普拉斯噪声的和大于点计数阈值,则将该子节点标记为已被访问,最终生成β树。优选地,点计数阈值θ为5到20之间,域阈值等于2-18=0.000003814697266。优选地,噪声系数的计算公式为:(k+n+1)/(k+n),其中k∈[1,n],且k的计算公式为:k=n-i+1,其中i等于该叶子节点所属父节点的序号-1。按照本专利技术的另一方面,提供了一种差分隐私空间分解系统,包括:第一模块,用于获取d维点数据集,根据该d维点数据集生成用于构建β树的完整域Ω、以及该完整域Ω中的点计数cnt,并从包括拉普拉斯噪声的文件中读取所有拉普拉斯噪声数据;其中d是大于或等于2的自然数;第二模块,用于利用第一模块中得到的完整域Ω、以及该完整域Ω中的点计数cnt创建d维点数据集的β树;第三模块,用于在创建好的β树的每个叶子节点的点计数中增加拉普拉斯噪声数据中的任意一个乘以噪声系数后得到的乘积,其中对于不同的叶子节点而言,选择使用不同的拉普拉斯噪声数据。按照本专利技术的又一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,实现上述差分隐私空间分解方法的步骤。总体而言,通过本专利技术所构思的以上技术方案与现有技术相比,能够取得下列有益效果:1、本专利技术在给节点加入拉普拉斯噪声的时候,采用和扇出数β、节点序号有关的噪声系数,去乘以拉普拉斯噪声数据,再将乘积结果添加到节点的点计数中,这时,每个中间节点的各个子节点的噪声之和将不再可能为0,因此中间节点的隐私不会被暴露。2、由于本专利技术仅仅为叶子节点增加不可去除的拉普拉斯噪声,而不会给中间节点添加噪声,因此相对于传统差分隐私空间分解方法而言,本专利技术加入的噪声数量更少,从而降低了总体噪声代价。3、由于本专利技术以子节点被分配的域的大小是否大于域阈值θ、以及子节点中d维点的数量是否大于点计数阈值来确定一个节点是否被分,使得隐私树的构建综合了完整域分解的精细程度、以及添加噪声的数量多个因素,从而获得了一个更平衡的域分解效果。附图说明图1是本专利技术差分隐私空间分解方法的流程图。图2是实现本专利技术差分隐私空间分解系统的计算机的示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。此外,下面所描述的本专利技术各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。如图1所示,根据本专利技术的第一实施方式,提供了一种差分隐私空间分解方法,包括以下步骤:(1)获取d维点数据集(Pointdataset),根据该d维点数据集生成用于构建β树的完整域Ω、以及该完整域Ω中的点计数cnt,并从包括拉普拉斯噪声的文件中读取所有拉普拉斯噪声数据;其中d是大于或等于2的自然数;具体而言,本步骤中获取点数据集,可以是从分布式文件系统(Distri本文档来自技高网...

【技术保护点】
1.一种差分隐私空间分解方法,其特征在于,包括以下步骤:(1)获取d维点数据集,根据该d维点数据集生成用于构建β树的完整域、以及该完整域中的点计数,并从包括拉普拉斯噪声的文件中读取所有拉普拉斯噪声数据;其中d是大于或等于2的自然数;(2)利用步骤(1)中得到的完整域、以及该完整域中的点计数创建d维点数据集的β树;(3)在创建好的β树的每个叶子节点的点计数中增加拉普拉斯噪声数据中的任意一个乘以噪声系数后得到的乘积,其中对于不同的叶子节点而言,选择使用不同的拉普拉斯噪声数据。

【技术特征摘要】
1.一种差分隐私空间分解方法,其特征在于,包括以下步骤:(1)获取d维点数据集,根据该d维点数据集生成用于构建β树的完整域、以及该完整域中的点计数,并从包括拉普拉斯噪声的文件中读取所有拉普拉斯噪声数据;其中d是大于或等于2的自然数;(2)利用步骤(1)中得到的完整域、以及该完整域中的点计数创建d维点数据集的β树;(3)在创建好的β树的每个叶子节点的点计数中增加拉普拉斯噪声数据中的任意一个乘以噪声系数后得到的乘积,其中对于不同的叶子节点而言,选择使用不同的拉普拉斯噪声数据。2.根据权利要求1所述的差分隐私空间分解方法,其特征在于,步骤(1)具体包括以下子步骤:(1-1)从预设区域中确定多个地理坐标的极值点;(1-2)获取d维点数据集,并从d维点数据集中选择地理坐标位于步骤(1-1)所选择的多个极值点构成的区域以内的d维点,构成新的数据集D,选择的d维点的总数即为点计数;(1-3)根据构成的新的数据集D中地理坐标的极值构建完整域。3.根据权利要求1所述的差分隐私空间分解方法,其特征在于,步骤(1)具体包括以下子步骤:(1-1)从预设区域中确定多个地理坐标的极值点。(1-2)根据多个地理坐标的极值点构建完整域。4.根据权利要求1至3中任意一项所述的差分隐私空间分解方法,其特征在于,步骤(2)具体包括以下子步骤:(2-1)创建根节点,将该根节点的域的范围设置为完整域的范围,并将根节点标记为已被访问;(2-2)根据创建的根节点创建n个子节点,并将所有n个子节点标记为未被访问,其中n表示β树的扇出数,其为大于或等于2的自然数;(2-3)将该根节点的域平均分配给n个子节点,对每个子节点而言,如果其所分配到的域的大小大于域阈值θ,并且数据集D中落入该子节点的域中的d维点的数量大于点计数阈值,则根据该子节点继续创建其下层的n个子节点,然后对于其下层的n个子节点中的每一个继续上述判断和创建其下层子节点的过程,如果该子节点不满足其所分配到的域的大小大于域阈值θ,或者数据集D中落入该子节点的域中的d维点的数量大于点计数阈值,则将该子节点标记为已被访问,最终生成β树。5.根据权利要求1至4中任意...

【专利技术属性】
技术研发人员:周可李春花李晓翠汪洋涛
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1