一种空间数据集的差分隐私的隐私保护方法技术

技术编号:21399718 阅读:18 留言:0更新日期:2019-06-19 07:11
本发明专利技术公开一种空间数据集的差分隐私的隐私保护方法,包括如下过程:将空间数据集映射处理到二维平面坐标系上;将空间数据集在二维平面坐标系上进行网格划分;根据空间数据集的分布特征对其进行按需分配隐私预算;将划分后的网格进行过滤和分桶处理来降低噪声误差;将处理后的网格进行添噪处理;将添噪后的数据集发布。本发明专利技术具有的有益效果:在满足差分隐私的情况下,实现降低噪声误差和提高数据集的可用性,从而提高查询精度。

【技术实现步骤摘要】
一种空间数据集的差分隐私的隐私保护方法
本专利技术属于隐私信息安全
,具体涉及一种空间数据集的差分隐私的隐私保护方法。
技术介绍
随着互联网时代的快速发展,移动设备的多样化,人们对移动设备的依赖程度。我们每天与这些位置感知移动设备进行交互。这些设备包括支持GPS的手机和平板电脑以及具有导航系统等。这些设备都可以向集中式服务器报告大量的用户的位置信息。这种位置信息(通常称为空间数据)可以带来巨大的好处。基于位置服务也是未来互联网行业的重要组成部分,并给我们的生活带来了很多的便捷。例如:通过地理位置信息的共享我们可以随机通过互联网进行叫车、点餐、预定等服务;政府部门通过这些位置信息进行交通枢纽调度预警,可以有效的避免交通阻塞。随着大数据时代的到来,数据的价值已经远远超出了我们的想象。对于许多的企业而言,这些数据就是无价的财富,他们可以根据用户的历史的地理空间数据来进行数据分析和数据挖掘得到用户的行为方式,通过推荐系统来推荐用户感兴趣的话题或者商品来达到自己的商业目的。因此为了能够获取用户的行为模式,这些企业首先要做的就是收集大量的用户历史地理空间信息,进而通过数据分析和挖掘出有价值的信息。然而,用户的地理位置信息通常伴随着大量的个人隐私信息,所以长期以来共享用户的地理位置信息是一个具有挑战性和争议性的问题。地理空间数据集受到攻击、挖掘分析可能导致个人的行为方式、出行方式、生活习惯等隐私信息的暴露,因而对于地理空间数据集的隐私保护一直以来都是一个具有挑战性的问题和研究的热点。差分隐私是2006年Dwork等人首次提出。差分隐私假设的是攻击者拥有除了目标外所有其他信息,可以理解为攻击者拥有最大背景知识,因而可以解决传统保护算法遭受背景知识的攻击问题。同时,它对隐私泄露风险给出了严谨、定量化的表示和证明。比起传统的隐私保护算法有较好的隐私保护效果。因而被运用于很多数据发布的隐私保护算法中。对于现有的方法都没有考虑或者充分的考虑数据集的分布特征,空间数据集划分成网格,每个网格的分布特征往往是不同的,对其进行统一的添加噪声往往会造成较大的噪声误差。并且没有的兼顾网格单元的稀疏性和稠密性。尽管在稀疏性方面上AG做了改进,但是没有考虑用户的查询粒度,这样导致在第二层可能会产生较大的查询误差。
技术实现思路
本专利技术的目的在于克服现有技术中的不足,提供一种空间数据集的差分隐私的隐私保护方法,在满足差分隐私的情况下,实现降低噪声误差和提高数据集的可用性,从而提高查询精度。为解决现有技术问题,本专利技术公开了一种空间数据集的差分隐私的隐私保护方法,包括如下过程:将空间数据集映射处理到二维平面坐标系上;将空间数据集在二维平面坐标系上进行第一层网格划分;根据空间数据集的分布特征对空间数据集按需进行隐私预算的分配;根据分配的隐私预算对第一层网格进行添噪处理;对添噪处理后的网格进行过滤;将经过过滤的网格进行第二层网格划分;对第二层网格划分后的网格进行分桶处理;根据分配的隐私预算对分桶处理后的网格进行添噪处理;将添噪后带有噪声计数的数据集进行发布。进一步地,所述将空间数据集映射处理到二维平面坐标系上的过程为:对于任一给定的空间数据集,将空间数据集中的每条记录的经度和纬度映射到二维坐标系中得到包含所有记录在内的矩形区域。进一步地,所述将空间数据集在二维平面坐标系上进行第一层网格划分的过程为:将所述矩形区域进行第一层划分,第一层的划分粒度为m1×m1,m1的取值为:N为空间数据集的样本个数,ε为总隐私预算,C1为常量。进一步地,所述根据空间数据集的分布特征对空间数据集按需进行隐私预算的分配的过程为:计算出第一层网格中每个网格的标准差圆半径,计算出每个网格在当层网格中的标准差圆半径的占比,根据隐私保护需求力度对其进行隐私预算分配。进一步地,所述计算出第一层网格中每个网格的标准差圆半径的公式为:是某一数据点的横坐标值的均值,是某一数据点的纵坐标值的均值,xi是各个数据点的横坐标值,yi是各个数据点的纵坐标值,n是矩形区域内数据点的数量,r为标准差圆的半径;所述计算出每个网格在当层网格中的标准差圆半径的占比的公式为:ri是第i个网格的标准差圆半径,sumj是包括第i个网格在内的第i层所在区域的标准差圆半径之和;所述根据隐私保护需求力度对其进行隐私预算分配的公式为:εi=ρi×ε;ρi是隐私保护需求力度,ε是总隐私预算,εi是分配得到的隐私预算。进一步地,所述对添噪处理后的网格进行过滤的过程为:对于原始真实计数为0的网格,直接将其噪声值设置为0。进一步地,所述将经过过滤的网格进行第二层网格划分的过程为:将经过过滤的网格进行第二层划分,第二层的粒度为m2×m2;m2的取值为:为第一层第i个网格的噪声计数,εi为其的隐私预算,C2为常量。进一步地,所述对第二层网格划分后的网格进行分桶处理的过程为:根据步长将划分后的m2×m2个网格装入对应的桶中;其中步长为:进一步地,所述添噪处理的过程为:对网格添加噪声,然后返回进行添噪处理后的网格其中所添加的噪声为|bucket|是装入该桶中网格中的数据个数,εi是网格的隐私预算,bucket.size()是桶中网格的个数。进一步地,所述将添噪后带有噪声计数的数据集发布后设置有后置处理,其过程为:假设第一层中的网格划分为m2×m2个网格,噪声计数为则对网格的后置处理公式为:本专利技术具有的有益效果:在满足差分隐私的情况下,实现降低噪声误差和提高数据集的可用性,从而提高查询精度。附图说明图1是本专利技术的方法流程图。具体实施方式下面结合附图对本专利技术作进一步描述。以下实施例仅用于更加清楚地说明本专利技术的技术方案,而不能以此来限制本专利技术的保护范围。如图1所示,一种空间数据集的差分隐私的隐私保护方法,包括如下过程:将空间数据集映射处理到二维平面坐标系上;将空间数据集在二维平面坐标系上进行第一层网格划分;根据空间数据集的分布特征对空间数据集按需进行隐私预算的分配;根据分配的隐私预算对第一层网格进行添噪处理;对添噪处理后的网格进行过滤;将经过过滤的网格进行第二层网格划分;对第二层网格划分后的网格进行分桶处理;根据分配的隐私预算对分桶处理后的网格进行添噪处理;将添噪后带有噪声计数的数据集进行发布;后置处理。进一步地,所述将空间数据集映射处理到二维平面坐标系上的过程为:对于任一给定的空间数据集D,对于每条记录可视为二维坐标系中的一个数据点,因此,将空间数据集中的每条记录的经度和纬度映射到二维坐标系中的横、纵坐标,得到包含所有记录在内的矩形区域。进一步地,所述将空间数据集在二维平面坐标系上进行第一层网格划分的过程为:将所述矩形区域进行第一层划分,第一层的划分粒度为m1×m1,m1的取值为:N为空间数据集的样本个数,ε为总隐私预算,C1为常量,本专利技术中C1取值为进一步地,所述根据空间数据集的分布特征对空间数据集按需进行隐私预算的分配的过程为:计算出第一层网格中每个网格的标准差圆半径,计算出每个网格在当层网格中的标准差圆半径的占比,根据隐私保护需求力度对其进行隐私预算分配。进一步地,所述计算出第一层网格中每个网格的标准差圆半径的公式为:是某一数据点的横坐标值的均值,是某一数据点的纵坐标值的均值,xi是各个数据点的横坐标值,yi是各个数据点的本文档来自技高网
...

【技术保护点】
1.一种空间数据集的差分隐私的隐私保护方法,其特征在于:包括如下过程:将空间数据集映射处理到二维平面坐标系上;将空间数据集在二维平面坐标系上进行第一层网格划分;根据空间数据集的分布特征对空间数据集按需进行隐私预算的分配;根据分配的隐私预算对第一层网格进行添噪处理;对添噪处理后的网格进行过滤;将经过过滤的网格进行第二层网格划分;对第二层网格划分后的网格进行分桶处理;根据分配的隐私预算对分桶处理后的网格进行添噪处理;将添噪后带有噪声计数的数据集进行发布。

【技术特征摘要】
1.一种空间数据集的差分隐私的隐私保护方法,其特征在于:包括如下过程:将空间数据集映射处理到二维平面坐标系上;将空间数据集在二维平面坐标系上进行第一层网格划分;根据空间数据集的分布特征对空间数据集按需进行隐私预算的分配;根据分配的隐私预算对第一层网格进行添噪处理;对添噪处理后的网格进行过滤;将经过过滤的网格进行第二层网格划分;对第二层网格划分后的网格进行分桶处理;根据分配的隐私预算对分桶处理后的网格进行添噪处理;将添噪后带有噪声计数的数据集进行发布。2.根据权利要求1所述的一种空间数据集的差分隐私的隐私保护方法,其特征在于:所述将空间数据集映射处理到二维平面坐标系上的过程为:对于任一给定的空间数据集,将空间数据集中的每条记录的经度和纬度映射到二维坐标系中得到包含所有记录在内的矩形区域。3.根据权利要求1所述的一种空间数据集的差分隐私的隐私保护方法,其特征在于:所述将空间数据集在二维平面坐标系上进行第一层网格划分的过程为:将所述矩形区域进行第一层划分,第一层的划分粒度为m1×m1,m1的取值为:N为空间数据集的样本个数,ε为总隐私预算,C1为常量。4.根据权利要求3所述的一种空间数据集的差分隐私的隐私保护方法,其特征在于:所述根据空间数据集的分布特征对空间数据集按需进行隐私预算的分配的过程为:计算出第一层网格中每个网格的标准差圆半径,计算出每个网格在当层网格中的标准差圆半径的占比,根据隐私保护需求力度对其进行隐私预算分配。5.根据权利要求4所述的一种空间数据集的差分隐私的隐私保护方法,其特征在于:所述计算出第一层网格中每个网格的标准差圆半径的公式为:是某一数据点的横坐标值的均值,是某一数据点的纵坐标值的均值,xi是各个数据点的横坐标值,yi是各...

【专利技术属性】
技术研发人员:周国强秦水王云帆
申请(专利权)人:南京邮电大学南京邮电大学盐城大数据研究院有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1