一种基于前位置矢量的差分隐私保护方法技术

技术编号:16841993 阅读:73 留言:0更新日期:2017-12-20 00:33
本发明专利技术公开了一种基于前位置矢量的位置数据保护方法,由于位置数据的高维度、时空相关性、以及背景知识丰富等特点,使得位置数据的隐私保护面临着与传统隐私保护不同的挑战,针对位置数据隐私保护,本发明专利技术运用了差分隐私保护的方法,从矢量出发,向距离和角度两个维度分别添加随机噪声,实现ε‑差分隐私保护。经差分隐私保护处理后发布的位置数据,既保护了用户的个人隐私,又保证位置数据的可用性。

A differential privacy protection method based on front position vector

The invention discloses a position data protection method based on vector position before, because of the location data of high dimension, spatial correlation, and background knowledge rich features, the privacy protection data faces different challenges with the traditional privacy protection, according to the position data privacy protection, the invention uses the method of differential privacy protection starting from the vector, respectively adding random noise to the two dimensions of distance and angle, realize differential privacy protection. The position data released after the differential privacy protection not only protects the personal privacy of the user, but also ensures the availability of the location data.

【技术实现步骤摘要】
一种基于前位置矢量的差分隐私保护方法
本专利技术属于隐私保护
,更具体地,涉及一种基于前位置矢量的差分隐私保护方法。
技术介绍
近年来,基于位置的服务以及各种定位技术得到了广泛使用,其中有大量的用户位置数据被收集。为了更好地利用位置数据中蕴藏的学术价值和商业价值,积累的用户位置数据被发布给学术和商业机构,用于进行城市规划、行为模式分析、商业决策等研究。如何使位置数据发布中的个人隐私得到有效保护,逐渐成为研究的热点。而位置数据的高维度、时空相关性、以及背景知识丰富等特点,使得位置数据的隐私保护面临着与传统隐私保护不同的挑战。目前常见的基于位置数据的隐私保护方法主要有以下三种:1、轨迹抑制技术轨迹抑制技术原理是不发布所有的轨迹或者一条轨迹上的所有节点。如果轨迹上某个节点含有大量敏感信息,发布出去会使轨迹隐私泄漏的威胁变大,那么我们将抑制这些节点的发布,在去掉这些敏感节点后,再发布轨迹数据。有些极端情况下,整条轨迹都是敏感度非常高的,那么直接将这条轨迹从轨迹数据库中剔除掉。也有这种情况:聚类结束时,会出现若干条轨迹并不被某一个等价类包括,此时,只有把这整条轨迹都剔除掉。2、轨迹泛化技术面向存储在关系型数据库中的数据,在数据发布阶段,通常把确定的数变成了包含这个数的一个区间,这样泛化之后,攻击者就无法得知具体的数值。例如,Jack的年龄本来是确定的58岁,但是却可以用一个区间[50-59]表示。受到启示,当研究轨迹隐私保护时,也可以用适当的一片空间大小来表示某一个具体的点。3、假轨迹数据保护技术在不让发布的轨迹数据失去某些统计特性前提下,往待发布原始轨迹数据中,添加若干假的位置节点来达到扰动目的。假轨迹数据保护技术容易实现,并且效果明显。通过假轨迹数据保护技术处理之后,发布的数据轨迹既包含真实数据点,又包含假的数据点,在一定程度上保护了真实的轨迹数据,并提供了数据的可用性。然而,上述现有的基于位置数据的隐私保护方法存在以下问题:1、敏感属性和非敏感属性不确定:很难去界定轨迹数据中的敏感属性和非敏感属性,它是随着不同的攻击者拥有的外部信息而改变的。假设攻击者A掌握了用户在某一个时间段内的轨迹,则这一轨迹片段对于攻击者A而言,只能划分到非敏感信息。但是用户在其他时间段内的轨迹片段对于攻击者A来说,仍然属于敏感信息,必须得到保护。轨迹数据的复杂程度高,造成了对敏感属性和非敏感属性划分的难题。因此,在轨迹数据保护中,我们认为轨迹上的任意节点均具有相同的敏感性。2、数据可用性较低:当泛化被运用到轨迹数据中,如何选择泛化的程度就成为一个棘手的问题。如果放大的空间太大了,会直接降低数据的可用性。实际应用一般会考虑到真实的地理环境,而且随着周围环境的变化,应该使用不同程度的泛化空间。泛化会导致信息损失度较大,数据可用性降低。3、存储空间过大:尽管假轨迹数据保护技术相对容易实现,不需要复杂的处理过程,但是这样一直往数据库里面加入假的数据,会导致数据库的存储空间变大,存储开销变大。
技术实现思路
针对现有技术的以上缺陷或改进需求,本专利技术提供了一种基于前位置矢量的差分隐私保护方法和系统,其目的在于,解决现有基于位置的隐私保护方法中存在敏感属性的不确定、数据可用性过低以及存储空间过大的问题。为实现上述目的,按照本专利技术的一个方面,提供了一种基于前位置矢量的差分隐私保护方法,包括以下步骤:(1)获取多个位置数据构成的轨迹曲线,并对该轨迹曲线进行采样,以得到采样点集合T={(X0,Y0),(X1,Y1),…,(Xn,Yn)};其中n表示采样点的数量,X和Y分别表示采样点的横坐标和纵坐标;(2)设置计数器i=1;(3)判断i是否小于等于n,如果是则转入步骤(4),否则进入步骤(9);(4)根据采样点集合T获得中间向量Vi=(Xi-X*i-1,Yi-Y*i-1),并获得中间向量Vi的模和角度,其中X*和Y*分别表示采样点经过扰动后的横坐标和纵坐标,且X*0=X0,Y*0=Y0;(5)根据中间向量Vi的模获取拉普拉斯分布函数,求取该拉普拉斯分布函数的反函数,并根据该反函数获取随机值ρi;(6)根据中间向量Vi的角度获取拉普拉斯分布函数,求取该拉普拉斯分布函数的反函数,并根据该反函数获取随机值αi;(7)根据步骤(5)和步骤(6)获取的随机值ρi和αi得到采样点经过扰动后的横坐标和纵坐标X*i和Y*i;(8)设置i=i+1,并返回步骤(3);(9)根据扰动后的新采样点集合T*={(X*0,Y*0),(X*1,Y*1),…,(X*n,Y*n)}获得对应的轨迹曲线,并将该轨迹曲线作为隐私数据发布在公开平台上。优选地,对轨迹曲线进行采样的周期为1秒。优选地,中间向量Vi的模ri=|Vi|,中间向量Vi的角度θi=Arg(Vi);优选地,根据中间向量Vi的模获取拉普拉斯分布函数为:其中随机数ρi∈[0,2M],ε表示预定义的隐私参数,M表示相邻坐标点之间最大距离的一半。优选地,随机数其中为0到1之间的随机值。优选地,根据中间向量Vi的角度获取拉普拉斯分布函数为:其中随机数αi∈[0,2π],ε表示预定义的隐私参数,π是圆周率。优选地,随机数其中为0到1之间的随机值。优选地,采样点经过扰动后的横坐标X*i和纵坐标Y*i分别等于:按照本专利技术的另一方面,提供了一种基于前位置矢量的差分隐私保护系统,包括:第一模块,用于获取多个位置数据构成的轨迹曲线,并对该轨迹曲线进行采样,以得到采样点集合T={(X0,Y0),(X1,Y1),…,(Xn,Yn)};其中n表示采样点的数量,X和Y分别表示采样点的横坐标和纵坐标;第二模块,用于设置计数器i=1;第三模块,用于判断i是否小于等于n,如果是则转入第四模块,否则进入第九模块;第四模块,用于根据采样点集合T获得中间向量Vi=(Xi-X*i-1,Yi-Y*i-1),并获得中间向量Vi的模和角度,其中X*和Y*分别表示采样点经过扰动后的横坐标和纵坐标,且X*0=X0,Y*0=Y0;第五模块,用于根据中间向量Vi的模获取拉普拉斯分布函数,求取该拉普拉斯分布函数的反函数,并根据该反函数获取随机值ρi;第六模块,用于根据中间向量Vi的角度获取拉普拉斯分布函数,求取该拉普拉斯分布函数的反函数,并根据该反函数获取随机值αi;第七模块,用于根据第五模块和第六模块获取的随机值ρi和αi得到采样点经过扰动后的横坐标和纵坐标X*i和Y*i;第八模块,用于设置i=i+1,并返回第三模块;第九模块,用于根据扰动后的新采样点集合T*={(X*0,Y*0),(X*1,Y*1),…,(X*n,Y*n)}获得对应的轨迹曲线,并将该轨迹曲线作为隐私数据发布在公开平台上。总体而言,通过本专利技术所构思的以上技术方案与现有技术相比,能够取得下列有益效果:1、本专利技术能解决现有方法中存在的敏感属性不确定的问题:通过步骤(1)中对轨迹曲线进行采样,采样的n个数据点坐标都当做是敏感数据,并对着n个数据点在步骤(7)处都加入噪声处理,因此不存在敏感属性难以确定的问题。2、本专利技术能解决现有方法中存在的数据可用性过低的问题:通过步骤(1)中设定ε的值,使得通过步骤(4)到步骤(7)中计算出来随机噪声是满足ε-差分隐私保护的,因此,可以通过调整ε的值来平衡数据的可用性与隐本文档来自技高网
...
一种基于前位置矢量的差分隐私保护方法

【技术保护点】
一种基于前位置矢量的差分隐私保护方法,其特征在于,包括以下步骤:(1)获取多个位置数据构成的轨迹曲线,并对该轨迹曲线进行采样,以得到采样点集合T={(X0,Y0),(X1,Y1),…,(Xn,Yn)};其中n表示采样点的数量,X和Y分别表示采样点的横坐标和纵坐标;(2)设置计数器i=1;(3)判断i是否小于等于n,如果是则转入步骤(4),否则进入步骤(9);(4)根据采样点集合T获得中间向量Vi=(Xi‑X

【技术特征摘要】
1.一种基于前位置矢量的差分隐私保护方法,其特征在于,包括以下步骤:(1)获取多个位置数据构成的轨迹曲线,并对该轨迹曲线进行采样,以得到采样点集合T={(X0,Y0),(X1,Y1),…,(Xn,Yn)};其中n表示采样点的数量,X和Y分别表示采样点的横坐标和纵坐标;(2)设置计数器i=1;(3)判断i是否小于等于n,如果是则转入步骤(4),否则进入步骤(9);(4)根据采样点集合T获得中间向量Vi=(Xi-X*i-1,Yi-Y*i-1),并获得中间向量Vi的模和角度,其中X*和Y*分别表示采样点经过扰动后的横坐标和纵坐标,且X*0=X0,Y*0=Y0;(5)根据中间向量Vi的模获取拉普拉斯分布函数,求取该拉普拉斯分布函数的反函数,并根据该反函数获取随机值ρi;(6)根据中间向量Vi的角度获取拉普拉斯分布函数,求取该拉普拉斯分布函数的反函数,并根据该反函数获取随机值αi;(7)根据步骤(5)和步骤(6)获取的随机值ρi和αi得到采样点经过扰动后的横坐标和纵坐标X*i和Y*i;(8)设置i=i+1,并返回步骤(3);(9)根据扰动后的新采样点集合T*={(X*0,Y*0),(X*1,Y*1),…,(X*n,Y*n)}获得对应的轨迹曲线,并将该轨迹曲线作为隐私数据发布在公开平台上。2.根据权利要求1所述的差分隐私保护方法,其特征在于,对轨迹曲线进行采样的周期为1秒。3.根据权利要求1所述的差分隐私保护方法,其特征在于,中间向量Vi的模ri=|Vi|,中间向量Vi的角度θi=Arg(Vi)。4.根据权利要求1所述的差分隐私保护方法,其特征在于,根据中间向量Vi的模获取拉普拉斯分布函数为:其中随机数ρi∈[0,2M],ε表示预定义的隐私参数,M表示相邻坐标点之间最大距离的一半。5.根据权利要求1所述的差分隐私保护方法,其特征在...

【专利技术属性】
技术研发人员:周可王桦唐文君汪洋涛李晓翠
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1