基于三维网格划分的隐私保护轨迹数据发布方法技术

技术编号:19321003 阅读:80 留言:0更新日期:2018-11-03 11:11
本发明专利技术适用于数据挖掘技术领域,提供了一种基于三维网格的隐私保护轨迹数据发布方法,该方法包括:对轨迹数据进行预处理;基于位置点采样时间对每条轨迹首尾位置点间的缺失位置进行插值;对轨迹区域进行网格划分,划分为若干个时空单元;基于各时空单元内子轨迹的时间、方向及空间位置来计算子轨迹间距离;在距离最近的两条子轨迹上寻找满足约束条件的位置点对,交换位置点对的时间及空间位置,获得匿名子轨迹;将分布在各时空单元内属于同一轨迹的匿名子轨迹进行重构,获得匿名轨迹数据集。本发明专利技术根据每个时空单元内的子轨迹之间的相似性进行位置交换,实现轨迹匿名化,在保护用户隐私信息的同时,有效地提高了轨迹发布数据的可用性。

Privacy preserving trajectory data publishing method based on 3D mesh generation

The invention is applicable to the field of data mining technology, and provides a privacy-preserving trajectory data publishing method based on three-dimensional mesh. The method includes: preprocessing trajectory data; interpolating missing positions between the first and last position points of each trajectory based on the sampling time of position points; and meshing the trajectory area. It is divided into several space-time units; the distance between sub-trajectories is calculated based on the time, direction and space position of sub-trajectories in each space-time unit; the location pairs satisfying the constraints are found on the two nearest sub-trajectories, and the anonymous sub-trajectories are obtained by exchanging the time and space positions of the location pairs; and the anonymous sub-trajectories will be distributed in each space-time unit. The anonymous sub trajectories belonging to the same trajectory are reconstructed and the anonymous track data set is obtained. The invention exchanges position according to the similarity of sub-trajectories in each space-time unit, realizes trajectory anonymity, and effectively improves the availability of trajectory publishing data while protecting user's privacy information.

【技术实现步骤摘要】
基于三维网格划分的隐私保护轨迹数据发布方法
本专利技术属于数据挖掘
,提供了一种基于三维网格的隐私保护轨迹数据发布方法。
技术介绍
随着移动智能终端、定位和存储技术的快速发展,研究人员可以收集和存储大量移动物体的位置和轨迹数据。这些轨迹数据包含丰富的时间和空间信息。收集、挖掘和分析轨迹数据可以支持与移动物体有关的各种应用。例如定位服务、交通监控、城市和道路规划、用户行为分析和旅行推荐等。轨迹数据表示运动物体的移动路线。大量轨迹数据的发布势必会对用户的隐私和安全构成威胁。例如,结合其他相关背景信息,攻击者通过分析轨迹数据,可以很容易地获得用户的一些隐私信息,如:姓名、性别、单位、家庭住址、爱好、行为模式、社交习惯等,导致用户的切身利益受到伤害。对于一定时间内某个地点的隐私保护问题,目前已经取得了一些研究成果。但是,连续位置信息的轨迹隐私保护方法还有待进一步研究。随着人们对个人隐私信息保护问题的日益关注,隐私保护的轨迹数据发布问题逐渐成为数据挖掘领域的研究热点之一。发布轨迹数据时,数据发布者应确保匿名轨迹数据不会泄露个人隐私信息,同时保持高可用性以进行准确地分析。因此,如何在不破坏数据可用性的前提下有效保护运动物体的轨迹隐私已成为轨迹数据发布中需要迫切解决的问题,即本专利技术关注的研究问题。轨迹隐私保护能力和轨迹数据的可用性是相互制约的。目前大多数轨迹数据隐私保护发布方法存在不足:一方面,根据访问频率抑制数据、根据时间干扰数据、使用假名交换用户标识符等方法,均未考虑包含在轨迹本身中的信息,所以在匿名过程中信息丢失非常大;另一方面,大多数方法都是基于整条轨迹的处理,忽略了子轨迹之间高度相似的可能性。因此,发布的匿名化轨迹数据集会降低轨迹数据挖掘的质量。由于泛化方法能够在个人隐私保护和轨迹数据可用性之间取得良好的平衡,因此基于泛化方法的轨迹k-匿名模型得到了广泛的应用,大多数现有的匿名方法直接删除违反特定约束条件的轨迹或位置,很可能造成大量的信息丢失。
技术实现思路
本专利技术实施例提供一种基于三维网格的隐私保护轨迹数据发布方法,旨在解决现有的匿名方法直接删除违反特定约束条件的轨迹或位置,造成大量的信息丢失问题。本专利技术是这样实现的,一种基于三维网格的隐私保护轨迹数据发布方法,该方法包括如下步骤:S1、对轨迹数据进行预处理,预处理是指提取轨迹数据的时间及空间位置属性;S2、基于位置点采样时间对每条轨迹首尾位置点间的缺失位置进行插值;S3、对轨迹区域进行网格划分,划分为若干个时空单元;S4、基于各时空单元内子轨迹的时间、方向及空间位置来计算子轨迹间距离;S5、在距离最近的两条子轨迹上寻找满足约束条件的位置点对,交换位置点对的时间及空间位置,获得匿名子轨迹;S6、将分布在各时空单元内属于同一轨迹的匿名子轨迹进行重构,获得匿名轨迹数据集。进一步的,所述时空单元为G×G×G三维单元,G为划分参数,其中,N为插补后的轨迹数据数目。进一步的,子轨迹Ti与子轨迹Tj间的距离计算方法包括如下步骤:S41、识别子轨迹Ti及子轨迹Tj上的位置点数目;S42、若子轨迹Ti及子轨迹Tj都只有一个位置点,则基于公式(2)进行计算:其中,dist(Ti,Tj)为子轨迹Ti及子轨迹Tj间的距离,和分别是子轨迹Ti及子轨迹Tj上的唯一位置点,ε是用于测量具有不同时间值的两个位置之间差异的距离调整参数,ε设置为|ti-tj|;若子轨迹Ti上只有一个位置点,子轨迹Tj上至少有两个位置点,则基于公式(3)进行计算:其中,dist(Ti,Tj)为子轨迹Ti及子轨迹Tj间的距离,st和et分别为子轨迹Tj的起始时间和结束时间,为三个位置点和组成的三角形面积,δ是一个距离调整参数;若子轨迹Ti及子轨迹Tj上均至少有两个位置点,则基于公式(4)进行计算:dist(Ti,Tj)=η*disto(Ti,Tj)+(1-η)*distl(Ti,Tj)(4)其中,η为距离权值,设置为0.5,dist0(Ti,Tj)是轨迹方向距离,为两条子轨迹中重叠时间内所有轨迹段方向距离的平均值,distl(Ti,Tj)是轨迹位置距离,为轨迹中所有轨迹段位置距离的平均值,其中,dist0(Ti,Tj)的计算公式如(5)所示:其中,是指子轨迹Ti的第r个轨迹段,|ol(Ti,Tj)|表示子轨迹Ti和子轨迹Tj的重叠时间长度,stij和etij分别表示两条子轨迹重叠时间的起始时刻和终止时刻;distl(Ti,Tj)的计算公式如(6)所示:其中,当子轨迹Ti和子轨迹Tj之间存在共同周期,则令pt=100*min(ratio1,ratio2),ratio1是Ti和Tj重叠时长与Ti时长的比值,ratio2是Ti和Tj重叠时长与Tj时长的比值,若子轨迹Ti和子轨迹Tj不是同时段轨迹,则令pt=0,σr表示四个时空位置和组成的两个三角形面积之和。进一步的,步骤S5中的约束条件为:时间差小于或等于时间阈值θt,且空间距离小于或等于距离阈值θd。本专利技术提供的隐私轨迹数据发布方法如下三个功能:第一个是针对时空轨迹数据集进行三维网格划分,提出了一种新的有效的轨迹分割方法,该方法保留了轨迹数据的潜在特征,有利于轨迹相似性评估和轨迹匿名化;第二个是基于不同场景的轨迹相似性测量,分析了三种不同的轨迹分布情况,提出了一种综合轨迹距离计算方法,用于度量任意两条轨迹之间的相似度;第三个是对相似性高的位置点对进行时间交换及位置交换,获得匿名轨迹,实现轨迹匿名化,在保护用户隐私信息的同时,有效地提高了轨迹发布数据的可用性。附图说明图1为本专利技术实施例提供的基于三维网格划分的隐私保护轨迹数据发布方法的流程图;图2为本专利技术实施例提供的时空单元内子轨迹间时空关系的三种场景示意图;图3(a)为本专利技术实施例提供的TPPG算法在两个数据集SynDS和RealDS上运行的avgLL值随θd变化的结果示意图;图3(b)为本专利技术实施例提供的TPPG算法在两个数据集SynDS和RealDS上运行的avgLL值随θt变化的结果示意图;图4(a)为本专利技术实施例提供的TPPG算法在两个数据集SynDS和RealDS上运行的值随θd变化的结果示意图;图4(b)为本专利技术实施例提供的TPPG算法在两个数据集SynDS和RealDS上运行的值随θt变化的结果示意图;图5(a)为本专利技术实施例提供的TPPG算法在两个数据集SynDS和RealDS上运行的TL值随θd变化结果示意图;图5(b)为本专利技术实施例提供的TPPG算法在两个数据集SynDS和RealDS上运行的TL值随θt变化结果示意图;图6(a)为本专利技术实施例提供的TPPG算法在两个数据集SynDS和RealDS上运行的TIL值随θd变化结果示意图;图6(b)为本专利技术实施例提供的TPPG算法在两个数据集SynDS和RealDS上运行的TIL值随θt变化结果示意图;图7(a)为本专利技术实施例提供的TPPG算法在两个数据集SynDS和RealDS上运行的ARAOI值随θd变化结果示意图;图7(b)为本专利技术实施例提供的TPPG算法在两个数据集SynDS和RealDS上运行的ARAOI值随θt变化结果示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一本文档来自技高网
...

【技术保护点】
1.一种基于三维网格划分的隐私保护轨迹数据发布方法,其特征在于,所述方法包括如下步骤:S1、对轨迹数据进行预处理,预处理是指提取轨迹数据的时间及空间位置属性;S2、基于位置点采样时间对每条轨迹首尾位置点间的缺失位置进行插值;S3、对轨迹区域进行网格划分,划分为S个时空单元,S为正整数;S4、基于各时空单元内子轨迹的时间、方向及空间位置来计算子轨迹间距离;S5、在距离最近的两条子轨迹上寻找满足约束条件的位置点对,交换位置点对的时间及空间位置,获得匿名子轨迹;S6、将分布在各时空单元内属于同一轨迹的匿名子轨迹进行重构,获得匿名轨迹数据集。

【技术特征摘要】
1.一种基于三维网格划分的隐私保护轨迹数据发布方法,其特征在于,所述方法包括如下步骤:S1、对轨迹数据进行预处理,预处理是指提取轨迹数据的时间及空间位置属性;S2、基于位置点采样时间对每条轨迹首尾位置点间的缺失位置进行插值;S3、对轨迹区域进行网格划分,划分为S个时空单元,S为正整数;S4、基于各时空单元内子轨迹的时间、方向及空间位置来计算子轨迹间距离;S5、在距离最近的两条子轨迹上寻找满足约束条件的位置点对,交换位置点对的时间及空间位置,获得匿名子轨迹;S6、将分布在各时空单元内属于同一轨迹的匿名子轨迹进行重构,获得匿名轨迹数据集。2.如权利要求1所述基于三维网格划分的隐私保护轨迹数据发布方法,其特征在于,所述时空单元为G×G×G三维单元,G为划分参数,其中,N为插补后的轨迹数据数目。3.如权利要求1所述基于三维网格划分的隐私保护轨迹数据发布方法,其特征在于,子轨迹Ti与子轨迹Tj间的距离计算方法包括如下步骤:S41、识别子轨迹Ti及子轨迹Tj上的位置点数目;S42、若子轨迹Ti及子轨迹Tj都只有一个位置点,则基于公式(2)进行计算:其中,dist(Ti,Tj)为子轨迹Ti及子轨迹Tj间的距离,和分别是子轨迹Ti及子轨迹Tj上的唯一位置点,ε是用于测量具有不同时间值的两个位置之间差异的距离调整参数,ε设置为|ti-tj|;若子轨迹Ti上只有一个位置点,子轨迹Tj上至少有两个位置点,则基于公式(3)进行计算:其中,dist(Ti,...

【专利技术属性】
技术研发人员:陈传明俞庆英胡桂银陈付龙罗永龙
申请(专利权)人:安徽师范大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1