【技术实现步骤摘要】
一种满足本地差分隐私的轨迹数据收集方法及系统
[0001]本申请涉及人工智能
,特别涉及一种满足本地差分隐私的轨迹数据收集方法及系统。
技术介绍
[0002]用户轨迹数据指的是一系列地理位置按时间先后排列而成的序列,其描述用户在地理区域中的移动信息。随着智能移动设备的深入普及,用户轨迹数据已经开始被许多服务提供商广泛地收集,通过分析获取到的用户轨迹数据,服务提供商可以提供更好的用户体验和创造新的盈利机会。例如,通过分析用户的移动模式,服务提供商可以帮助用户合理地规划出行路线,以避免交通拥堵,也能够向商业公司建议在用户经常访问的地点放置广告。然而,用户的轨迹数据可能会包含大量的敏感信息,比如家庭住址或一些敏感地点(如专科医院)的到访记录,如果没有合适的隐私保护机制,直接收集用户的轨迹数据将会把用户的个人隐私置于危险之中,同时也会因为用户不愿再分享轨迹数据而阻碍商业的运营发展。因此,如何设计有效的方法以解决在收集用户轨迹数据时的用户隐私泄露问题已迫在眉睫。
[0003]近年来提出的本地差分隐私(Local Diff ...
【技术保护点】
【技术特征摘要】
1.一种满足本地差分隐私的轨迹数据收集方法,其特征在于,所述方法包括:将设定的地理区域进行网栅离散化,在地理区域内形成满足本地差分隐私的网栅;基于所述形成的网栅,离散化用户的轨迹数据,将用户的轨迹数据中的每个地理位置以所述地理位置所在晶格的索引值标识;以在网栅中的每个晶格内的用户轨迹数据为样本,学习得到隐马尔科夫模型;从学习得到的隐马尔科夫模型中抽样生成该地理区域的轨迹数据集。2.如权利要求1所述的方法,其特征在于,所述在地理区域内形成满足本地差分隐私的网栅包括:在设定的地理区域中以第一网栅粒度g1进行粗划分,得到第一网栅G1;针对第一网栅G1中的每个晶格,根据计算得到的所述晶格的频率确定第二网栅粒度g2,以第二网栅粒度g2对所述晶格进行划分,在地理区域内形成满足本地差分隐私的网栅。3.如权利要求2所述的方法,其特征在于,所述得到第一网栅G1包括:将所述地理区域划分为g1×
g1的第一网栅G1,其中第一网栅粒度g1采用设置;其中,n是所述地理区域内的用户总数;ε是设置的隐私预算值;α设置为0.02。4.如权利要求2所述的方法,其特征在于,所述根据计算得到的所述晶格的频率确定第二网栅粒度g2,以第二网栅粒度g2对所述晶格进行划分,在地理区域内形成满足本地差分隐私的网栅包括:将确定的网栅G1,广播给从所述地理区域内的总用户中随机划分的第一用户小组U1中的每个用户,以使第一用户小组U1里每一个第i个用户将其轨迹数据离散化为其中是位置所在晶格的索引值,代表T
i
在第j个时间节点上的地理位置;采用最优本地哈希OLH机制从用户小组U1提供的离散化计算得到每个晶格的频率;采用确定第二网栅粒度g2,其中,n是所述地理区域内的用户总数;ε是设置的隐私预算值;α设置为0.02,及σ为表示从总用户中随机划分的用户小组U1中的用户数量占用户总数的比例,设置为0.2;对于网栅G1里第k个晶格,根据其频率f
k
将其划分为个相同大小的晶格,在地理区域内形成满足本地差分隐私的网栅。5.如权利要求4所述的方法,其特征在于,所述采用OLH机制从用户小组U1提供的离散化计算得到每个晶格的频率包括:将用户小组U1等分成t个子小组,其中每个子小组内的用户报告离散化的轨迹数据中一个时间节点上的信息;
对于每一个第j个时间节点,通过OLH机制从第j个子小组离散化的轨迹数据中估算网栅G1里第k个晶格的频率网栅G1里第k个晶格的频率估算值f
k
被计算为所有t个时间节点上频率的平均值。6.如权利要求1所述的方法,其特征在于,所述学习得到隐马尔科夫模型包括:从所述地理区域内的总用户中随机选取第二用户小组U2,所述第二用户小组U2中的用户与从所述总用户中随机选取第一用户小组U1的用户不相同;对于用户小组U2里的每一个第i个用户,从自身离散化的轨迹数据中随机地选取一个三元组其中(x1,x2,x3)是三个相邻的时间节点,其中是位置所在晶格的索引值;将用户小组U2等分成三个子小组,分别用于报告生成S1,S2和S3的离散化的轨迹数据,采用公式计算S1,S2和S3:S1={Pr[T
G
(x1)=d1]|d1∈I
G
},S2={Pr[T
G
(x2)=d2,T
G
(x1)=d1]|d1,d2∈I
G
},S3={Pr[T
G
(x3)=d3,T
G
(x2)=d2,T
G
(x1)=...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。