【技术实现步骤摘要】
轨迹嵌入预防泄露方法及系统
[0001]本专利技术涉及轨迹数据挖掘和处理下的轨迹表征的
,具体地,涉及一种轨迹嵌入预防泄露方法及系统。
技术介绍
[0002]随着移动互联网和基于位置的服务的发展,大量的时空数据被采集、存储,例如行人或行车的GPS数据、用户在社交媒体上的签到记录、运营商记录的用户通话记录等。由用户的时空数据点组成的序列可称为轨迹,它反映了用户的出行模式和日常习惯等信息。大规模的轨迹数据集,使得挖掘和分析人类移动模式成为可能,并可被应用于如交通监测、路线规划、传染病传播预测等下游任务。轨迹的异质性,给轨迹数据挖掘带来了许多困难。例如,不同的轨迹的采样率和长度往往不同,并且可能存在数据缺失和数据稀疏的问题。这将导致下游任务难以利用常见的数据挖掘和机器学习模型,因为此类模型往往需要形式统一的输入。此外,作为轨迹数据挖掘的基础性任务,采用传统的相似性度量对轨迹进行相似度计算,会导致较高的计算复杂度。为了解决这些困难,轨迹嵌入的方法成为了近些年轨迹数据挖掘和处理领域的一个新的技术热点。轨迹嵌入的方法采用基于Seq2Seq(Sequence to Sequence,序列到序列模型)、LSTM(Long Short
‑
Term Memory,长短期记忆网络)、Transformer(基于自注意力机制的深度学习模型)等框架的深度学习模型,将输入模型的轨迹转换成指定大小的轨迹嵌入向量,简称为轨迹嵌入。将轨迹嵌入用于轨迹数据挖掘任务或轨迹相似度计算,能有效缓解上述的困难。轨迹数据往往是高度隐私的, ...
【技术保护点】
【技术特征摘要】
1.一种轨迹嵌入预防泄露方法,其特征在于,包括如下步骤:基于相似度计算的攻击步骤:在测试环境中,基于相似度计算攻击待攻击的轨迹嵌入,获取原轨迹可能经过的空间区域内任意一片区域,作为预测的原轨迹的隐私信息;模型改进步骤:通过预测的原轨迹的隐私信息对轨迹嵌入模型进行考察评估改进;泄露预防步骤:使用改进后的轨迹嵌入模型预防产生的轨迹嵌入泄露。2.根据权利要求1所述的轨迹嵌入预防泄露方法,其特征在于,该方法还包括多标签分类步骤:在测试环境中,基于多标签分类攻击待攻击的轨迹嵌入,获取原轨迹可能经过的空间区域内的多个热门区域,作为预测的原轨迹的隐私信息。3.根据权利要求1所述的轨迹嵌入预防泄露方法,其特征在于,该方法还包括循环神经网络步骤:在测试环境中,基于循环神经网络攻击待攻击的轨迹嵌入,预定程度恢复出待攻击的轨迹嵌入对应的原轨迹,作为预测的原轨迹的隐私信息。4.根据权利要求1所述的轨迹嵌入预防泄露方法,其特征在于,所述基于相似度计算的攻击步骤包括如下步骤:区域划分步骤:将空间大区域按照预定划分方法,划分为多个形态相似的小区域;嵌入向量获取步骤:将每个小区域,作为由点构成的轨迹,输入轨迹嵌入模型,获取小区域对应的嵌入向量;相似度计算步骤:利用余弦相似度,计算获取的每个小区域的嵌入向量与待攻击的轨迹嵌入向量之间的相似度;坐标聚类步骤:将所有计算得到的相似度排序,保留前k个与待攻击的轨迹最相似的小区域;获取k个小区域的中心点坐标,采用密度聚类对中心点坐标进行聚类;区域确定步骤:聚类完成后,选取预定的聚类簇,计算簇中所有中心点坐标的平均值,作为可能经过的区域的中心点坐标;选取预定的半径值,框定可能经过的区域的空间范围;根据中心点坐标和半径值,确定空间区域中的区域,作为原轨迹可能经过的一片区域。5.根据权利要求2所述的轨迹嵌入预防泄露方法,其特征在于,所述多标签分类步骤包括如下步骤:热门区域获取步骤:准备预定数量的辅助轨迹数据,构成辅助轨迹数据集,采用密度聚类对辅助轨迹包含的所有点进行聚类,聚类完成后,获取的聚类簇,作为空间区域中被频繁访问的热门区域;辅助轨迹对应轨迹嵌入获取步骤:将辅助轨迹数据输入轨迹嵌入模型,获取辅助轨迹数据所对应的轨迹嵌入;标签构成步骤:针对辅助轨迹数据集中的每条辅助轨迹,标记辅助轨迹所经过的热门区域获取步骤中的所有热门区域,所有标记构成辅助轨迹的标签;网络搭建步骤:搭建包含输入层、输出层和多个隐含层的神经网络,输入层大小与所攻击的轨迹嵌入大小相同,隐含层大小根据输入层大小确定,输出层大小对应于热门区域获取步骤中获取的热门区域数量;神经网络训练时所采用的损失函数为交叉熵损失L,如式(1)所示;
其中,y
R
代表原轨迹是否经过热门区域R;代表神经网络预测的原轨迹经过热门区域R的概率;为热门区域所构成的集合;模型训练步骤:利用辅助轨迹的轨迹嵌入和标签,基于式(1),训练神经网络,使得式(1)中的损失不断变小,直至收敛,代表攻击模型训练完成;经过热门区域判断步骤:将待攻击的轨迹嵌入输入训练好的攻击模型,获取待攻击的轨迹嵌入对应的标签,标签中若位置为第一预定值则表示待攻击的轨迹经过了对应的热门区域,若位置为第二预定值则表示待攻击的轨迹没有经过对应的热门区域。6.根据权利要求3所述的轨迹嵌入预防泄露方法,其特征在于,所述循环神经网络步骤包括如下步骤:区域划分步骤:将空间大区域按照预定划分方法,划分为多个形态相似的小区域,并对各个小区域...
【专利技术属性】
技术研发人员:席时传,丁家昕,吴凯龙,刘攀,王新兵,周成虎,
申请(专利权)人:上海交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。