轨迹嵌入预防泄露方法及系统技术方案

技术编号:36224789 阅读:8 留言:0更新日期:2023-01-04 12:23
本发明专利技术提供了一种轨迹嵌入预防泄露方法及系统,包括如下:在测试环境中,基于相似度计算、多标签分类、循环神经网络攻击待攻击的轨迹嵌入,获取原轨迹可能经过的空间区域内任意一片区域,作为预测的原轨迹的隐私信息;模型改进步骤:通过预测的原轨迹的隐私信息对轨迹嵌入模型进行考察评估改进;泄露预防步骤:使用改进后的轨迹嵌入模型预防产生的轨迹嵌入泄露。本发明专利技术在测试环境中获取了有关轨迹的隐私信息,达到了较好的攻击效果,克服了此方面攻击技术的缺失,可以预防嵌入轨迹泄露。可以预防嵌入轨迹泄露。可以预防嵌入轨迹泄露。

【技术实现步骤摘要】
轨迹嵌入预防泄露方法及系统


[0001]本专利技术涉及轨迹数据挖掘和处理下的轨迹表征的
,具体地,涉及一种轨迹嵌入预防泄露方法及系统。

技术介绍

[0002]随着移动互联网和基于位置的服务的发展,大量的时空数据被采集、存储,例如行人或行车的GPS数据、用户在社交媒体上的签到记录、运营商记录的用户通话记录等。由用户的时空数据点组成的序列可称为轨迹,它反映了用户的出行模式和日常习惯等信息。大规模的轨迹数据集,使得挖掘和分析人类移动模式成为可能,并可被应用于如交通监测、路线规划、传染病传播预测等下游任务。轨迹的异质性,给轨迹数据挖掘带来了许多困难。例如,不同的轨迹的采样率和长度往往不同,并且可能存在数据缺失和数据稀疏的问题。这将导致下游任务难以利用常见的数据挖掘和机器学习模型,因为此类模型往往需要形式统一的输入。此外,作为轨迹数据挖掘的基础性任务,采用传统的相似性度量对轨迹进行相似度计算,会导致较高的计算复杂度。为了解决这些困难,轨迹嵌入的方法成为了近些年轨迹数据挖掘和处理领域的一个新的技术热点。轨迹嵌入的方法采用基于Seq2Seq(Sequence to Sequence,序列到序列模型)、LSTM(Long Short

Term Memory,长短期记忆网络)、Transformer(基于自注意力机制的深度学习模型)等框架的深度学习模型,将输入模型的轨迹转换成指定大小的轨迹嵌入向量,简称为轨迹嵌入。将轨迹嵌入用于轨迹数据挖掘任务或轨迹相似度计算,能有效缓解上述的困难。轨迹数据往往是高度隐私的,其中蕴含的信息可以揭示用户频繁访问的位置、个人移动模式等隐私。在现实的应用中,往往需要将轨迹嵌入分享给不同的下游任务,或是需要将轨迹嵌入向大众公开,这自然可能会导致轨迹中蕴含的用户隐私信息遭到泄露。此类信息泄露问题,可概括为以下三类:(1)泄露原轨迹可能经过的空间区域内的任意一片区域;(2)泄露原轨迹可能经过的空间区域内的某一些热门区域;(3)原轨迹被一定程度上恢复出来。
[0003]公开号CN115062703A的中国专利技术专利文献公开了一种基于轨迹嵌入的轨迹相似度度量方法,首先,对用户通话记录的基站轨迹点进行预处理,对预处理后的轨迹数据进行时空轨迹点的聚类,然后,根据用户时空轨迹聚类簇信息,构建用户之间的关系图,并且挖掘出不同的用户强连通子图;接着,计算各连通子图内用户轨迹间的轨迹先验相似度,基于此,利用用户的轨迹序列和用户间轨迹的共现关系构建训练集,结合用户间的轨迹先验相似度训练不同连通子图内的trajectory2vec模型,得到用户的轨迹嵌入向量;最后,计算用户的轨迹嵌入向量之间的余弦相似度表示用户的轨迹时空相似度。
[0004]针对上述中的相关技术,专利技术人认为在测试环境中,攻击轨迹嵌入并判断不同轨迹嵌入模型产生的轨迹嵌入对用户隐私信息的泄露程度,对于考察和评估轨迹嵌入模型以及后续对模型的改进和应用,具有重要意义。但是,在测试技术中,目前尚未有对轨迹嵌入的针对性攻击技术。此方面攻击技术的缺失,对于轨迹嵌入模型的考察评估、改进和应用产生了较大的阻碍,进而较难预防嵌入轨迹泄露。

技术实现思路

[0005]针对现有技术中的缺陷,本专利技术的目的是提供一种轨迹嵌入预防泄露方法及系统。
[0006]根据本专利技术提供的一种轨迹嵌入预防泄露方法,包括如下步骤:
[0007]基于相似度计算的攻击步骤:在测试环境中,基于相似度计算攻击待攻击的轨迹嵌入,获取原轨迹可能经过的空间区域内任意一片区域,作为预测的原轨迹的隐私信息;
[0008]模型改进步骤:通过预测的原轨迹的隐私信息对轨迹嵌入模型进行考察评估改进;
[0009]泄露预防步骤:使用改进后的轨迹嵌入模型预防产生的轨迹嵌入泄露。
[0010]优选的,该方法还包括多标签分类步骤:在测试环境中,基于多标签分类攻击待攻击的轨迹嵌入,获取原轨迹可能经过的空间区域内的多个热门区域,作为预测的原轨迹的隐私信息。
[0011]优选的,该方法还包括循环神经网络步骤:在测试环境中,基于循环神经网络攻击待攻击的轨迹嵌入,预定程度恢复出待攻击的轨迹嵌入对应的原轨迹,作为预测的原轨迹的隐私信息。
[0012]优选的,所述基于相似度计算的攻击步骤包括如下步骤:
[0013]区域划分步骤:将空间大区域按照预定划分方法,划分为多个形态相似的小区域;
[0014]嵌入向量获取步骤:将每个小区域,作为由点构成的轨迹,输入轨迹嵌入模型,获取小区域对应的嵌入向量;
[0015]相似度计算步骤:利用余弦相似度,计算获取的每个小区域的嵌入向量与待攻击的轨迹嵌入向量之间的相似度;
[0016]坐标聚类步骤:将所有计算得到的相似度排序,保留前k个与待攻击的轨迹最相似的小区域;获取k个小区域的中心点坐标,采用密度聚类对中心点坐标进行聚类;
[0017]区域确定步骤:聚类完成后,选取预定的聚类簇,计算簇中所有中心点坐标的平均值,作为可能经过的区域的中心点坐标;选取预定的半径值,框定可能经过的区域的空间范围;根据中心点坐标和半径值,确定空间区域中的区域,作为原轨迹可能经过的一片区域。
[0018]优选的,所述多标签分类步骤包括如下步骤:
[0019]热门区域获取步骤:准备预定数量的辅助轨迹数据,构成辅助轨迹数据集,采用密度聚类对辅助轨迹包含的所有点进行聚类,聚类完成后,获取的聚类簇,作为空间区域中被频繁访问的热门区域;
[0020]辅助轨迹对应轨迹嵌入获取步骤:将辅助轨迹数据输入轨迹嵌入模型,获取辅助轨迹数据所对应的轨迹嵌入;
[0021]标签构成步骤:针对辅助轨迹数据集中的每条辅助轨迹,标记辅助轨迹所经过的热门区域获取步骤中的所有热门区域,所有标记构成辅助轨迹的标签;
[0022]网络搭建步骤:搭建包含输入层、输出层和多个隐含层的神经网络,输入层大小与所攻击的轨迹嵌入大小相同,隐含层大小根据输入层大小确定,输出层大小对应于热门区域获取步骤中获取的热门区域数量;神经网络训练时所采用的损失函数为交叉熵损失L,如式(1)所示;
[0023][0024]其中,y
R
代表原轨迹是否经过热门区域R;代表神经网络预测的原轨迹经过热门区域R的概率;为热门区域所构成的集合;
[0025]模型训练步骤:利用辅助轨迹的轨迹嵌入和标签,基于式(1),训练神经网络,使得式(1)中的损失不断变小,直至收敛,代表攻击模型训练完成;
[0026]经过热门区域判断步骤:将待攻击的轨迹嵌入输入训练好的攻击模型,获取待攻击的轨迹嵌入对应的标签,标签中若位置为第一预定值则表示待攻击的轨迹经过了对应的热门区域,若位置为第二预定值则表示待攻击的轨迹没有经过对应的热门区域。
[0027]优选的,所述循环神经网络步骤包括如下步骤:
[0028]区域划分步骤:将空间大区域按照预定划分方法,划分为多个形态相似的小区域,并对各个小区域进行编号,构建区域集合;
[0029]辅助本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种轨迹嵌入预防泄露方法,其特征在于,包括如下步骤:基于相似度计算的攻击步骤:在测试环境中,基于相似度计算攻击待攻击的轨迹嵌入,获取原轨迹可能经过的空间区域内任意一片区域,作为预测的原轨迹的隐私信息;模型改进步骤:通过预测的原轨迹的隐私信息对轨迹嵌入模型进行考察评估改进;泄露预防步骤:使用改进后的轨迹嵌入模型预防产生的轨迹嵌入泄露。2.根据权利要求1所述的轨迹嵌入预防泄露方法,其特征在于,该方法还包括多标签分类步骤:在测试环境中,基于多标签分类攻击待攻击的轨迹嵌入,获取原轨迹可能经过的空间区域内的多个热门区域,作为预测的原轨迹的隐私信息。3.根据权利要求1所述的轨迹嵌入预防泄露方法,其特征在于,该方法还包括循环神经网络步骤:在测试环境中,基于循环神经网络攻击待攻击的轨迹嵌入,预定程度恢复出待攻击的轨迹嵌入对应的原轨迹,作为预测的原轨迹的隐私信息。4.根据权利要求1所述的轨迹嵌入预防泄露方法,其特征在于,所述基于相似度计算的攻击步骤包括如下步骤:区域划分步骤:将空间大区域按照预定划分方法,划分为多个形态相似的小区域;嵌入向量获取步骤:将每个小区域,作为由点构成的轨迹,输入轨迹嵌入模型,获取小区域对应的嵌入向量;相似度计算步骤:利用余弦相似度,计算获取的每个小区域的嵌入向量与待攻击的轨迹嵌入向量之间的相似度;坐标聚类步骤:将所有计算得到的相似度排序,保留前k个与待攻击的轨迹最相似的小区域;获取k个小区域的中心点坐标,采用密度聚类对中心点坐标进行聚类;区域确定步骤:聚类完成后,选取预定的聚类簇,计算簇中所有中心点坐标的平均值,作为可能经过的区域的中心点坐标;选取预定的半径值,框定可能经过的区域的空间范围;根据中心点坐标和半径值,确定空间区域中的区域,作为原轨迹可能经过的一片区域。5.根据权利要求2所述的轨迹嵌入预防泄露方法,其特征在于,所述多标签分类步骤包括如下步骤:热门区域获取步骤:准备预定数量的辅助轨迹数据,构成辅助轨迹数据集,采用密度聚类对辅助轨迹包含的所有点进行聚类,聚类完成后,获取的聚类簇,作为空间区域中被频繁访问的热门区域;辅助轨迹对应轨迹嵌入获取步骤:将辅助轨迹数据输入轨迹嵌入模型,获取辅助轨迹数据所对应的轨迹嵌入;标签构成步骤:针对辅助轨迹数据集中的每条辅助轨迹,标记辅助轨迹所经过的热门区域获取步骤中的所有热门区域,所有标记构成辅助轨迹的标签;网络搭建步骤:搭建包含输入层、输出层和多个隐含层的神经网络,输入层大小与所攻击的轨迹嵌入大小相同,隐含层大小根据输入层大小确定,输出层大小对应于热门区域获取步骤中获取的热门区域数量;神经网络训练时所采用的损失函数为交叉熵损失L,如式(1)所示;
其中,y
R
代表原轨迹是否经过热门区域R;代表神经网络预测的原轨迹经过热门区域R的概率;为热门区域所构成的集合;模型训练步骤:利用辅助轨迹的轨迹嵌入和标签,基于式(1),训练神经网络,使得式(1)中的损失不断变小,直至收敛,代表攻击模型训练完成;经过热门区域判断步骤:将待攻击的轨迹嵌入输入训练好的攻击模型,获取待攻击的轨迹嵌入对应的标签,标签中若位置为第一预定值则表示待攻击的轨迹经过了对应的热门区域,若位置为第二预定值则表示待攻击的轨迹没有经过对应的热门区域。6.根据权利要求3所述的轨迹嵌入预防泄露方法,其特征在于,所述循环神经网络步骤包括如下步骤:区域划分步骤:将空间大区域按照预定划分方法,划分为多个形态相似的小区域,并对各个小区域...

【专利技术属性】
技术研发人员:席时传丁家昕吴凯龙刘攀王新兵周成虎
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1