一种基于差分隐私的用户社区挖掘方法及系统技术方案

技术编号:29674331 阅读:11 留言:0更新日期:2021-08-13 21:56
本发明专利技术提出一种基于差分隐私的用户社区挖掘方法及系统,用以解决实际环境中隐私保护技术导致的数据可用性低的问题;所述方法的步骤为:首先,根据用户的原始移动轨迹将泛化移动轨迹序列分段为泛化轨迹段,并构建泛化轨迹段的距离函数;其次,从地理空间和语义空间上分别量化泛化轨迹段之间的相似度权重,构建最优泛化轨迹段选取模型;再利用轨迹序列函数生成算法对最优泛化轨迹段选取模型进行优化,得到泛化后的轨迹序列;最后,将泛化后的轨迹序列发布到中心服务器,中心服务器根据轨迹之间的语义距离与地理距离挖掘潜在的用户社区。本发明专利技术实现了隐私保护的用户社区发现,利用差分隐私保护方法量化隐私保护强度,提高系统可靠性与可控性。

【技术实现步骤摘要】
一种基于差分隐私的用户社区挖掘方法及系统
本专利技术涉及网络通信
,特别涉及一种基于差分隐私的用户社区挖掘方法及系统。
技术介绍
位置社交网络中,移动客户端通过按时间顺序连接用户访问的位置数据而生成移动轨迹序列。位置社交网络服务器接收到用户上传的轨迹数据信息,首先利用数据分析方法挖掘出具有相似兴趣或者偏好的用户。然后,将这些用户聚类为一个社区。最后,同一个社区内的用户能够互相分享感兴趣的内容(例如:旅行路线、风景名胜或者娱乐信息等)。并且,这种轨迹社区发现方法能够促进当今流行的互联网应用的发展,包括:个性化服务推荐、内容分发以及智能交通系统等。但是,用户在享受互联网所提供的便利的同时,不可避免地会遭受个人隐私泄露的风险。不可信第三方通过攻击位置社交网络服务器,窃取用户真实的移动轨迹数据,从而挖掘出用户的个人隐私信息(例如:家庭住址、工作地点等),甚至推理出用户的一些生活习惯以及行为模式,严重威胁了用户的人身安全。因此,隐私保护成为服务推荐的前提,只有保证了服务的可信性,才能提高位置社交网络中用户的服务体验质量。个性化服务推荐与隐私保护之间存在一种矛盾,即:位置社交网络服务器必须获取更多用户真实数据信息,才能给用户推荐满足其个性化需求的位置服务;同时,位置社交网络必须隐藏更多用户真实数据信息,才能保护用户的个人隐私,防止其敏感数据信息被不法分子窃取。因此,位置社交网络下隐私保护方法的共同目标是:不仅能够预防用户的个人隐私泄露,而且能够提供满足用户需求的以及准确度高的位置相关服务。也就是说,位置社交网络需要保证其服务的安全、可靠以及可控可管。这将是一项具有挑战性的工作,尤其是如何实现隐私保护与数据效用之间的平衡。现有的技术方案主要通过数据匿名或数据加密技术保护用户的敏感信息泄露,更极端的是采用抑制技术,将用户轨迹数据中的敏感信息去除后,再上传到中心服务器。但是,中心服务器需要尽可能多地收集用户的有效信息,才能为用户推荐满足其需求的个性化服务,这样就造成隐私保护与服务推荐之间无法实现有效的协同。
技术实现思路
为了解决隐私保护与服务推荐之间的协同问题,提高系统可靠性,并为用户推荐满足其兴趣与偏好的个性化服务,本专利技术提供了一种基于差分隐私的用户社区挖掘方法及系统,解决了实际环境中隐私保护技术导致的数据可用性低的问题。本专利技术的技术方案是这样实现的:一种基于差分隐私的用户社区挖掘方法,其步骤如下:步骤一:根据用户的原始移动轨迹将泛化移动轨迹序列分段为泛化轨迹段,并构建泛化轨迹段的距离函数;步骤二:从地理空间和语义空间上分别量化泛化轨迹段之间的相似度权重,并根据相似度权重构建最优泛化轨迹段选取模型;步骤三:利用生成算法对最优泛化轨迹段选取模型进行优化,得到泛化后的轨迹序列,其中,生成算法包括位置泛化矩阵生成算法和轨迹序列函数生成算法,位置泛化矩阵生成算法是将基于拉普拉斯分布的噪声添加至位置泛化矩阵生成阶段,轨迹序列函数生成算法是将基于指数分布的噪声添加至轨迹序列函数生成阶段;步骤四:将泛化后的轨迹序列发布到中心服务器,中心服务器根据轨迹之间的语义距离与地理距离计算两条轨迹序列之间的潜在距离,并根据潜在距离挖掘出位置社交网络中潜在的用户社区。所述将泛化移动轨迹序列分段为泛化轨迹段的方法为:按照用户访问位置的时间先后顺序,将原始的轨迹序列T划分为k个轨迹段Lij;根据原始轨迹序列的划分方式,将原始轨迹序列对应的泛化移动轨迹序列T*划分为k个泛化的轨迹段所述泛化轨迹段的距离函数的构建方法为:构建原始轨迹段Lij与泛化轨迹段之间的垂直距离平行距离和夹角距离分别为:其中,loci代表一个用户的真实位置点,代表位置loci对应的泛化位置点;表示从真实位置点loci到真实位置点loci+1的向量,表示从泛化位置点到泛化位置点的向量;d⊥1表示真实位置点loci到轨迹段的距离,d⊥2表示真实位置点loci+1到轨迹段的距离;d||1表示从映射点loc′i到泛化位置点与从映射点loci′到泛化位置点的欧氏距离的最小值,d||2表示从映射点loc′j到泛化位置点与从映射点loc′j到泛化位置点的欧氏距离的最小值;表示轨迹段Lij的长度,θi表示原始轨迹段Lij与泛化轨迹段之间的夹角;loc′i表示真实位置点loci在轨迹段上的映射点,loc′j表示真实位置点locj在轨迹段上的映射点;构建原始轨迹段Lij与泛化轨迹段之间的地理距离其中,ω⊥表示垂直距离的权重值,ω||表示平行距离的权重值,ωθ表示夹角距离的权重值。所述从地理空间和语义空间上分别量化泛化轨迹段之间的相似度权重的方法为:计算地理空间上的泛化轨迹段之间的相似度权重:其中,ci表示地理空间相似性的权重,表示位置点loci泛化到位置点的概率;计算语义空间上的泛化轨迹段之间的相似度权重:其中,cij表示语义空间相似性的权重。所述最优泛化轨迹段选取模型的构建方法为:令表示位置点loci的集合,表示轨迹段Lij的集合,对应的表示泛化位置点与的集合,对应的表示泛化轨迹段的集合;定义两个决策变量如下:其中,Xi表示泛化位置点选取的决策变量,Yij表示泛化轨迹段选取的决策变量,表示泛化位置点与泛化位置点组成的轨迹段;构建的最优泛化轨迹段选取模型如下:其中,表示集合中不包含元素i的集合,即:将基于拉普拉斯分布的噪声添加至位置泛化矩阵生成阶段的方法为:计算一个位置点loci泛化为另一个位置点的概率,如果位置点loci与位置点属于同一个语义类型,则其泛化概率为1,如果位置点loci与位置点属于不同的语义类型,则其泛化概率为0,从而生成初始的位置泛化矩阵其中,H(i1,j1)表示地理空间相似性的权重,i1=1,2,…,N,j1=1,2,…,N;对于位置泛化矩阵中的任意元素,若i1==j1,即H(i1,j1)←0;若i1≠j1,利用基于拉普拉斯分布的噪声Lap(1/∈l)更新H(i1,j1)中,即H(i1,j1)←P[type(i1),type(j1)]+Lap(1/∈l);其中,type(i)表示语义类型i,type(j)表示语义类型j,∈l表示位置泛化矩阵生成阶段的隐私预算;将更新后的H(i1,j1)的值进行归一化处理,得到差分隐私保护的位置泛化矩阵。将基于指数分布的噪声添加至轨迹序列函数生成阶段的方法为:初始化泛化轨迹序列对于原始轨迹序列T中的任意位置点loci,从差分隐私保护的位置泛化矩阵中选择候选位置点计算原始轨迹段Lij与泛化轨迹段之间的距离并计算轨迹段Lij泛化为另一个轨迹段的分数值:其中,表示候选轨迹段的集合,u(·)表示打分函数;计算打分函数的全局敏感度Δf:根据全局敏感度Δf计算候选轨迹段的集合中每一个轨迹段的指数分布的噪声...

【技术保护点】
1.一种基于差分隐私的用户社区挖掘方法,其特征在于,其步骤如下:/n步骤一:根据用户的原始移动轨迹将泛化移动轨迹序列分段为泛化轨迹段,并构建泛化轨迹段的距离函数;/n步骤二:从地理空间和语义空间上分别量化泛化轨迹段之间的相似度权重,并根据相似度权重构建最优泛化轨迹段选取模型;/n步骤三:利用生成算法对最优泛化轨迹段选取模型进行优化,得到泛化后的轨迹序列,其中,生成算法包括位置泛化矩阵生成算法和轨迹序列函数生成算法,位置泛化矩阵生成算法是将基于拉普拉斯分布的噪声添加至位置泛化矩阵生成阶段,轨迹序列函数生成算法是将基于指数分布的噪声添加至轨迹序列函数生成阶段;/n步骤四:将泛化后的轨迹序列发布到中心服务器,中心服务器根据轨迹之间的语义距离与地理距离计算两条轨迹序列之间的潜在距离,并根据潜在距离挖掘出位置社交网络中潜在的用户社区。/n

【技术特征摘要】
1.一种基于差分隐私的用户社区挖掘方法,其特征在于,其步骤如下:
步骤一:根据用户的原始移动轨迹将泛化移动轨迹序列分段为泛化轨迹段,并构建泛化轨迹段的距离函数;
步骤二:从地理空间和语义空间上分别量化泛化轨迹段之间的相似度权重,并根据相似度权重构建最优泛化轨迹段选取模型;
步骤三:利用生成算法对最优泛化轨迹段选取模型进行优化,得到泛化后的轨迹序列,其中,生成算法包括位置泛化矩阵生成算法和轨迹序列函数生成算法,位置泛化矩阵生成算法是将基于拉普拉斯分布的噪声添加至位置泛化矩阵生成阶段,轨迹序列函数生成算法是将基于指数分布的噪声添加至轨迹序列函数生成阶段;
步骤四:将泛化后的轨迹序列发布到中心服务器,中心服务器根据轨迹之间的语义距离与地理距离计算两条轨迹序列之间的潜在距离,并根据潜在距离挖掘出位置社交网络中潜在的用户社区。


2.根据权利要求1所述的基于差分隐私的用户社区挖掘方法,其特征在于,所述将泛化移动轨迹序列分段为泛化轨迹段的方法为:按照用户访问位置的时间先后顺序,将原始的轨迹序列T划分为k个轨迹段Lij;根据原始轨迹序列的划分方式,将原始轨迹序列对应的泛化移动轨迹序列T*划分为k个泛化的轨迹段


3.根据权利要求2所述的基于差分隐私的用户社区挖掘方法,其特征在于,所述泛化轨迹段的距离函数的构建方法为:
构建原始轨迹段Lij与泛化轨迹段之间的垂直距离平行距离和夹角距离分别为:









其中,loci代表一个用户的真实位置点,代表位置loci对应的泛化位置点;表示从真实位置点loci到真实位置点loci+1的向量,表示从泛化位置点到泛化位置点的向量;d⊥1表示真实位置点loci到轨迹段的距离,d⊥2表示真实位置点loci+1到轨迹段的距离;d||1表示从映射点loc′i到泛化位置点与从映射点loc′i到泛化位置点的欧氏距离的最小值,d||2表示从映射点loc′j到泛化位置点与从映射点loc′j到泛化位置点的欧氏距离的最小值;表示轨迹段Lij的长度,θi表示原始轨迹段Lij与泛化轨迹段之间的夹角;loc′i表示真实位置点loci在轨迹段上的映射点,loc′j表示真实位置点locj在轨迹段上的映射点;
构建原始轨迹段Lij与泛化轨迹段之间的地理距离



其中,ω⊥表示垂直距离的权重值,ω||表示平行距离的权重值,ωθ表示夹角距离的权重值。


4.根据权利要求3所述的基于差分隐私的用户社区挖掘方法,其特征在于,所述从地理空间和语义空间上分别量化泛化轨迹段之间的相似度权重的方法为:
计算地理空间上的泛化轨迹段之间的相似度权重:



其中,ci表示地理空间相似性的权重,表示位置点loci泛化到位置点的概率;
计算语义空间上的泛化轨迹段之间的相似度权重:



其中,cij表示语义空间相似性的权重。


5.根据权利要求4所述的基于差分隐私的用户社区挖掘方法,其特征在于,所述最优泛化轨迹段选取模型的构建方法为:
令表示位置点loci的集合,表示轨迹段Lij的集合,对应的表示泛化位置点与的集合,对应的表示泛化轨迹段的集合;定义两个决策变量如下:






其中,Xi表示泛化位置点选取的决策变量,Yij表示泛化轨迹段选取的决策变量,表示泛化位置点与泛化位置点组成的轨迹段;
构建的最优泛化轨迹段选取模型如下:



其中,表示集合中不包含元素i的集合,即:


6.根据权利要求5所述的基于差分隐私的用户社区挖掘方法,其特征在于,将基于拉普拉斯分布的噪声添加至位置泛化矩阵生成阶段的方法为:
计算一个位置点loci泛化为另一个位置点的概率,如果位置点loci与位置点属于同一个语义类型,则其泛化概率为1,如果位置点loci与位置点属于不同的语义类型,则其泛化概率为0,从而生成初始的位置泛化矩阵其中,H(i1,j1)表示地理空间相似性的权重,i1=1,2,…,N,j1=...

【专利技术属性】
技术研发人员:朱亮蔡增玉余丽萍张建伟刘啸威冯媛张卓王景超
申请(专利权)人:郑州轻工业大学
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1