一种社交网络关系数据隐私保护方法及系统技术方案

技术编号:21300145 阅读:34 留言:0更新日期:2019-06-12 08:04
本发明专利技术提供了一种社交网络关系数据隐私保护方法及系统,该方法包括:获取社交网络数据图;根据社交网络数据图,获取用户属性向量集;根据用户属性向量集,采用Skyline方法计算用户隐私泄露等级;根据用户隐私泄露等级,对社交网络数据图进行分组,获得多个数据子图;对各数据子图采用不同的阈值进行抽样,获取抽样后的数据子图;对各采样后的数据子图进行整合,获得整合后的数据图;对整合后的数据图进行加噪处理,获取加噪后的数据图,并将加噪后的数据图进行发布。本发明专利技术中为每个数据子图设定不同的采样阈值,以实现不同用户的差分隐私保护,更有针对性,在保证数据安全性的同时更提高了数据的可用性。

A Privacy Protection Method and System for Relational Data in Social Networks

The invention provides a privacy protection method and system for social network relational data, which includes: acquiring social network data graph; acquiring user attribute vector set according to social network data graph; calculating user privacy leak level using Skyline method according to user attribute vector set; grouping social network data graph according to user privacy leak level, and obtaining more. Data sub-graphs; Sampling data sub-graphs with different thresholds to obtain the sampled data sub-graphs; Integrating the sampled data sub-graphs to obtain the integrated data sub-graphs; Noising the integrated data graphs to obtain the noised data graphs, and publishing the noised data graphs. In the invention, different sampling thresholds are set for each data subgraph to realize differential privacy protection for different users, which is more pertinent and improves data availability while ensuring data security.

【技术实现步骤摘要】
一种社交网络关系数据隐私保护方法及系统
本专利技术涉及数据隐私保护
,特别是涉及一种社交网络关系数据隐私保护方法及系统。
技术介绍
随着互联网的普及与发展,围绕用户和用户关系的社交网络在世界范围内迅猛发展,社交网络为用户提供信息分享和信息交流的同时,也可能会产生用户隐私泄露的风险,社交网络隐私信息可以分为两种:一种隐私是用户敏感信息隐私,比如用户的手机号码、家庭住址、疾病、收入等;另一种隐私是社交网络关系隐私,即社交网络中人与人之间的连接关系信息,如亲属关系,同学关系。在社交网络中上述隐私之间往往相互关联、相互影响,无论是哪种类型隐私信息的披露都可能会使个人的隐私受到威胁。因此,如何更好地在社交网络中保护用户隐私,成为当前大众关注的焦点。目前的数据隐私保护局限于为所有用户提供相同级别的隐私保护,但实际生活中并非所有用户都需要相同的隐私级别。因此,亟待一种能够实现对不同用户隐私进行差别的保护,避免对那些不需要太高隐私级别的用户提供过多的隐私保护。
技术实现思路
基于此,有必要提供一种社交网络关系数据隐私保护方法及系统,以实现不同用户的差分隐私保护。为实现上述目的,本专利技术提供了如下方案:一种社交网络关系数据隐私保护方法,所述方法包括:获取社交网络数据图;根据所述社交网络数据图,获取用户属性向量集;根据所述用户属性向量集,采用Skyline方法计算用户隐私泄露等级;根据所述用户隐私泄露等级,对所述社交网络数据图进行分组,获得多个数据子图;对各所述数据子图采用不同的阈值进行抽样,获取抽样后的数据子图,所述抽样后的数据子图为从所述数据子图中抽取的样本构成的数据图;对各所述采样后的数据子图进行整合,获得整合后的数据图;对所述整合后的数据图进行加噪处理,获取加噪后的数据图,并将加噪后的数据图进行发布。可选的,所述方法还包括:对加噪后的数据图采用差分隐私进行验证,具体包括:设有随机算法M,Range(M)表示算法M生成的所有结果集,对于数据集D、D′和若满足Pr[M(D)∈O]≤eε·Pr[M(D′)∈O],则数据进行发布,其中,D表示社交网络数据图,D′表示加噪后的数据图,概率Pr由算法M确定,表示隐私被披露的风险,参数ε称为隐私保护预算,ε=min{Qi,Qj},Qi表示第i个用户的隐私要求,Qj表示第j个用户的隐私要求,1≤i≤N,1≤j≤N,N表示所述社交网络数据图中用户的个数。可选的,所述根据社交网络数据图,获取用户属性向量集,具体包括:计算用户在一跳内连接的用户数量,记为第一跳连接点数量;计算用户在两跳内连接的用户数量,记为第二跳连接点数量;根据所述第一跳连接点数量和用户隐私要求,计算邻接点威胁等级其中,Ti表示第i个用户的邻接点威胁等级,Qj表示第j个用户的隐私要求,CFP1j表示第j个用户第一跳连接点数量,1≤i≤N,1≤j≤N,N表示所述社交网络数据图中用户的个数。可选的,所述对各所述数据子图采用不同的阈值进行抽样,获取抽样后的数据子图,具体包括:在第一阈值t下,计算各边被抽取的概率:其中,eij表示第i个用户和第j个用户的边,t表示第一阈值,P(eij,t)表示eij在阈值t时被抽到的概率,minQv≤t≤maxQv,Qi表示第i个用户的隐私要求,Qj表示第j个用户的隐私要求,1≤i≤N,1≤j≤N,Qv表示社交网络数据图中所有用户的隐私要求;根据所述边被抽取的概率P(eij,t)和第二阈值S(k)进行抽样,若P(eij,t)小于S(k),则该边被删除,其中S(k)表示第k个数据子图的阈值,1≤k≤R,R表示数据子图的个数。可选的,所述对所述整合后的数据图采用拉普拉斯机制或指数机制进行加噪处理,获取加噪后的数据图。可选的,所述系统包括:数据获取模块,用于获取社交网络数据图;数据处理模块,用于根据所述社交网络数据图,获取用户属性向量集;用户隐私泄露等级计算模块,用于根据所述用户属性向量集,采用Skyline方法计算用户隐私泄露等级;分组模块,用于根据所述用户隐私泄露等级,对所述社交网络数据图进行分组,获得多个数据子图;抽样模块,用于对各所述数据子图采用不同的阈值进行抽样,获取抽样后的数据子图,所述抽样后的数据子图为从所述数据子图中抽取的样本构成的数据图;数据整合模块,用于对各所述采样后的数据子图进行整合,获得整合后的数据图;加噪模块,用于对所述整合后的数据图进行加噪处理,获取加噪后的数据图,并将加噪后的数据图进行发布。可选的,所述系统还包括:验证模块,用于对加噪后的数据图采用差分隐私进行验证,设有随机算法M,Range(M)表示算法M生成的所有结果集,对于数据集D、D′和若满足Pr[M(D)∈O]≤eε·Pr[M(D′)∈O],则数据进行发布,其中,D表示社交网络数据图,D′表示加噪后的数据图,概率Pr由算法M确定,表示隐私被披露的风险,参数ε称为隐私保护预算,ε=min{Qi,Qj},Qi表示第i个用户的隐私要求,Qj表示第j个用户的隐私要求,1≤i≤N,1≤j≤N,N表示所述社交网络数据图中用户的个数。可选的,所述数据处理模块,具体包括:计算用户在一跳内连接的用户数量,记为第一跳连接点数量;计算用户在两跳内连接的用户数量,记为第二跳连接点数量;根据所述第一跳连接点数量和用户隐私要求,计算邻接点威胁等级其中,Ti表示第i个用户的邻接点威胁等级,Qj表示第j个用户的隐私要求,CFP1j表示第j个用户第一跳连接点数量,1≤i≤N,1≤j≤N,N表示所述社交网络图数据中用户的个数。可选的,所述抽样模块,具体包括:在第一阈值t下,计算各边被抽取的概率:其中,eij表示第i个用户和第j个用户的边,t表示第一阈值,P(eij,t)表示eij在阈值t时被抽到的概率,minQv≤t≤maxQv,Qi表示第i个用户的隐私要求,Qj表示第j个用户的隐私要求,1≤i≤N,1≤j≤N,Qv表示社交网络数据图中所有用户的隐私要求;根据所述边被抽取的概率P(eij,t)和第二阈值S(k)进行抽样,若P(eij,t)小于S(k),则该边被删除,其中S(k)表示第k个数据子图的阈值,1≤k≤R,R表示数据子图的个数。可选的,所述加噪模块,具体包括:对所述整合后的数据图采用拉普拉斯机制或指数机制进行加噪处理,获取加噪后的数据图。根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:本专利技术中为每个数据子图设定不同的采样阈值,然后对采样后的数据进行加噪处理,以实现不同用户的差分隐私保护,更有针对性,在保证数据安全性的同时更提高了数据的可用性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例一种社交网络关系数据隐私保护方法的流程图;图2为本专利技术实施例一种社交网络关系数据隐私保护系统的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳本文档来自技高网...

【技术保护点】
1.一种社交网络关系数据隐私保护方法,其特征在于,所述方法包括:获取社交网络数据图;根据所述社交网络数据图,获取用户属性向量集;根据所述用户属性向量集,采用Skyline方法计算用户隐私泄露等级;根据所述用户隐私泄露等级,对所述社交网络数据图进行分组,获得多个数据子图;对各所述数据子图采用不同的阈值进行抽样,获取抽样后的数据子图,所述抽样后的数据子图为从所述数据子图中抽取的样本构成的数据图;对各所述采样后的数据子图进行整合,获得整合后的数据图;对所述整合后的数据图进行加噪处理,获取加噪后的数据图,并将加噪后的数据图进行发布。

【技术特征摘要】
1.一种社交网络关系数据隐私保护方法,其特征在于,所述方法包括:获取社交网络数据图;根据所述社交网络数据图,获取用户属性向量集;根据所述用户属性向量集,采用Skyline方法计算用户隐私泄露等级;根据所述用户隐私泄露等级,对所述社交网络数据图进行分组,获得多个数据子图;对各所述数据子图采用不同的阈值进行抽样,获取抽样后的数据子图,所述抽样后的数据子图为从所述数据子图中抽取的样本构成的数据图;对各所述采样后的数据子图进行整合,获得整合后的数据图;对所述整合后的数据图进行加噪处理,获取加噪后的数据图,并将加噪后的数据图进行发布。2.根据权利要求1所述的社交网络关系数据隐私保护方法,其特征在于,所述方法还包括:对加噪后的数据图采用差分隐私进行验证,具体包括:设有随机算法M,Range(M)表示算法M生成的所有结果集,对于数据集D、D′和若满足Pr[M(D)∈O]≤eε·Pr[M(D′)∈O],则数据进行发布,其中,D表示社交网络数据图,D′表示加噪后的数据图,概率Pr由算法M确定,表示隐私被披露的风险,参数ε称为隐私保护预算,ε=min{Qi,Qj},Qi表示第i个用户的隐私要求,Qj表示第j个用户的隐私要求,1≤i≤N,1≤j≤N,N表示所述社交网络数据图中用户的个数。3.根据权利要求1所述的社交网络关系数据隐私保护方法,其特征在于,所述根据社交网络数据图,获取用户属性向量集,具体包括:计算用户在一跳内连接的用户数量,记为第一跳连接点数量;计算用户在两跳内连接的用户数量,记为第二跳连接点数量;根据所述第一跳连接点数量和用户隐私要求,计算邻接点威胁等级其中,Ti表示第i个用户的邻接点威胁等级,Qj表示第j个用户的隐私要求,CFP1j表示第j个用户第一跳连接点数量,1≤i≤N,1≤j≤N,N表示所述社交网络数据图中用户的个数。4.根据权利要求1所述的社交网络关系数据隐私保护方法,其特征在于,所述对各所述数据子图采用不同的阈值进行抽样,获取抽样后的数据子图,具体包括:在第一阈值t下,计算各边被抽取的概率:其中,eij表示第i个用户和第j个用户的边,t表示第一阈值,P(eij,t)表示eij在阈值t时被抽到的概率,minQv≤t≤maxQv,Qi表示第i个用户的隐私要求,Qj表示第j个用户的隐私要求,1≤i≤N,1≤j≤N,Qv表示社交网络数据图中所有用户的隐私要求;根据所述边被抽取的概率P(eij,t)和第二阈值S(k)进行抽样,若P(eij,t)小于S(k),则该边被删除,其中S(k)表示第k个数据子图的阈值,1≤k≤R,R表示数据子图的个数。5.根据权利要求1所述的社交网络关系数据隐私保护方法,其特征在于,所述对所述整合后的数据图采用拉普拉斯机制或指数机制进行加噪处理,获取加噪后的数据图。6.一种社交网络关系数据隐私保护系统...

【专利技术属性】
技术研发人员:康海燕张书旋
申请(专利权)人:北京信息科技大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1