图数据发布的随机化隐私保护方法技术

技术编号:15250789 阅读:200 留言:0更新日期:2017-05-02 13:55
本发明专利技术公开一种图数据发布的随机化隐私保护方法,通过随机化扰动的方法对图数据进行处理,经过本发明专利技术处理后的数据能够共享发布给不特定第三方,而不会侵犯数据所含用户的隐私信息。同时,经过本发明专利技术处理后的图数据还具有较好的概率分布特性,能够根据隐私保护力度要求灵活的调整相关参数。

Random privacy protection method for graph data release

The invention discloses a release of the graph data privacy protection method of randomization, map data processing through the method of randomized perturbation, after treated by the invention can share the data release is not specific to the third party, but does not infringe on the privacy of users information contained in data. At the same time, the data processed by the invention has better probability distribution characteristics, and can flexibly adjust the relevant parameters according to the requirements of privacy protection.

【技术实现步骤摘要】

本专利技术涉及数据发布
,具体涉及一种图数据发布的随机化隐私保护方法
技术介绍
图数据可以用来描述物种之间的捕食关系,词与词之间的语义联系,计算机之间的网络联接,科研文章之间的引用关系,以及交通流量关系,甚至人类情感关系。当图数据中的实体结点涉及到人时,若直接发布数据或不当的共享给第三方,可能会产生隐私泄露问题。如攻击者如果知道被攻击对象有两个朋友,而发布数据中具有两个朋友的结点只有一个,则能够在发布的数据中重定位目标结点。因此需要在数据发布前对数据进行处理,以保护数据中用户的隐私不被泄露。
技术实现思路
本专利技术所要解决的技术问题是现有数据发布存在隐私泄露的问题,提供一种图数据发布的随机化隐私保护方法。为解决上述问题,本专利技术是通过以下技术方案实现的:图数据发布的随机化隐私保护方法,包括如下步骤:步骤1、设定扰动参数p,其中0<p<1;步骤2、计算图数据中不存的边添加到图数据中的概率q,式中,|E|为图数据中边的数目;N为完全图包含的边的数目,N=n*(n-1)/2,n为图数据中结点的个数;p为扰动参数;步骤3、获得原始的图数据的邻接矩阵,并生成邻接矩阵的上三角矩阵;步骤4、对于步骤2所得的上三角矩阵中的每条存在的边进行成功概率为p的伯努利实验,得到基于存在边扰动的上三角矩阵;步骤5、对于步骤2所得到的上三角矩阵中的每条不存在的边进行成功概率为q的伯努利实验,得到基于不存在边扰动的上三角矩阵;步骤6、将步骤4得到的基于存在边扰动的上三角矩阵和步骤5得到的基于不存在边扰动的上三角矩阵进行叠加融合,得到最终扰动的上三角矩阵;步骤7、根据步骤6得到的最终扰动的上三角矩阵生成新的邻接矩阵,并由此获得匿名后的图数据。在步骤1中,扰动参数p可以直接人为设定;也可以通过以下步骤自适应获得:步骤1.1、设定隐私保护力度r和扰动参数变化的步长a,并初始化扰动参数p和临时变量priv;步骤1.2、根据下式计算图数据的每个结点的隐私泄露风险,式中,Risk(vi|di,p)表示度为di的结点在扰动参数p的条件下的隐私泄露风险;P(Z=di|di)表示度为di的结点在随机扰动后其度保持不变的概率;表示原来度不为di的结点在随机扰动后其度变为di的概率;步骤1.3、选取临时变量priv和隐私泄露风险Risk(vi|di,p)中较小的值作为新的临时变量priv;步骤1.4、如果新的临时变量priv大于隐私保护力度r,则输出当前扰动参数p;否则,将当前扰动参数p递增步长a,并返回步骤1.2。步骤1.1中,扰动参数p的初始值等于步长a。步骤1.1中,扰动参数p的初始值为0.05,临时变量priv的初始值为0,步长a为0.05。步骤3中,上三角矩阵中的非零项同图数据中的存在条边一一对应;上三角矩阵中的零项同图数据中不存在的边一一对应。与现有技术相比,本专利技术提供一种随机方式的数据扰动方法,经过本专利技术处理后的数据能够共享发布给不特定第三方,而不会侵犯数据所含用户的隐私信息。同时,经过本专利技术处理后的图数据还具有较好的概率分布特性,能够根据隐私保护力度要求灵活的调整相关参数。附图说明图1为原始图数据。具体实施方式本实施例以图1所示原始图络数据为例,对所提出的随机化的图数据发布隐私保护方法进行说明。图1所示的原始图数据为简单无向图数据G=(V,E),其中V为参与网络的实体,E为实体间的关系。在计算机中常用邻接矩阵存储和处理图数据。邻接矩阵A=[aij]是一个n×n的0-1矩阵,其中当结点vi和vj间有边时aij=1,否则aij=0。图1所示的原始图数据即图数据G对应的邻接矩阵A的矩阵表示为:邻接矩阵A是一个对称矩阵,数据中的每条边对应矩阵的中两个对称非零项。为了实现本专利技术的随机扰动算法,引入上三角矩阵B。上三角矩阵B由邻接矩阵A采用截取对角线以上部分的方式生成,则上三角矩阵B的矩阵表示为:上三角矩阵B中的非零项同图数据G中的存在条边一一对应。上三角矩阵B中的零项同图数据G中不存在的边一一对应。一种图数据发布的随机化隐私保护方法,包括如下步骤:步骤1、设定扰动参数p,其中0<p<1;扰动参数p可以直接人为设定;也可以通过以下步骤自适应获得:步骤1.1、设定隐私保护力度r和扰动参数变化的步长a,并初始化扰动参数p和临时变量priv;扰动参数p的初始值等于步长a。在本实施例中,扰动参数p的初始值为0.05,临时变量priv的初始值为0,步长a为0.05。步骤1.2、根据下式计算图数据的每个结点的隐私泄露风险,式中,Risk(vi|di,p)表示度为di的结点在扰动参数p的条件下的隐私泄露风险;P(Z=di|di)表示度为di的结点在随机扰动后其度保持不变的概率;表示原来度不为di的结点在随机扰动后其度变为di的概率。步骤1.3、选取临时变量priv和隐私泄露风险Risk(vi|di,p)中较小的值作为新的临时变量priv。步骤1.4、如果新的临时变量priv大于隐私保护力度r,则输出当前扰动参数p;否则,将当前扰动参数p递增步长a,并返回步骤1.2。步骤2、计算图数据中不存的边添加到图数据中的概率q,式中,|E|为图数据中边的数目;N为完全图包含的边的数目,N=n*(n-1)/2,n为图数据中结点的个数;p为扰动参数。步骤3、获得原始的图数据的邻接矩阵,并生成邻接矩阵的上三角矩阵。步骤4、对于步骤2所得的上三角矩阵中的每条存在的边进行成功概率为p的伯努利实验,得到基于存在边扰动的上三角矩阵。步骤5、对于步骤2所得到的上三角矩阵中的每条不存在的边进行成功概率为q的伯努利实验,得到基于不存在边扰动的上三角矩阵。步骤6、将步骤4得到的基于存在边扰动的上三角矩阵和步骤5得到的基于不存在边扰动的上三角矩阵进行叠加融合,得到最终扰动的上三角矩阵。步骤7、根据步骤6得到的最终扰动的上三角矩阵生成新的邻接矩阵,并由此获得匿名后的图数据。随机化的图数据发布隐私保护方法实现的伪代码如算法1如下所示:输入:图数据G的邻接矩阵A,扰动参数p;输出:匿名后的图G’对应的邻接矩阵A’。算法第1行由输入数据的邻接矩阵A生成上三角矩阵B,此步骤保证数据中的边同矩阵B中的非零值一一对应。算法第2行到第3行对矩阵B中的存在的边进行成功概率为p,0<p<1,的伯努利实验,即每次实验原来存在的边,有p的几率保持存在;同时记录实验结果用于生成返回值。算法第4行采用公式:计算q,其中0<q<1,N=|V|×(|V|-1)÷2;目的是为了使添加的边数的期望和删除的边数的期望相同。算法将采用成功率为q的伯努利实验对输入数据进行再次扰动。参数q为图数据中不存的边添加到数据中的概率。采用随机的方式删除了|E|*(1-p)条边,为了使发布的数据同原始数据边数的期望相同,所以要求添加的边数的期望(N-|E|)*q与之相等,可得q的表达式。E表示边的集合,||表示集合的势。算法第5行到第6行对矩阵B中的不存在的边进行成功概率为q伯努利实验,即每次实验原来不存在的边有q的几率被添加进来。第7行根据记录的实验结果准备返回数据。算法第8行返回数据并退出当前过程。攻击者根据背景知识对发布数据G’中的目标结点进行重识别攻击。本专利技术用符号P(B→V|G’本文档来自技高网...

【技术保护点】
图数据发布的随机化隐私保护方法,其特征是,包括如下步骤:步骤1、设定扰动参数p,其中0<p<1;步骤2、计算图数据中不存的边添加到图数据中的概率q,q=|E|×(1-p)N-|E|;]]>式中,|E|为图数据中边的数目;N为完全图包含的边的数目,N=n*(n‑1)/2,n为图数据中结点的个数;p为扰动参数;步骤3、获得原始的图数据的邻接矩阵,并生成邻接矩阵的上三角矩阵;步骤4、对于步骤2所得的上三角矩阵中的每条存在的边进行成功概率为p的伯努利实验,得到基于存在边扰动的上三角矩阵;步骤5、对于步骤2所得到的上三角矩阵中的每条不存在的边进行成功概率为q的伯努利实验,得到基于不存在边扰动的上三角矩阵;步骤6、将步骤4得到的基于存在边扰动的上三角矩阵和步骤5得到的基于不存在边扰动的上三角矩阵进行叠加融合,得到最终扰动的上三角矩阵;步骤7、根据步骤6得到的最终扰动的上三角矩阵生成新的邻接矩阵,并由此获得匿名后的图数据。

【技术特征摘要】
1.图数据发布的随机化隐私保护方法,其特征是,包括如下步骤:步骤1、设定扰动参数p,其中0<p<1;步骤2、计算图数据中不存的边添加到图数据中的概率q,q=|E|×(1-p)N-|E|;]]>式中,|E|为图数据中边的数目;N为完全图包含的边的数目,N=n*(n-1)/2,n为图数据中结点的个数;p为扰动参数;步骤3、获得原始的图数据的邻接矩阵,并生成邻接矩阵的上三角矩阵;步骤4、对于步骤2所得的上三角矩阵中的每条存在的边进行成功概率为p的伯努利实验,得到基于存在边扰动的上三角矩阵;步骤5、对于步骤2所得到的上三角矩阵中的每条不存在的边进行成功概率为q的伯努利实验,得到基于不存在边扰动的上三角矩阵;步骤6、将步骤4得到的基于存在边扰动的上三角矩阵和步骤5得到的基于不存在边扰动的上三角矩阵进行叠加融合,得到最终扰动的上三角矩阵;步骤7、根据步骤6得到的最终扰动的上三角矩阵生成新的邻接矩阵,并由此获得匿名后的图数据。2.根据权利要求1所述的图数据发布的随机化隐私保护方法,其特征是,包括如下步骤:步骤1中,扰动参数p直接设定。3.根据权利要求1所述的图数据发布的随机化隐私保护方法,其特征是,步骤1中,扰动参数p通过以下步骤自适应获得:步骤1.1、设定隐私保护力度r和扰动...

【专利技术属性】
技术研发人员:刘鹏李先贤王利娥
申请(专利权)人:广西师范大学
类型:发明
国别省市:广西;45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1