当前位置: 首页 > 专利查询>复旦大学专利>正文

一种高效的隐私保护子图查询处理方法技术

技术编号:20842400 阅读:25 留言:0更新日期:2019-04-13 08:43
本发明专利技术属于隐私保护技术领域,具体为一种高效的隐私保护子图查询处理方法。本发明专利技术利用k‑automorphism模型来保护属性图的结构隐私,并通过综合考虑属性的t‑closeness约束以及子图查询在图上的搜索空间来保护属性图的属性隐私,针对结构和属性隐私处理后的图,进一步提出高效的子图查询处理算法。本发明专利技术方法框架清晰、使用方便、可扩展性强,并在三个图数据集上的隐私保护和子图查询处理两大任务的结果上,都远远超过了现有方法。本发明专利技术能够为隐私保护图数据查询,图数据分析等涉及到隐私保护和图数据处理的领域,提供基础框架和算法的支持。

【技术实现步骤摘要】
一种高效的隐私保护子图查询处理方法
本专利技术属于隐私保护
,具体涉及一种高效的隐私保护子图查询处理方法。
技术介绍
目前,图已经被广泛用于表示半结构化数据之间的关系。属性图作为图的一种常见类型,由于其允许每个节点包含一组属性,因而在各种领域变得越来越流行,包括模式识别,计算机视觉,通信网络和社交网络。为了分析和检索图所包含的丰富的语义和结构信息,人们发布了各种各样的查询,其中最常见的就是子图查询。给定一个查询子图(QueryGraph或Query)和一个数据图(DataGraph或Graph),子图查询任务就是从数据图中检索所有与查询子图同构的子图结构。由于子图查询是图数据分析中不可或缺的一部分,越来越多的人对其展开了深入研究。但是,随着图数据规模的快速增长,存储、处理和分析它们将会耗费用户大量的计算以及非常昂贵的基础设施成本。针对大数据计算问题,知名的云服务提供商,如亚马逊AWS,阿里云和MicrosoftAzure为用户提供了云计算服务来避免用户各自去搭建一套大数据计算平台。GraphLab甚至提供了基于图的云计算服务。虽然云服务器通常被认为是“诚实”地返回图查询的正确结果,但其仍可能对所存储的图数据结构和属性隐私很感兴趣,继而造成图数据的隐私信息泄露。图数据的现有隐私泄露可以分为两类:属性隐私泄露和结构隐私泄露。属性隐私泄露指与每个节点相关联的敏感标签信息泄露,例如,工资,身份证号码,电话号码和病历数据等。这种标签信息属于表格数据,大量的隐私保护模型以及匿名算法针对这类数据展开了广泛的研究,其中最常见的就是k-匿名(k-anonymity),l-diversity和t-closeness。与k-anonymity和l-diversity相比,t-closeness可以抵抗更多的攻击,如相似性攻击。然而,针对图上的属性隐私保护问题,已有的工作仅采用了k-匿名和l-diversity,因此依然存在相似度攻击风险。结构隐私泄露指的是暴露目标节点的位置。这种隐私泄露风险可以由各种结构攻击造成,如度攻击,1-邻居攻击,子图攻击和hub-fingerprint攻击。针对这些攻击,许多结构隐私保护方法通过为图中的每个点引入高度对称的k-1个点来避免其位置信息泄露。在这些方法中,目前最流行也是隐私保护程度最高的模型就是k-automorphism模型。当然,为了满足高度对称性,这类模型通常需要引入大量的边,因而使得图的结构很大,而目前为止针对这类图的子图查询处理算法效率依旧得不到保障。因此,子图查询算法所面临的低效率问题也是目前亟待解决的。
技术实现思路
针对以上现有技术中的问题,本专利技术的目的在于提供一种高效的隐私保护子图查询处理方法。本专利技术提供的隐私保护子图查询处理方法,是通过同时保护图的结构隐私和属性隐私,同时对子图查询的搜索空间进行建模和优化,实现高效的隐私保护子图查询。主要包括:利用k-automorphism模型保护图的结构隐私;利用t-closeness模型保护图的属性隐私;构建优化目标,在满足t-closeness的约束下,最小化优化目标;提出高效查询处理算法。本专利技术中,隐私保护子图查询问题具体描述如下:给定一个查询子图Q和一个数据图G,在保证G的结构隐私信息和属性隐私信息不被泄露的情况下,高效地处理子图查询请求并返回正确的处理结果。本专利技术中,利用k-automorphism模型来保护属性图的结构隐私,并在满足属性的t-closeness约束的情况下,提出TOGGLE算法来最小化子图查询在图上的搜索空间;针对结构和属性隐私处理后的图,进一步提出了一种高效的子图查询处理算法(记为PGP)。本专利技术提供的隐私保护子图查询处理方法,具体步骤如下:(一)将原始的图通过k-automorphism模型构造成一个高度对称的图;对于给定的数据图G和查询子图Q,首先根据k-automorphism模型构造一个高度对称的图Gk,为了节省存储空间,一种有效的办法就是只上传Gk的一部分其中可以根据对称的特点重构出Gk。(二)采用TOGGLE算法建模搜索空间,并在满足t-closeness的约束下,求解优化方案,构造Label-LabelGroup的对应表(LabelCorrespondingTable),记作LCT:(1)估计子图查询搜索空间分别用V(Gk,τ),Vl(Gk,(τ,i)),以及Vg(Gk,(τ,j))来表示第τ个类型的点,该类型包含的第i个Label的点(记为lτ,i),以及该类型包含的第j个Labelgroup的点(记为Lτ,j),且可以分别用以及来表示这些点出现的概率,那么可得:同样地,若查询子图Q经过匿名化处理之后为则以及可表示对应的概率。如果在上能找到子图与其同构的话,那么显然中必须至少要有一个点能与中的第一个点q能够匹配,并且中的其他点也能被匹配到。此处一个点能被匹配,指的是在数据图中有一个点和查询点具有相同的类型(其概率可近似表示为),并包含有查询点的Labelgroup(其概率可近似表示为)。因此第一个点q能被匹配的个数大致可表示为:其他点能被匹配的个数大致可表示为:假设第τ个类型第j个Labelgroup中包含个Label,记为:其中表示该Labelgroup中第i个Label。综上所述,查询Q的最终搜索空间(被匹配的个数)正比于:由于查询图和数据图的Label分布通常属于同一个分布,因此可以认为最终的搜索空间正比于:(2)优化子图查询搜索空间为了优化子图查询搜索空间,需要找到最佳的Label组合成Labelgroup的方式,也就是:同时,为了保护属性隐私,每一个Labelgroup都被限定满足t-closeness约束,即:其中,EMD(,)是两个分布之间的EarthMoverDistance。因此优化搜索空间的目标被最终转为求解这个有约束的最优化问题。本专利技术将这个问题转化为一个广义的SetPartitioning的问题,并采用ColumnGeneration的思想来求解。具体分为以下几步:1)将目标函数构造成一个广义的SetPartitioning问题,即一个大整数规划问题;2)松弛整数约束,构造原问题的LinearProgrammingMaster(LPM)问题;3)为LPM问题找到一组基础可行解,并求得该问题的对偶最优解;4)根据对偶最优解,找到一个新的Labelgroup组合方式,使得原来的目标函数的目标值以最大的速度减小;5)将这个新的Labelgroup组合方式代入原始的LPM问题,继续求解。反复迭代3)和4)这两个步骤,直到寻找到最优解。(3)生成LabelCorrespondingTable。根据生成的Labelgroup,记录其所包含的Label,形成一对多的对应关系,所有的Labelgroup与其包含的Label构成最终的LabelCorrespondingTable。(三)根据LabelCorrespondingTable来更新k-automorphism处理后的图以及原始查询子图的Label,并将处理后的图的一部分上传至云服务器;具体来说:对和Q中的Label,分别通过查询LabelCorrespondingTable来得到每个点应该对应的Label本文档来自技高网
...

【技术保护点】
1.一种高效的隐私保护子图查询处理方法,其特征在于,具体步骤如下:(一)将原始的图通过k‑automorphism模型构造成一个高度对称的图:对于给定的数据图G和查询子图Q,根据k‑automorphism模型构造一个高度对称的图G

【技术特征摘要】
1.一种高效的隐私保护子图查询处理方法,其特征在于,具体步骤如下:(一)将原始的图通过k-automorphism模型构造成一个高度对称的图:对于给定的数据图G和查询子图Q,根据k-automorphism模型构造一个高度对称的图Gk,为了节省存储空间,只上传Gk的一部分其中可以根据对称的特点重构出Gk;(二)采用TOGGLE算法建模搜索空间,并在满足t-closeness的约束下,求解优化方案,构造Label-LabelGroup的对应表,记为LCT;(三)根据LCT更新k-automorphism处理后的图以及原始查询子图的Label,并将处理后的图的一部分上传至云服务器;具体来说:对和Q中的Label,分别通过查询LCT得到每个点应该对应的Labelgroup,并对点进行重新标注;将更新后的和Q(更新后为)上传到云服务器;(四)最后,采用PGP查询算法,处理子图查询请求,并返回查询结果。2.根据权利要求1所述的高效的隐私保护子图查询处理方法,其特征在于,步骤(二)中,所述构造LCT的具体流程如下:(1)估计子图查询搜索空间:分别用V(Gk,τ),Vl(Gk,(τ,i)),以及Vg(Gk,(τ,j))来表示第τ个类型的点,该类型包含的第i个Label的点,记为lτ,i,以及该类型包含的第j个Labelgroup的点,记为Lτ,j,且分别用以及来表示这些点出现的概率,那么得:同样地,若查询子图Q经过匿名化处理之后为则以及表示对应的概率;如果在上能找到子图与其同构的话,那么,中必须至少要有一个点能与中的第一个点q能够匹配,并且中的其他点也能被匹配到;此处一个点能被匹配,是指在数据图中有一个点和查询点具有相同的类型,并包含有查询点的Labelgroup;因此第一个点q能被匹配的个数表示为:其他点能被匹配的个数表示为:假设第τ个类型第j个Labelgroup中包含个Label,记为:其中表示该Labelgroup中第i个Label;综上所述,查询Q的最终搜索空间正比于:由于查询图和数据图的Label分布通常属于同...

【专利技术属性】
技术研发人员:周水庚黄凯胡海波关佶红
申请(专利权)人:复旦大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1