基于一致性特征的非交互式差分隐私发布模型的优化方法技术

技术编号:14558142 阅读:170 留言:0更新日期:2017-02-05 12:35
本发明专利技术提出了一种基于一致性特征的非交互式差分隐私发布模型的优化方法,其先为数据集的每个属性建立体现匿名层次的抽象树结构,作为划分原始数据集的依据;所有抽象树的根节点集合组成初始化的划分区间,把原始数据集归入其中,然后自顶向下依次不重复地选取一个属性作为划分依据,按照这个属性的抽象树结构产生下一层区间集,并划分数据集,依次类推直到事先定义的算法迭代次数,最终生成一棵构造树,并在叶节点处加拉普拉斯噪音;接着利用节点间的一致性特性,运行噪音优化算法f,使得在满足差分隐私保护的前提下,用父节点做应答的方式替代子节点组合的计算模式,大幅度减轻发布数据集对于范围查询类应用的噪音叠加问题。本发明专利技术有效的地缓解了范围计数类查询中的噪音叠加问题,并且符合差分隐私保护的定义,减少了隐私保护的代价,有效提高了发布数据在后续应用中的可用性。

An optimization method of non interactive privacy assignment model based on consistency

The invention provides a non interactive difference based on the feature of privacy points publishing model optimization method, each attribute data set for the first building reflects the abstract tree structure anonymous level, as the division of the original data set for the root node; all abstract tree set is divided into interval initialization, the original data set in order not to repeat the top-down and an attribute as the division basis, according to the abstract tree structure of this property has a layer of interval sets, and partition the data set, the number of iterations until the algorithm defined by analogy, eventually forming a tree structure, and in leaf nodes and then use the Laplasse noise; the characteristics of consistency between nodes, running noise optimization algorithm of F, so as to achieve the privacy protection under the premise of bad points, do response with the parent node This paper presents a new algorithm to replace the child node combination, which can greatly reduce the noise superposition problem of the application of the data set. The invention can effectively alleviate the noise problem of superposition range counting query, and meets definitions of privacy protection, privacy protection to reduce the cost, improve the availability of data released in subsequent applications.

【技术实现步骤摘要】

本专利技术涉及计算机数据挖掘、机器学习、数据隐私保护等领域。具体来讲,是一种利用数据关系间的一致性减少不必要的噪音引入,针对范围查询频繁的应用类型,提升非交互式差分隐私框架下发布数据的可用性。
技术介绍
数据应用领域中的数据隐私保护问题越来越引起关注。对于数据拥有者而言,数据中所包含的隐私信息是在数据发布中特别需要注重和保护的问题。传统的保护方式虽然能保护数据的隐私信息,但是它们都是基于特殊的攻击假设和背景知识,一旦攻击者掌握了某些隐私数据的前景信息或者进行组合攻击的时候,传统的隐私保护方法就变得不那么安全可靠了。差分隐私已经成为了新的隐私保护模型,它提供了强有力的隐私保障,通过在隐私数据中添加适当的噪音达到保护的目的,而不管攻击者拥有多少的隐私数据相关的背景知识和攻击手段。很多的算法和应用是对加噪数据的后续利用,这对于差分隐私框架在对隐私数据的处理上提出了新的要求,仅仅为了保护隐私可能会打破数据的内在联系,并且对于后续的范围查询类应用而言,与查询项成正比的噪音叠加现象会使得发布出的数据可用性大大降低。如何提升发布数据在后续分析应用的准确度成了差分隐私框架研究的一个关键。差分隐私的形式化定义如下:定义1:数据集D和D′,二者互相之间至多相差一条记录,即|DΔD′|≤1.给定一个随机算法δ,O为δ上任意一个可能的输出。若算法δ在数据集D和D′上的任意输出满足下列不等式,则δ满足差分隐私.Pr[δ(D)=O]≤eε×Pr[δ(D’)=O]其中,概率Pr[·]由算法δ的随机性控制,也表示隐私被披露的风险;隐私预算参数ε表示隐私保护程度,ε越小隐私保护程度越高.从定义1可以看出差分隐私技术限制了任意一条记录对算法δ输出结果的影响.该定义是从理论角度确保算法δ满足ε差分隐私,而要实现差分隐私保护需要噪音机制的介入。噪音机制是实现差分隐私保护的主要技术,拉普拉斯机制与指数机制是被广泛使用的加噪机制,他们都与敏感性(Sensitive)定义密切相关.敏感性表示了修改数据集中一个条目所能发生的最大改变。定义2.数据集D和D′,二者互相之间至多相差一条记录,即|DΔD′|≤1。对于任意一个函数:f:D→Rd,函数f的全局敏感性S(f)为:S(f)=maxD,D,||f(D)-f(D,)||p]]>其中,R表示所映射的实数空间,d表示函数f的查询维度,p表示度量S(f)使用的Lp距离,通常使用L1来度量.拉普拉斯机制通过产生满足拉普拉斯分布的噪音来扰动真实输出值以实现差分隐私保护。定理1.对于任一个函数f:D→Rd,若算法δ的输出结果满足下列等式,则δ满足ε差分隐私.δ(D)=f(D)+<Lap1(S(f)/ε),…,Lapd(S(f)/ε)>其中,Lapi(S(f)/ε)(1≤i≤d)是相互独立的拉普拉斯变量,噪音量大小与S(f)成正比,与ε成反比.算法δ的全局敏感性越大,所需噪音越大.指数机制能处理离散属性和连续属性,通过设计打分函数,对每个属性进行打分,按照与分值成正比的概率选择输出属性。数据拥有者在对数据进行差分隐私处理时,主要有两种分布方式——交互式和非交互式框架。在交互式框架中,用户每次通过接口向数据拥有者发送查询请求,数据库返回相应满足差分隐私的请求应答。在非交互式框架中,数据拥有者一次性将所有数据用满足差分隐私的算法进行处理,然后全部发布给用户查询使用。本专利技术是基于后一个框架。对于用户的一些范围计数类查询的应用,比如查询年龄属性在20-50岁范围内的计数情况,而此属性粒度是为10岁,那么就要对20,30,40,50岁的条目进行累加处理。由于加入了噪音,显然在这个过程中发生了噪音的叠加。随着数据集维度和数据列联表稀疏度的影响,对于范围计数类查询来说,噪音的叠加结果可能会接近真是计数值,甚至超过真实值。这会使得到的查询结果可用性大大降低。
技术实现思路
鉴于范围计数类查询产生的噪音叠加问题,本专利技术提出一种基于一致性特征的非交互式差分隐私发布模型的优化方法,对原有的非交互式差分隐私发布模型进行优化,减轻单项条目组合时的噪音叠加问题,减少多余的噪音,提升结果可用性。本专利技术的技术解决方案如下:一种基于一致性特征的非交互式差分隐私发布模型的优化方法,包括以下步骤:步骤1、为每个属性定义具有匿名层级关系的抽象树结构,每个父节点概括了其子节点集,并且定义划分迭代次数上限;步骤2、选取所有属性的抽象树的根节点集合作为构造树的根节点,所有原数据项都包含在这个节点中;从根节点开始,自顶向下地建树,每次迭代不重复地选取一个属性作为划分依据,按照这个属性的抽象树结构产生对应的子区间作为下层的子节点集,同时划分原数据项到相应的区间上;依次类推构建下层新节点并划分归纳原数据项,直到达到迭代次数,得到构造树,其每个叶节点是同一类匿名结果的数据项集合。划分属性的选择依据采用符合差分隐私的指数机制。步骤3、用满足差分隐私的拉普拉斯机制对构造树的叶节点的数据项条目计数加噪,运行不影响差分隐私的调整算法f,自底向上对落在叶节点的噪音进行调整,使其散布在所有节点上。步骤4、在调整算法f中,基于父子节点对之间的一致性特性,先通过后序遍历再通过先序遍历构造树对噪音进行调整;步骤5、用叶节点计数值的累加代表对父节点所表示区间的范围查询,根据叶节点上的条目计数值发布新数据集,直接供用户使用。与现有技术相比,本专利技术的有益效果如下:1.有效的地降低了范围计数类查询中的噪音叠加,随着计数范围的增加,此数据准确性较为平稳,起伏细微。并且随着属性抽象层级的增加,在发布出的新数据集稀疏度减小,数据计数变得稀疏的情况下,此数据受影响程度甚小,依旧保持较为平稳的增长。2.由于发布出的新数据集具有了一致性特性,因此可采用原先简洁的发布模式——仅发布落在构造树叶节点的数据条目作为发布数据集,不必发布内部节点的计数值情况。3.分类精度无论从理论上还是实际应用角度都高于现有的非交互式数据分类方法。附图说明图1是交互式框架结构示意图;图2是非交互式框架结构示意图;图3是本专利技术基于一致性特征的非交互式差分隐私发布模型的优化方法的流程图;图4是属性的抽象树结构示例;图5-1调整前状态图;图5-2调整中状态图;图5-3调整后状态图。具体实施方法以下将结合附图对本专利技术的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本专利技术的目的、特征和效果。图1是交互式差分隐私保护框架,当用户提交查询请本文档来自技高网
...

【技术保护点】
基于一致性特征的非交互式差分隐私发布模型的优化方法,其特征在于:基于匿名化的数据保护算法,先为数据集的每个属性建立体现匿名层次的抽象树结构,由所有抽象树的根节点集合组成初始化的划分区间,把原始数据集归入其中,然后自顶向下依次不重复地选取一个属性作为划分依据,按照这个属性的抽象树结构产生下一层区间集,并划分数据集,依次类推直到事先定义的算法迭代次数,最终生成一棵构造树,并在叶节点处加拉普拉斯噪音;接着自底向上,根据一致性特性,把叶节点上的噪音散布到构造树的所有节点上,根据叶节点上的条目计数值发布新数据集,直接供用户使用。

【技术特征摘要】
1.基于一致性特征的非交互式差分隐私发布模型的优化方法,其特征在于:基于匿名化的数
据保护算法,先为数据集的每个属性建立体现匿名层次的抽象树结构,由所有抽象树的根节点集
合组成初始化的划分区间,把原始数据集归入其中,然后自顶向下依次不重复地选取一个属性作
为划分依据,按照这个属性的抽象树结构产生下一层区间集,并划分数据集,依次类推直到事先
定义的算法迭代次数,最终生成一棵构造树,并在叶节点处加拉普拉斯噪音;接着自底向上,根
据一致性特性,把叶节点上的噪音散布到构造树的所有节点上,根据叶节点上的条目计数值发布
新数据集,直接供用户使用。
2.根据权利要求1所述的基于一致性特征的非交互式差分隐私发布模型的优化方法,其特征
在于,具体包括以下步骤:
步骤1、为每个属性定义具有匿名层级关系的抽象树结构,每个父节点概括了其子节点集,
并且定义划分迭代次数上限;
步骤2、...

【专利技术属性】
技术研发人员:钱磊宋涛姚建国梁阿磊马汝辉管海兵
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1