The invention provides a non interactive difference based on the feature of privacy points publishing model optimization method, each attribute data set for the first building reflects the abstract tree structure anonymous level, as the division of the original data set for the root node; all abstract tree set is divided into interval initialization, the original data set in order not to repeat the top-down and an attribute as the division basis, according to the abstract tree structure of this property has a layer of interval sets, and partition the data set, the number of iterations until the algorithm defined by analogy, eventually forming a tree structure, and in leaf nodes and then use the Laplasse noise; the characteristics of consistency between nodes, running noise optimization algorithm of F, so as to achieve the privacy protection under the premise of bad points, do response with the parent node This paper presents a new algorithm to replace the child node combination, which can greatly reduce the noise superposition problem of the application of the data set. The invention can effectively alleviate the noise problem of superposition range counting query, and meets definitions of privacy protection, privacy protection to reduce the cost, improve the availability of data released in subsequent applications.
【技术实现步骤摘要】
本专利技术涉及计算机数据挖掘、机器学习、数据隐私保护等领域。具体来讲,是一种利用数据关系间的一致性减少不必要的噪音引入,针对范围查询频繁的应用类型,提升非交互式差分隐私框架下发布数据的可用性。
技术介绍
数据应用领域中的数据隐私保护问题越来越引起关注。对于数据拥有者而言,数据中所包含的隐私信息是在数据发布中特别需要注重和保护的问题。传统的保护方式虽然能保护数据的隐私信息,但是它们都是基于特殊的攻击假设和背景知识,一旦攻击者掌握了某些隐私数据的前景信息或者进行组合攻击的时候,传统的隐私保护方法就变得不那么安全可靠了。差分隐私已经成为了新的隐私保护模型,它提供了强有力的隐私保障,通过在隐私数据中添加适当的噪音达到保护的目的,而不管攻击者拥有多少的隐私数据相关的背景知识和攻击手段。很多的算法和应用是对加噪数据的后续利用,这对于差分隐私框架在对隐私数据的处理上提出了新的要求,仅仅为了保护隐私可能会打破数据的内在联系,并且对于后续的范围查询类应用而言,与查询项成正比的噪音叠加现象会使得发布出的数据可用性大大降低。如何提升发布数据在后续分析应用的准确度成了差分隐私框架研究的一个关键。差分隐私的形式化定义如下:定义1:数据集D和D′,二者互相之间至多相差一条记录,即|DΔD′|≤1.给定一个随机算法δ,O为δ上任意一个可能的输出。若算法δ在数据集D和D′上的任意输出满足下列不等式,则δ满足差分隐私.Pr[δ(D)=O] ...
【技术保护点】
基于一致性特征的非交互式差分隐私发布模型的优化方法,其特征在于:基于匿名化的数据保护算法,先为数据集的每个属性建立体现匿名层次的抽象树结构,由所有抽象树的根节点集合组成初始化的划分区间,把原始数据集归入其中,然后自顶向下依次不重复地选取一个属性作为划分依据,按照这个属性的抽象树结构产生下一层区间集,并划分数据集,依次类推直到事先定义的算法迭代次数,最终生成一棵构造树,并在叶节点处加拉普拉斯噪音;接着自底向上,根据一致性特性,把叶节点上的噪音散布到构造树的所有节点上,根据叶节点上的条目计数值发布新数据集,直接供用户使用。
【技术特征摘要】
1.基于一致性特征的非交互式差分隐私发布模型的优化方法,其特征在于:基于匿名化的数
据保护算法,先为数据集的每个属性建立体现匿名层次的抽象树结构,由所有抽象树的根节点集
合组成初始化的划分区间,把原始数据集归入其中,然后自顶向下依次不重复地选取一个属性作
为划分依据,按照这个属性的抽象树结构产生下一层区间集,并划分数据集,依次类推直到事先
定义的算法迭代次数,最终生成一棵构造树,并在叶节点处加拉普拉斯噪音;接着自底向上,根
据一致性特性,把叶节点上的噪音散布到构造树的所有节点上,根据叶节点上的条目计数值发布
新数据集,直接供用户使用。
2.根据权利要求1所述的基于一致性特征的非交互式差分隐私发布模型的优化方法,其特征
在于,具体包括以下步骤:
步骤1、为每个属性定义具有匿名层级关系的抽象树结构,每个父节点概括了其子节点集,
并且定义划分迭代次数上限;
步骤2、...
【专利技术属性】
技术研发人员:钱磊,宋涛,姚建国,梁阿磊,马汝辉,管海兵,
申请(专利权)人:上海交通大学,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。