当前位置: 首页 > 专利查询>复旦大学专利>正文

一种基于条件概率分布的隐私保护数据发布方法技术

技术编号:20725589 阅读:22 留言:0更新日期:2019-03-30 17:50
本发明专利技术属于信息安全隐私保护技术领域,是一种基于条件概率分布的隐私保护数据发布方法。根据条件概率分布对攻击者的先验知识进行建模,让攻击者在不同事务中具有不同的先验知识;然后利用构建的模型和准标识符属性值,对每条记录的敏感属性值进行预测,并用预测值替换原始值后进行发布。发布的敏感属性预测值与原始值没有直接相关性,有效保护了用户数据隐私;预测的敏感属性值分布与真实的分布近似,有效控制了分布误差,确保其发布数据集比泛化及随机应答方法发布的数据集可用性更好。本发明专利技术能为医疗、金融、生信、交通等各个社会领域的数据发布提供隐私保护机制,在保护用户数据隐私的同时,为数据在科学研究和社会服务中的应用提供支撑。

【技术实现步骤摘要】
一种基于条件概率分布的隐私保护数据发布方法
本专利技术属于信息安全隐私保护
,具体涉及数据发布场景中隐私保护方法。
技术介绍
隐私保护研究的目标就是寻求一些数据处理方法,实现既不妨碍第三方访问带有敏感信息的数据集,同时又避免隐私信息的泄露。举例来说,医院掌握有大量病患医疗数据,一方面,允许研究者对这些数据进行分析与挖掘,可以促进医疗与健康事业的发展;另一方面,在公开这些数据的同时,个人隐私(如病人所患疾病等)应当受到保护。简单地从数据集中删除个人身份信息,切断个体与敏感信息间的联系,远不足以保护数据隐私,因为如果附加一定的背景知识(如其他的数据源),攻击者可以通过数据集中能够近似确定用户身份信息的准标识符属性(Quasi-IdentifierAttribute),如邮编,年龄,性别等,与背景知识进行连接,经过推理获得目标对象的敏感属性(SensitiveAttribute)信息,即隐私信息。这种攻击方式就是链接攻击。为解决上述问题,在数据发布前把原始数据转换成某种安全形式,是保护隐私的有效途径。输入扰动是进行数据转换的常用方法,其核心思想是通过对整个数据集进行匿名化处理后,发布一个数据集的匿名化版本来实现。匿名化处理删除或扰动了输入数据集中的个人隐私数据,使得攻击者无法找到关于个人的任何隐私信息。输入扰动主要包括泛化(Generalization)和随机应答(RandomizedResponse)两种技术。1.泛化技术泛化是发布隐私数据集的一种常用方法,其主要思想是将数据集中的准标识符属性值模糊化(如将上海模糊化为中国,将特定值13模糊化为区间[9,16]),并将数据集划分为不同的等价类(EquivalenceClasses),每个等价类中数据记录的准标识属性值均相同,无法区分,以防止攻击者将这些数据与个人隐私信息建立联系。k-匿名方法是泛化技术的典型代表,其要求在准标识符属性上,发布数据集中的每条记录都至少与数据集中的其他k-1条记录不可区分。l-多样性和t-相近性方法作为k-匿名方法的改进与延伸,当数据集包含敏感属性时,被用来保护用户的敏感属性值隐私,让攻击者无法将特定的敏感属性值与某个目标主体建立联系。虽然泛化方法成功解决了隐私保护的许多问题,但在实际应用过程中还存在以下不足:(1)为了达到隐私保护的目的,l-多样性和t-相近性方法对每个等价类中敏感属性值的分布进行了特定限制,约束了对数据空间划分的灵活性,进而影响数据的查询精度。同时,l-多样性和t-相近性方法均假定攻击者在所有事务中的先验知识都相同,忽略了攻击者所具备的公共常识等先验知识,从而容易导致隐私泄露;(2)泛化后的数据集采用非标准的形式进行发布,让许多现有的数据挖掘工具无法对数据进行复杂分析;(3)泛化方法的隐私保护分析往往局限于一次发布的情形。事实上,一个查询事务往往涉及多个的数据集,即使某一个发布的数据集没有泄露个人隐私,但是将多个发布的数据集进行连接组合,可能导致隐私泄露;(4)许多泛化方法要求用户为隐私控制参数进行取值,这给用户提供了充分的灵活性,但同时也使用户陷入困境。数据发布者往往趋向于选择很强的隐私保护约束,最大限度地降低法律风险,导致数据效用(即:数据可用性)较差。2.随机应答技术随机应答的主要思想是对每一个敏感属性值进行随机扰动,在保护个人隐私不被泄露的同时,通过扰动的随机性和扰动幅度的约束,让整个数据集的统计特征及规律得以适度保持,为数据的研究与应用支持。γ-放大(γ-amplification)是这类方法对数据扰动幅度进行限制的典型参数,它限制了任意两个输入值之间的最大似然比。这类方法一般基于可能性分析对查询进行评估,以表征方法的有效性及误差。但是随机应答方法存在以下不足:(1)对敏感属性值的扰动完全随机,容易导致发布数据集的数据分布与原始数据集的数据分布误差较大,使得数据效用较差;(2)与泛化方法一样,需要对隐私控制参数进行取值,让用户陷入选择困境。
技术实现思路
针对上述问题,本专利技术的目的在于提供一种能够有效保护用户数据隐私的隐私保护数据发布方法。本专利技术提出的隐私保护数据发布方法,是基于条件概率分布模型的,其做法是,根据条件概率分布对攻击者的先验知识进行建模,让攻击者在不同事务中具有不同的先验知识。然后利用构建的模型和准标识符属性(Quasi-IdentifierAttribute,QIA)值,对每条记录的敏感属性(SensitiveAttribute,SA)值进行预测,并替换原有敏感属性值后得到发布数据集。这样一方面发布的敏感属性值是预测值,不是原始属性值,从而有效保护用户数据隐私;另一方面预测的敏感属性值分布与真实的分布将会非常接近,从而有效控制分布误差,确保发布数据集的高可用性。为表述方便,下面用T表示一个拥有n条数据记录的输入数据集,T拥有dQI个准标识符属性和dS个敏感值属性并记A=AQI∪AS,d=dQI+dS;用t[A′]表示属性集在一个记录t上的属性值;用T′表示与数据集T相对应的一个发布数据集,T′和T具有相同的记录类型(或关系模式),但和T相比,T′的敏感属性值是按照一定规则扰动后得到的。每个事务在数据集中都对应一个与其相关的数据记录集合,不同事务对应的数据记录集合往往不同。因此,任何事务的基准分布都可以看作是与其相关的每条数据记录基准分布的组合,得到数据集中每条数据记录的基准分布,就能得到与该数据集相关的所有事务的基准分布。按照这个思路,本专利技术以数据记录(即:元组)为单位,使用敏感属性在准标识符属性值上的条件概率分布p(AS|AQI),通过机器学习的方法对数据记录t(t∈T)的基准分布(即:先验知识)进行建模;然后利用该模型,对已知准标识符属性值的记录t,预测其敏感属性值。需要说明的是,条件概率模型往往会对训练数据过度拟合,当我们使用一个过度拟合的模型,对一个存在于训练数据中的记录t进行预测时,记录t的真实敏感属性值往往会以偏高的概率被预测,从而导致隐私的泄露。因此,本专利技术在计算数据记录t的基准分布时,从对应的训练数据中删除记录t,然后训练得到模型M(t),然后使用模型M(t)预测记录t的敏感属性值。这样记录t的基准分布M(t)(AS|t[AQI])与t的真实敏感属性值是条件独立的,没有相关性。本专利技术所基于的条件概率分布模型,让不同事务具有不同的基准分布,实现用不均匀的基准分布对攻击者先验知识进行建模,准确反映输入数据集的数据分布规律,有效克服l-多样性和t-相近性方法假定不同事务具有相同基准分布的不足。本专利技术所采用的机器学习模型是灵活的,不局限于特定的类型。一般来说,模型是一个多分类器,并且能够输出预测概率。如果敏感属性取值是离散的,如性别,籍贯等,那么模型就是个分类器,它可以是朴素贝叶斯模型、对数回归、支持向量机(SVM)、贝叶斯网络、决策树以及任何由boosting算法计算的分类器。如果敏感属性取值是连续的,可以选择核模型。本专利技术支持单敏感属性和多敏感属性的情形,其发布数据集的敏感属性值都是基于学习获得的基准分布模型进行预测的,一方面,预测后的数值均经过随机扰动,与原始值没有直接相关性,能够有效保护用户数据隐私;另一方面,保证发布数据集的敏感属性值分布与原始数据集的分本文档来自技高网
...

【技术保护点】
1.一种基于条件概率分布的隐私保护数据发布方法,其特征在于,根据条件概率分布对攻击者的先验知识进行建模,让攻击者在不同事务中具有不同的先验知识;然后利用构建的模型和准标识符属性(QIA)值,对每条记录的敏感属性(SA)值进行预测,并替换原有敏感属性值后得到发布数据集;用T表示一个拥有n条数据记录的输入数据集,T拥有dQI个准标识符属性

【技术特征摘要】
1.一种基于条件概率分布的隐私保护数据发布方法,其特征在于,根据条件概率分布对攻击者的先验知识进行建模,让攻击者在不同事务中具有不同的先验知识;然后利用构建的模型和准标识符属性(QIA)值,对每条记录的敏感属性(SA)值进行预测,并替换原有敏感属性值后得到发布数据集;用T表示一个拥有n条数据记录的输入数据集,T拥有dQI个准标识符属性和dS个敏感值属性并记A=AQI∪AS,d=dQI+dS;用t[A′]表示属性集在一个记录t上的属性值;用T′表示与数据集T相对应的一个发布数据集,T′和T具有相同的记录类型或关系模式,但和T相比,T′的敏感属性值是按照一定规则扰动后得到的;以数据记录即元组为单位,使用敏感属性在准标识符属性值上的条件概率分布p(AS|AQI),通过机器学习的方法对数据记录t(t∈T)的基准分布即先验知识进行建模;然后利用该模型,对已知准标识符属性值的记录t,预测其敏感属性值;在计算数据记录t的基准分布时,从对应的训练数据中删除记录t,然后训练得到模型M(t),再使用模型M(t)预测记录t的敏感属性值,这样记录t的基准分布M(t)(AS|t[AQI])与t的真实敏感属性值是条件独立的,没有相关性。2.根据权利要求1所述的基于条件概率分布的隐私保护数据发布方法,其特征在于,所采用的机器学习模型是灵活的,所述模型是一个多分类器,并且能够输出预测概率;如果敏感属性取值是离散的,则模型采用朴素贝叶斯模型、对数回归、支持向量机、贝叶斯网络、决策树以及任何由boosting算法计算的分类器;如果敏感属性取值是连续的,则选择核模型。3.根据权利要求2所述的基于条件概率分布的隐私保护数据发布方法,其特征在于,对于单敏感属性算法、多敏感属性算法以及多敏感属性改进算法,具体流程为:(1)单敏感属性算法这里只考虑数据集有一个敏感属性的情况,即:dS=1;算法包括两个阶段:第一阶段,遍历输入数据集T中的每条记录,并计算相应的基...

【专利技术属性】
技术研发人员:周水庚关佶红刘朝斌
申请(专利权)人:复旦大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1