一种基于条件概率分布的隐私保护数据发布方法技术

技术编号：20725589 阅读：22 留言：0更新日期：2019-03-30 17:50

本发明专利技术属于信息安全隐私保护技术领域，是一种基于条件概率分布的隐私保护数据发布方法。根据条件概率分布对攻击者的先验知识进行建模，让攻击者在不同事务中具有不同的先验知识；然后利用构建的模型和准标识符属性值，对每条记录的敏感属性值进行预测，并用预测值替换原始值后进行发布。发布的敏感属性预测值与原始值没有直接相关性，有效保护了用户数据隐私；预测的敏感属性值分布与真实的分布近似，有效控制了分布误差，确保其发布数据集比泛化及随机应答方法发布的数据集可用性更好。本发明专利技术能为医疗、金融、生信、交通等各个社会领域的数据发布提供隐私保护机制，在保护用户数据隐私的同时，为数据在科学研究和社会服务中的应用提供支撑。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于条件概率分布的隐私保护数据发布方法
本专利技术属于信息安全隐私保护
，具体涉及数据发布场景中隐私保护方法。
技术介绍
隐私保护研究的目标就是寻求一些数据处理方法，实现既不妨碍第三方访问带有敏感信息的数据集，同时又避免隐私信息的泄露。举例来说，医院掌握有大量病患医疗数据，一方面，允许研究者对这些数据进行分析与挖掘，可以促进医疗与健康事业的发展；另一方面，在公开这些数据的同时，个人隐私(如病人所患疾病等)应当受到保护。简单地从数据集中删除个人身份信息，切断个体与敏感信息间的联系，远不足以保护数据隐私，因为如果附加一定的背景知识(如其他的数据源)，攻击者可以通过数据集中能够近似确定用户身份信息的准标识符属性(Quasi-IdentifierAttribute)，如邮编，年龄，性别等，与背景知识进行连接，经过推理获得目标对象的敏感属性(SensitiveAttribute)信息，即隐私信息。这种攻击方式就是链接攻击。为解决上述问题，在数据发布前把原始数据转换成某种安全形式，是保护隐私的有效途径。输入扰动是进行数据转换的常用方法，其核心思想是通过对整个数据集进行匿名化处理后，发布一个数据集的匿名化版本来实现。匿名化处理删除或扰动了输入数据集中的个人隐私数据，使得攻击者无法找到关于个人的任何隐私信息。输入扰动主要包括泛化(Generalization)和随机应答(RandomizedResponse)两种技术。1.泛化技术泛化是发布隐私数据集的一种常用方法，其主要思想是将数据集中的准标识符属性值模糊化(如将上海模糊化为中国，将特定值13模糊化为区间[9,...

【技术保护点】
1.一种基于条件概率分布的隐私保护数据发布方法，其特征在于，根据条件概率分布对攻击者的先验知识进行建模，让攻击者在不同事务中具有不同的先验知识；然后利用构建的模型和准标识符属性(QIA)值，对每条记录的敏感属性(SA)值进行预测，并替换原有敏感属性值后得到发布数据集；用T表示一个拥有n条数据记录的输入数据集，T拥有dQI个准标识符属性

【技术特征摘要】
1.一种基于条件概率分布的隐私保护数据发布方法，其特征在于，根据条件概率分布对攻击者的先验知识进行建模，让攻击者在不同事务中具有不同的先验知识；然后利用构建的模型和准标识符属性(QIA)值，对每条记录的敏感属性(SA)值进行预测，并替换原有敏感属性值后得到发布数据集；用T表示一个拥有n条数据记录的输入数据集，T拥有dQI个准标识符属性和dS个敏感值属性并记A＝AQI∪AS，d＝dQI+dS；用t[A′]表示属性集在一个记录t上的属性值；用T′表示与数据集T相对应的一个发布数据集，T′和T具有相同的记录类型或关系模式，但和T相比，T′的敏感属性值是按照一定规则扰动后得到的；以数据记录即元组为单位，使用敏感属性在准标识符属性值上的条件概率分布p(AS|AQI)，通过机器学习的方法对数据记录t(t∈T)的基准分布即先验知识进行建模；然后利用该模型,对已知准标识符属性值的记录t，预测其敏感属性值；在计算数据记录t的基准分布时，从对应的训练数据中删除记录t，然后训练得到模型M(t),再使用模型M(t)预测记录t的敏感属性值，这样记录t的基准分布M(t)(AS|t[AQI])与t的真实敏感属性值是条件独立的，没有相关性。2.根据权利要求1所述的基于条件概率分布的隐私保护数据发布方法，其特征在于，所采用的机器学习模型是灵活的，所述模型是一个多分类器，并且能够输出预测概率；如果敏感属性取值是离散的，则模型采用朴素贝叶斯模型、对数回归、支持向量机、贝叶斯网络、决策树以及任何由boosting算法计算的分类器；如果敏感属性取值是连续的，则选择核模型。3.根据权利要求2所述的基于条件概率分布的隐私保护数据发布方法，其特征在于，对于单敏感属性算法、多敏感属性算法以及多敏感属性改进算法，具体流程为：(1)单敏感属性算法这里只考虑数据集有一个敏感属性的情况，即：dS＝1；算法包括两个阶段：第一阶段，遍历输入数据集T中的每条记录，并计算相应的基...

【专利技术属性】
技术研发人员：周水庚，关佶红，刘朝斌，
申请(专利权)人：复旦大学，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人