一种基于l‑diversity规则和MDAV算法的处理大数据的方法技术

技术编号：16428199 阅读：155 留言：0更新日期：2017-10-21 23:29

本发明专利技术属于数据库的隐私保护技术领域，公开了一种基于l‑diversity规则和MDAV算法的处理大数据的方法，改进MDAV算法，生成新算法“(l,d,e)‑MDAV算法”算法，使其相较于MDAV在保证算法效率高、信息损失小的同时能抵御同志攻击并有较低的信息泄漏风险。通过实验证明新算法在处理数据表的匿名化有较好的效果。本发明专利技术人为给定的与质心的差异值，具有个性化的进一步研究价值。用户可以根据自身保密程度的需求设定e值的大小，能够起到最大化的隐私保护，最小化的泄密风险。

A method for processing data of L diversity and rules based on MDAV algorithm

The invention belongs to the technical field of privacy protection database, and discloses a method for processing data of L diversity and rules based on MDAV algorithm, improved MDAV algorithm, a new algorithm of creating \(L, D, e) algorithm, the MDAV algorithm compared to MDAV algorithm while ensuring the high efficiency, the loss of information small Comrade can resist attacks and a lower risk of leakage of information. Experiments show that the new algorithm has better effect in processing data table anonymity. The invention has the value of further research for the difference between the given centroid and the centroid. Users can set the value of e according to their own confidentiality level, which can maximize the privacy protection and minimize the risk of leakage.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于l-diversity规则和MDAV算法的处理大数据的方法
本专利技术属于数据发布中的隐私安全
，基于l-diversity规则和MDAV算法，提出一种基于l-diversity规则和MDAV算法的处理大数据的方法。
技术介绍
数据发布中的隐私保护问题最早在统计泄密控制领域被提出，之后才开始逐步渗透到整个信息
在统计泄密控制领域，主要采用微聚集、随机化、样本化、添加白噪声等方法实现信息的保护，在尽量保证处理后数据的数据统计性和可用性以及隐私信息安全的同时，保留更多的有用信息，平衡兼顾数据保密性和可用性的关系。经过多年来的发展，数据中发布的隐私保护技术主要围绕两方面进行研究，一面是面向用户的隐私保护技术，另一面是针对数据库的隐私保护技术。面向用户的隐私保护技术主要是以用户的权益为核心，保护用户发布的隐私数据安全，这种保护方法是个人用户在发布信息时或对信息进行增改减时，为数据提供的安全保护。面向数据库的隐私保护技术是通过对数据进行一定程度的修饰来隐藏真实的数据，从而保障数据在传输过程中不被黑客攻击或者窃取。当前，针对数据库的隐私保护技术主要有三类方法。第一类，基于数据失真的隐私保护技术，这类技术主要是对原始数据进行扰动处理从而实现隐私保护，可是扰动后数据的可用性非常低；第二类，基于数据加密的隐私保护技术，这类技术主要应用在分布式环境下，解决不同服务器之间信息传递的安全性，多用基于密码学来保证隐私的安全，这种方法会产生较大的运算量，对数据库的信息处理能力要求比较高；第三类，匿名化保护，用的最多的就是k-匿名技术，该技术是通过对个人姓名、身份...
一种<a href="http://www.xjishu.com/zhuanli/55/201710273786.html" title="一种基于l‑diversity规则和MDAV算法的处理大数据的方法原文来自X技术">基于l‑diversity规则和MDAV算法的处理大数据的方法</a>

【技术保护点】
一种基于l‑diversity规则和MDAV算法的处理大数据的方法，其特征在于，所述基于l‑diversity规则和MDAV算法的处理大数据的方法以下步骤：(1)计算整个数据集的中心点，即数据集的平均值

【技术特征摘要】
1.一种基于l-diversity规则和MDAV算法的处理大数据的方法，其特征在于，所述基于l-diversity规则和MDAV算法的处理大数据的方法以下步骤：(1)计算整个数据集的中心点，即数据集的平均值计算距离最远的元组记录r；计算距离r最远的元组记录s；(2)以r为中心，计算距离r最近的k-1条记录，计算这k条记录准标识符的质心；(3)以s为中心，计算距离s最近的k-1条记录，计算这k条记录准标识符的质心；(4)若剩余元组数大于等于2k，则继续执行步骤(1)～(3)；(5)若剩余元组数介于[k,2k-1]之间，将这些记录自成一类，否则分别计算每个元组距离最近的类，并将其加入该类中；(6)将剩余的不足k条记录隐匿。2.如权利要求1所述的基于满足二次聚集的MLDM算法的处理大数据时的方法，其特征在于，所述基于l-diversity规则和MDAV算法的处理大数据的方法进一步包括：输入：包含n条记录的数据表T，准标识符QI，匿名参数k，参数d,敏感属性差异参数e；输出：(l,d,e)-MDAV匿名表T'。3.如权利要求1所述的基于满足二次聚集的MLDM算法的处理大数据时的方法，其特征在于，所述(l,d,e)-MDAV算法要求数据集划分等价类后，每个等价类至少包含l个属性值不同的敏感属性，还要求额外添加d个与等价组质心差异值大于等e的元组。4.如权利要求1所述的基于满足二次聚集的MLDM算法的处理大数据时的方法，其特征在于，所述基于l-diversity规则和MDAV算法的处理大数据的方法进一步包括：约束了敏感属性值的差异，要求不但有l个表...

【专利技术属性】
技术研发人员：李晖，吴良俊，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：陕西,61

全部详细技术资料下载我是这个专利的主人