一种基于l‑diversity规则和MDAV算法的处理大数据的方法技术

技术编号:16428199 阅读:155 留言:0更新日期:2017-10-21 23:29
本发明专利技术属于数据库的隐私保护技术领域,公开了一种基于l‑diversity规则和MDAV算法的处理大数据的方法,改进MDAV算法,生成新算法“(l,d,e)‑MDAV算法”算法,使其相较于MDAV在保证算法效率高、信息损失小的同时能抵御同志攻击并有较低的信息泄漏风险。通过实验证明新算法在处理数据表的匿名化有较好的效果。本发明专利技术人为给定的与质心的差异值,具有个性化的进一步研究价值。用户可以根据自身保密程度的需求设定e值的大小,能够起到最大化的隐私保护,最小化的泄密风险。

A method for processing data of L diversity and rules based on MDAV algorithm

The invention belongs to the technical field of privacy protection database, and discloses a method for processing data of L diversity and rules based on MDAV algorithm, improved MDAV algorithm, a new algorithm of creating \(L, D, e) algorithm, the MDAV algorithm compared to MDAV algorithm while ensuring the high efficiency, the loss of information small Comrade can resist attacks and a lower risk of leakage of information. Experiments show that the new algorithm has better effect in processing data table anonymity. The invention has the value of further research for the difference between the given centroid and the centroid. Users can set the value of e according to their own confidentiality level, which can maximize the privacy protection and minimize the risk of leakage.

【技术实现步骤摘要】
一种基于l-diversity规则和MDAV算法的处理大数据的方法
本专利技术属于数据发布中的隐私安全
,基于l-diversity规则和MDAV算法,提出一种基于l-diversity规则和MDAV算法的处理大数据的方法。
技术介绍
数据发布中的隐私保护问题最早在统计泄密控制领域被提出,之后才开始逐步渗透到整个信息
在统计泄密控制领域,主要采用微聚集、随机化、样本化、添加白噪声等方法实现信息的保护,在尽量保证处理后数据的数据统计性和可用性以及隐私信息安全的同时,保留更多的有用信息,平衡兼顾数据保密性和可用性的关系。经过多年来的发展,数据中发布的隐私保护技术主要围绕两方面进行研究,一面是面向用户的隐私保护技术,另一面是针对数据库的隐私保护技术。面向用户的隐私保护技术主要是以用户的权益为核心,保护用户发布的隐私数据安全,这种保护方法是个人用户在发布信息时或对信息进行增改减时,为数据提供的安全保护。面向数据库的隐私保护技术是通过对数据进行一定程度的修饰来隐藏真实的数据,从而保障数据在传输过程中不被黑客攻击或者窃取。当前,针对数据库的隐私保护技术主要有三类方法。第一类,基于数据失真的隐私保护技术,这类技术主要是对原始数据进行扰动处理从而实现隐私保护,可是扰动后数据的可用性非常低;第二类,基于数据加密的隐私保护技术,这类技术主要应用在分布式环境下,解决不同服务器之间信息传递的安全性,多用基于密码学来保证隐私的安全,这种方法会产生较大的运算量,对数据库的信息处理能力要求比较高;第三类,匿名化保护,用的最多的就是k-匿名技术,该技术是通过对个人姓名、身份证号、学号等个人显示标识符进行加密或隐匿而达到对隐私数据保密的目的,但是常常攻击者也可能通过使用数据链接的方法推测出隐私信息。数据表的k-匿名是目前数据发布中最主要的隐私保护方法。1998年,L.SweeneyandP.Samarati提出了k-匿名的概念。2002年,Sweeney发表文章,在文献中对k匿名技术作了更为细致的阐述,k-匿名模型作为一种较为完善的隐私保护算法渐渐引起信息安全领域许多学者的关注,并得到了广泛的研究和应用。至今为止,经过十多年的研究,k-匿名技术有了更多的优化和改进。但是,由于k-匿名算法本身的弊端,不能有效阻止标识符属性泄露,甚至不能阻止同质性攻击和背景知识攻击。文献中提出了优化的k-匿名算法,但是,优化的k-匿名问题是NP难题,也就是说,很难实现泛化和隐匿技术最优组合。所以众多学者各抒己见,如Machanavajjhala等人提出了L-多样性隐私保护方法,要求分组后每个等价类中的敏感属性值至少要有l个;Wong等人提出了(a,k)-anonymity匿名模型,要求每个等价类的敏感值频率不大于a;Li等人提出了t-closeness框架,该方法要求每个等价类中敏感值的分布要接近于其在原始数据表中的分布。在国内,也有不少专家学者在这一领域做出来很多成绩。以上的这些研究算法主要集中在研究泛化隐匿技术的k-匿名化实现,LuxemburgEurostat等都提出泛化/隐匿技术存在许多不足,主要有泛化取值不合理、计算复杂度高和对数值型数据不适用等问题。在动态数据或者多敏感属性的数据中,目前没有能够避免敏感值的分级泄露的隐私保护模型,也没有能够保护有序分类和无序分类这两种分类方法的隐私模型。在处理数值型数据时,泛化/隐匿技术把数值型数据和分类型数据做相同的处理,这样做对分类型数据没有影响,但是对数值型数据就丢失了数值语义。此外,泛化/隐匿技术需要定义数据的泛化抽象层次和区间,对于数值型数据来说定义泛化层次和进行层次泛化的效率很低。微聚集技术最早用于统计泄密控制(SDC)领域,近年来,Domingo-Fewer等人将该技术引入到对数据表进行k-匿名的处理上来,弥补了泛化/隐匿技术在匿名化数值型属性上的不足。微聚集算法即通过某种启发式算法将数据集划分为若干个等价类,每个等价类要求至少包含k个不同的元组,并要求等价类间数据最大.程度地相异,类内数据最大程度地近似,采用等价类的类质心取代等价类内所有元组实现k-匿名的算法。综上所述,本专利技术的解决的技术问题是:现有的l-diversity规则有效的规避了k-匿名不能抵御同志攻击的问题,但它依然具备k-匿名算法时间复杂度高,计算时间长,信息损失量大的问题。MDAV算法是经典的定长微聚集算法,它有着算法效率高、信息损失量小的优点,但MDAV算法由于数据集聚类后,类内元组相似度高,会遭到同志攻击,从而泄漏隐私信息。于是提出(l,d,e)-MDAV算法,做到以上两者的取长补短,既能保持MDAV算法的高效性和低信息损失量又能具备l-diversity规则能抵御同志攻击的能力。
技术实现思路
针对现有技术存在的问题,本专利技术提供了一种基于l-diversity规则和MDAV算法的处理大数据的方法。本专利技术是这样实现的,一种基于l-diversity规则和MDAV算法的处理大数据的方法,所述基于l-diversity规则和MDAV算法的处理大数据的方法以下步骤:(1)计算整个数据集的中心点,即数据集的平均值计算距离最远的元组记录r;计算距离r最远的元组记录s;(2)以r为中心,计算距离r最近的k-1条记录,计算这k条记录准标识符的质心。计算等价组中敏感属性值的个数,若不足l个做如下处理:计算距离等价组最近的元组,观察其敏感属性,记为A,看A是否在等价组中出现过,若没有出现过,添加该元组,若出现过,继续搜索最近的元组,直到找到合适的元组添加进来。继续搜索周边的元组,计算其敏感属性值与内质心的差异值,看其是否大于等于e,满足条件加入该元组,直到加入d个这样的元组。最后用质心取代这k条记录;(3)以s为中心,计算距离s最近的k-1条记录。计算这k条记录准标识符的质心。计算等价组中敏感属性值的个数,若不足l个做如下处理:计算距离等价组最近的元组,观察其敏感属性,记为A,看A是否在等价组中出现过,若没有出现过,添加该元组,若出现过,继续搜索最近的元组,直到找到合适的元组添加进来。继续搜索周边的元组,计算其敏感属性值与内质心的差异值,看其是否大于等于e,满足条件加入该元组,直到加入d个这样的元组。最后用质心取代这k条记录;(4)若剩余元组数大于等于2k,则继续执行步骤(1)~(3);(5)若剩余元组数介于[k,2k-1]之间,将这些记录自成一类,否则分别计算每个元组距离最近的类,并将其加入该类中;(6)将剩余的不足k条记录隐匿。进一步,所述基于l-diversity规则和MDAV算法的处理大数据的方法进一步包括:输入:包含n条记录的数据表T,准标识符QI,匿名参数k,参数d,敏感属性差异参数e。输出:(l,d,e)-MDAV匿名表T'。进一步,所述(l,d,e)-MDAV算法要求数据集划分等价类后,每个等价类至少包含l个属性值不同的敏感属性,还要求额外添加d个与等价组质心差异值大于等e的元组。进一步,所述基于l-diversity规则和MDAV算法的处理大数据的方法进一步包括:约束了敏感属性值的差异,要求不但有l个表现良好的敏感属性,还要求有d个属性值差异大于等e的元组。进一步,所述基于l-diversity规则和M本文档来自技高网
...
一种<a href="http://www.xjishu.com/zhuanli/55/201710273786.html" title="一种基于l‑diversity规则和MDAV算法的处理大数据的方法原文来自X技术">基于l‑diversity规则和MDAV算法的处理大数据的方法</a>

【技术保护点】
一种基于l‑diversity规则和MDAV算法的处理大数据的方法,其特征在于,所述基于l‑diversity规则和MDAV算法的处理大数据的方法以下步骤:(1)计算整个数据集的中心点,即数据集的平均值

【技术特征摘要】
1.一种基于l-diversity规则和MDAV算法的处理大数据的方法,其特征在于,所述基于l-diversity规则和MDAV算法的处理大数据的方法以下步骤:(1)计算整个数据集的中心点,即数据集的平均值计算距离最远的元组记录r;计算距离r最远的元组记录s;(2)以r为中心,计算距离r最近的k-1条记录,计算这k条记录准标识符的质心;(3)以s为中心,计算距离s最近的k-1条记录,计算这k条记录准标识符的质心;(4)若剩余元组数大于等于2k,则继续执行步骤(1)~(3);(5)若剩余元组数介于[k,2k-1]之间,将这些记录自成一类,否则分别计算每个元组距离最近的类,并将其加入该类中;(6)将剩余的不足k条记录隐匿。2.如权利要求1所述的基于满足二次聚集的MLDM算法的处理大数据时的方法,其特征在于,所述基于l-diversity规则和MDAV算法的处理大数据的方法进一步包括:输入:包含n条记录的数据表T,准标识符QI,匿名参数k,参数d,敏感属性差异参数e;输出:(l,d,e)-MDAV匿名表T'。3.如权利要求1所述的基于满足二次聚集的MLDM算法的处理大数据时的方法,其特征在于,所述(l,d,e)-MDAV算法要求数据集划分等价类后,每个等价类至少包含l个属性值不同的敏感属性,还要求额外添加d个与等价组质心差异值大于等e的元组。4.如权利要求1所述的基于满足二次聚集的MLDM算法的处理大数据时的方法,其特征在于,所述基于l-diversity规则和MDAV算法的处理大数据的方法进一步包括:约束了敏感属性值的差异,要求不但有l个表...

【专利技术属性】
技术研发人员:李晖吴良俊
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1