当前位置: 首页 > 专利查询>汪秀英专利>正文

一种基于大数据的数据发布隐私保护算法及系统技术方案

技术编号:26419146 阅读:14 留言:0更新日期:2020-11-20 14:14
本发明专利技术涉及一种数据隐私保护的技术领域,揭露了一种基于大数据的数据发布隐私保护算法,包括:获取待发布数据表,并根据待发布数据的属性值划分结果得到待发布数据的统计直方图;将待发布数据的统计直方图转换为k叉区间树,对k叉区间树添加噪声进行扰动,得到添加噪声后的区间树,并将添加噪声后的区间树近似转化为平均直方图;构建基于特征选择的集成分类函数;利用L‑BFGS优化算法对集成分类函数进行求解,得到待发布数据的分类结果;根据待发布数据的分类结果进行待发布数据的聚类,并利用基于聚类的个性化匿名算法进行数据隐私保护,同时进行隐私数据的发布。本发明专利技术还提出一种基于大数据的数据发布隐私保护系统。本发明专利技术实现了隐私数据的保护。

【技术实现步骤摘要】
一种基于大数据的数据发布隐私保护算法及系统
本专利技术涉及数据保护的
,尤其涉及一种基于大数据的数据发布隐私保护算法及系统。
技术介绍
随着互联网的普及,移动互联网的兴起,大数据的商业价值已经被运用到社会的方方面面,给人类社会发展带来了深远的影响。同时也使得对信息数据的收集、分析或挖掘也变得更加便捷、精确。然而,在以数据信息的共享、挖掘和知识发现等为研究目的过程中,也伴随着敏感隐私信息的泄露,如何对隐私数据进行保护成为当前研究的热门话题。目前在数据发布中的隐私保护技术可以划分为限制发布技术、数据加密技术以及数据失真技术,其中数据加密技术利用加密函数将原数据转换加密数据,该方法虽然保证了数据安全性,但是破坏了数据的可用性;数据失真技术是通过给数据添加噪声并保持数据特性,该方法虽然保持了数据的原有的特性,但是不能在保证数据安全性同时也降低可用信息数据的占比。而在数据限制发布技术中,主要有基于数据匿名的隐私保护技术,该技术通过利用匿名模型对数据进行匿名化处理,从而实现隐私数据保护。传统的用于使匿名模型生成等价类的方法由于没有考虑敏感属性取值问题,等价类中极易存在相同敏感属性的相似的敏感属性值,即使在后续进行了敏感属性值约束,也极容易引发概率攻击或者相似性攻击造成隐私泄露,其次在约束敏感属性值上造成更大的信息损失。鉴于此,在保证数据发布安全性的基础上,如何减少数据隐私保护过程中对数据造成的信息损失,成为本领域技术人员亟待解决的问题。
技术实现思路
本专利技术提供一种基于大数据的数据发布隐私保护算法,通过获取待发布数据表,将待发布数据的统计直方图转换为k叉区间树,对k叉区间树添加噪声进行扰动,得到添加噪声后的区间树,同时,通过构建基于特征选择的集成分类函数并求解,得到待发布数据的分类结果,根据待发布数据的分类结果进行待发布数据的聚类,并利用基于聚类的个性化匿名算法进行数据隐私保护,实现对隐私数据的发布。为实现上述目的,本专利技术提供的一种基于大数据的数据发布隐私保护算法,包括:获取待发布数据表,并根据待发布数据的属性值划分结果得到待发布数据的统计直方图;将待发布数据的统计直方图转换为k叉区间树;对k叉区间树添加噪声进行扰动,得到添加噪声后的区间树,并将添加噪声后的区间树近似转化为平均直方图;构建基于特征选择的集成分类函数;利用L-BFGS优化算法对集成分类函数进行求解,得到待发布数据的分类结果;根据待发布数据的分类结果进行待发布数据的聚类,并利用基于聚类的个性化匿名算法进行数据隐私保护,同时进行隐私数据的发布。可选地,所述根据待发布数据的属性值划分结果得到待发布数据的统计直方图,包括:所述待发布数据表T有t个属性(A1,...,At),其中每个属性Ai存在n个可能的取值;对于所有可能的属性取值,随机地对每个属性的属性取值进行排序,并进行相应的统计;按照属性将待发布数据表T划分为互不相交的集合,并根据所述统计结果得到待发布数据的统计直方图H=直X1,X2,...,Xn],其中Xi表示n个属性值中的第i个属性值在待发布数据表中的频率。可选地,所述将待发布数据的统计直方图转换为k叉区间树,包括:1)设定k叉区间树的参数k,本专利技术将其设置为5;2)计算统计直方图的区间长度|X|:|X|=b-a其中:[a,b]为统计直方图的全区间;3)当区间长度|X|不大于k时,则划分为|X|个孩子节点的区间树;当区间长度|X|大于k时,则划分为k个孩子节点的区间树,其中,对于第i个孩子节点的长度当i=1时,孩子节点的长度为:当i>1时,孩子的节点长度为:4)若没有转换为一个满k叉区间树,即最后一层h的叶子节点数没有达到kh-1个,则进行修复:对于孩子节点未满k个的第h-1层节点,添加修复节点T,记S{T}={a(t),b(t)},其中[a,b]为统计直方图的全区间,t为修复节点参数,t=k-1。可选地,所述对k叉区间树添加噪声进行扰动,包括:对k叉区间树K添加噪声进行扰动,得到添加噪声后的区间树K′:其中:ε表示隐私预算,本专利技术将其设为0.01;Δf为数据发布敏感性;d为k叉区间树的节点总数;Ki为k叉区间树K的第i个节点。可选地,所述基于特征选择的集成分类函数的构建过程为:1)从特征选择算法集中随机选择特征选择算法对平均直方图中每个属性特征进行打分,根据对每个特征的打分,再随机从选择出的前m个特征中,挑选出d个特征构成子空间Rb;所述特征选择算法集中的特征算法包括基于局部敏感的半监督特征选择算法,基于拉普拉斯分数的特征选择算法,基于正则树的特征选择算法,基于L1范式的特征选择算法;2)计算同类样本矩阵EC:其中:yi为平均直方图中的类别值;3)计算与同类样本矩阵EC相关联的对角矩阵DC:4)计算同类样本的拉普拉斯矩阵LC:LC=DC-EC5)同理,计算异类样本的ES,LS,DS;6)建立集成分类目标函数:其中:Fb为子空间Rb构造的样本集合;Ai为第i个特征选择算法;LC为同类样本的拉普拉斯矩阵;LS为异类样本的拉普拉斯矩阵;Xk为平均直方图的第k个属性值;V表示对应于最大n个特征值的特征向量值;τ为用于平衡平滑项和同类紧凑性的缩放参数,本专利技术将其取值为0.05。可选地,所述利用L-BFGS优化算法对集成分类函数进行求解,包括:1)对于目标函数f(Ai,xk),利用牛顿迭代法求解其驻点xk+1:xk为平均直方图的第k个属性值;Ai为第i个特征选择算法;gk为目标函数的导数;为目标函数二阶导数的倒数;2)通过迭代的方式,得到的近似值Dk:其中:I为单位矩阵;sk=xk+1-xk;yk=gk+1-gk;gk为目标函数的导数;xk为平均直方图的第k个属性值;当k=0,D0为单位矩阵;3)只简单存储最近的m个sk和yk,即(sk,sk-1,...,sk-m-1)和(yk,yk-1,...,yk-m-1),以此来近似计算从而对xk进行迭代更新,迭代更新结果即为待发布数据的分类结果。可选地,所述利用基于聚类的个性化匿名算法进行数据隐私保护,包括:1)设定数据敏感度,当待发布数据的敏感度处于[0,30)为低敏感度,[30,60)为中敏感度,[60,90)为高敏感度;2)将聚类得到的若干簇泛化成等价类;本专利技术对敏感属性个性化泛化约束规则为:将高敏感度的敏感属性值泛化到下一级别敏感度的泛化的敏感属性值,然后再对其他等级敏感属性按照等价类中不同敏感属性的个数和每个敏感属性进行相应的泛化;3)计算泛化等价类属本文档来自技高网...

【技术保护点】
1.一种基于大数据的数据发布隐私保护算法,其特征在于,所述方法包括:/n获取待发布数据表,并根据待发布数据的属性值划分结果得到待发布数据的统计直方图;/n将待发布数据的统计直方图转换为k叉区间树;/n对k叉区间树添加噪声进行扰动,得到添加噪声后的区间树,并将添加噪声后的区间树近似转化为平均直方图;/n构建基于特征选择的集成分类函数;/n利用L-BFGS优化算法对集成分类函数进行求解,得到待发布数据的分类结果;/n根据待发布数据的分类结果进行待发布数据的聚类,并利用基于聚类的个性化匿名算法进行数据隐私保护,同时进行隐私数据的发布。/n

【技术特征摘要】
1.一种基于大数据的数据发布隐私保护算法,其特征在于,所述方法包括:
获取待发布数据表,并根据待发布数据的属性值划分结果得到待发布数据的统计直方图;
将待发布数据的统计直方图转换为k叉区间树;
对k叉区间树添加噪声进行扰动,得到添加噪声后的区间树,并将添加噪声后的区间树近似转化为平均直方图;
构建基于特征选择的集成分类函数;
利用L-BFGS优化算法对集成分类函数进行求解,得到待发布数据的分类结果;
根据待发布数据的分类结果进行待发布数据的聚类,并利用基于聚类的个性化匿名算法进行数据隐私保护,同时进行隐私数据的发布。


2.如权利要求1所述的一种基于大数据的数据发布隐私保护算法,其特征在于,所述根据待发布数据的属性值划分结果得到待发布数据的统计直方图,包括:
所述待发布数据表T有t个属性(A1,...,At),其中每个属性Ai存在n个可能的取值;
对于所有可能的属性取值,随机地对每个属性的属性取值进行排序,并进行相应的统计;
按照属性将待发布数据表T划分为互不相交的集合,并根据所述统计结果得到待发布数据的统计直方图H=[X1,X2,...,Xn],其中Xi表示n个属性值中的第i个属性值在待发布数据表中的频率。


3.如权利要求2所述的一种基于大数据的数据发布隐私保护算法,其特征在于,所述将待发布数据的统计直方图转换为k叉区间树,包括:
1)设定k叉区间树的参数k,本发明将其设置为5;
2)计算统计直方图的区间长度|X|:
|X|=b-a
其中:
[a,b]为统计直方图的全区间;
3)当区间长度|X|不大于k时,则划分为|X|个孩子节点的区间树;当区间长度|X|大于k时,则划分为k个孩子节点的区间树,其中,对于第i个孩子节点的长度当i=1时,孩子节点的长度为:当i>1时,孩子的节点长度为:



4)若没有转换为一个满k叉区间树,即最后一层h的叶子节点数没有达到kh-1个,则进行修复:对于孩子节点未满k个的第h-1层节点,添加修复节点T,记S{T}={a(t),b(t)},其中[a,b]为统计直方图的全区间,t为修复节点参数,t=k-1。


4.如权利要求3所述的一种基于大数据的数据发布隐私保护算法,其特征在于,所述对k叉区间树添加噪声进行扰动,包括:
对k叉区间树K添加噪声进行扰动,得到添加噪声后的区间树K′:



其中:
ε表示隐私预算,本发明将其设为0.01;
Δf为数据发布敏感性;
d为k叉区间树的节点总数;
Ki为k叉区间树K的第i个节点。


5.如权利要求4所述的一种基于大数据的数据发布隐私保护算法,其特征在于,所述基于特征选择的集成分类函数的构建过程为:
1)从特征选择算法集中随机选择特征选择算法对平均直方图中每个属性特征进行打分,根据对每个特征的打分,再随机从选择出的前m个特征中,挑选出d个特征构成子空间Rb;所述特征选择算法集中的特征算法包括基于局部敏感的半监督特征选择算法,基于拉普拉斯分数的特征选择算法,基于正则树的特征选择算法,基于L1范式的特征选择算法;
2)计算同类样本矩阵EC:



其中:
yi为平均直方图中的类别值;
3)计算与同类样本矩阵EC相关联的对角矩阵DC:



4)计算同类样本的拉普拉斯矩阵LC:
LC=DC-EC
5)同理,计算异类样本的ES,LS,DS;

【专利技术属性】
技术研发人员:汪秀英
申请(专利权)人:汪秀英
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1