System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于混合权重值的隐私预算分配方法组成比例_技高网

基于混合权重值的隐私预算分配方法组成比例

技术编号:39949531 阅读:6 留言:0更新日期:2024-01-08 23:11
本发明专利技术属于计算机应用技术领域,公开了一种基于混合权重值的隐私预算分配方法,该方法以信息熵为权重使用指数机制选取初始属性,以互信息为评价函数,从待选属性中以指数机制挑选副属性关系对,加入到贝叶斯网络N中;通过属性关系对的多样性和属性归一化风险熵,计算属性的混合权重值;按照属性混合权重值,向网络N中添加Laplace噪声,提取数据到新的数据集中。本发明专利技术的方法有效提高了加噪后的数据的可用性,能够提高数据的可用性和敏感数据的安全性。

【技术实现步骤摘要】

本专利技术属于计算机应用,具体的说是涉及一种基于混合权重值的隐私预算分配方法


技术介绍

1、当前是信息技术蓬勃发展的时代,大量的信息产生于生活的方方面面,在信息化的今天就转变为了大量的数据,这些数据经过汇总形成足够庞大的规模后,便可通过数据分析、数据挖掘等研究其中的价值。大数据量逐渐成为常态,例如糖尿病病人信息、人类基因遗传库等等,这些数据在相关行业存在着重要的价值和巨大的潜力,合理的使用对于推进行业进步具有重要作用。

2、然而大数据信息的一个重要问题就是隐私安全,这些数据往往包含大量的个人隐私信息,数据拥有者在发布数据时如果没有相应的隐私保护措施,那么这些用户隐私信息就会直接或者间接的被非法人员获取,造成严重后果。

3、针对隐私数据的发布问题,差分隐私方法,具有严格的数学基础和鲁棒性,该方法通过向数据集中添加可控噪声,减少单个记录对整体的影响,使得攻击者无法通过观察不同的输出结果来重构真实的数据信息,将隐私泄露的可能性限制在可接受的范围内,来实现对个体隐私信息的保护;同时该方法不限制攻击者的知识背景,默认攻击者拥有所有知识背景,依然能够实现隐私保护,因此适用性更广泛。

4、差分隐私算法在最初设计用于解决小规模数据,而在如今的大数据集,由于维度的增加表现出一些问题,包括单个记录的改变对整个数据集的影响大量增加、数据的敏感度增加、隐私预算消耗过快、发布的数据集可用性低等。

5、对于高维数据发布方法,通常的方法是数据降维,即将高维数据转化为低维的近似数据集,再对降维后的数据集添加噪声,通过数据维度的降低来减少加入噪音的量。

6、在概率图模型算法中,privbayes算法通过构建原始数据集的贝叶斯网络模型,向网络中添加噪声后提取近似噪声分布的方式,获取原始数据集的近似分布,在确保隐私安全的前提下保证了数据的可用性。

7、然而对于隐私预算的权重分配方式,没有考虑数据集不同带来的影响,平均分配隐私预算,没有考虑属性之间的差异,造成噪音分配不合理,影响数据集加噪后可用性较低。


技术实现思路

1、针对现有技术中存在的不足,本专利技术提出了一种基于混合权重值的隐私预算分配方法,该方法能够提高数据的可用性和敏感数据的安全性。

2、为了达到上述目的,本专利技术是通过以下技术方案实现的:

3、本专利技术一种基于混合权重值的隐私预算分配方法,该方法包括如下步骤:

4、步骤s1:计算属性信息熵,以此为权重值,通过指数机制挑选初始属性,加入到贝叶斯网络n中;

5、步骤s2:计算属性关系对的互信息,以此为权重值,通过指数机制挑选属性关系对加入到贝叶斯网络n中;

6、步骤s3:计算属性混合权重值,由属性关系对多样性和属性归一化风险熵计算而成;

7、步骤s4:以属性混合权重值为依据,向构造的网络n中加入laplace噪音。

8、本专利技术的进一步改进在于:在步骤s1中,选取初始属性:

9、privbayes算法初始节点采用随机选取,无疑会对网络可用性造成影响。优先加入的属性应当有对其他属性影响大且自身属性多样的特点,ibayes算法使用信息熵作为权重,挑选首个属性节点。

10、信息熵是对属性不确定性的度量,信息熵越高,表明属性越复杂、携带的信息量越多,越有可能处于贝叶斯网络的上层,因此采用信息熵作为初始节点的选择依据,信息熵的计算公式为:

11、

12、当采用以信息熵为评价函数的指数机制时,由于访问了原始数据集,需要计算其敏感度并分配隐私预算,敏感度:

13、

14、根据式信息熵公式可知,当属性所有可能的取值概率相同时,信息熵最大,符合优先加入贝叶斯网络的特点。

15、本专利技术的进一步改进在于:在步骤s2中,具体步骤如下:

16、步骤s2-1:初始化贝叶斯网络n,属性节点集合v;

17、步骤s2-2:获取网络初始属性v1,具体步骤如下:

18、步骤s2-2-1:获取从s1中计算得到的各属性信息熵;

19、步骤s2-2-2:指数机制是差分隐私中对于非数值型数据加噪的方式,对于分数值型数据,假设有随机算法m,对于数据集d,有评分函数q(d,r)→r,δq为评分函数敏感度,若算法满足:

20、

21、则算法m满足∈-差分隐私,其中pr[r∈o]为评分函数q输出为r的概率,评分函数的输出越高,被选中的概率越高。

22、将计算的结果v1添加进入属性集合v中,将(xi,φ)加入贝叶斯网络n中;

23、步骤s2-3:构建完整的贝叶斯网络n,主要有以下步骤:

24、步骤s2-3-1:初始化集合ω=φ,对于剩下的所有待插入属性vi,计算vi的所有可能的父节点(xi,π),加入到集合ω中。

25、步骤s2-3-2:使用指数机制,从集合ω中挑选具有最大互信息的i(xi,πi)。在这一过程中,隐私预算∈1作为贝叶斯网络构建第一阶段分配的隐私预算,对于总体的隐私预算来说,有以下计算公式:

26、∈=p∈1+(1-p)∈2

27、p通常取值0.3,作为网络构建两个阶段的分配比例,∈2是网络第二阶段分配的隐私预算。

28、依据互信息为评价函数的指数机制,信息熵的公式为:

29、

30、x为待挑选的属性节点,π为x的父属性节点集合,互信息的敏感度δi(x,π)计算方式为:

31、

32、则以信息熵为评价函数的结果为:

33、

34、根据指数机制计算的结果,将(xi,πi)加入n,将xi加入v。

35、本专利技术的进一步改进在于:在步骤s3中,具体步骤如下:

36、步骤s3-1:计算属性关系对多样性。在网络n中,laplace机制向每个联合分布pr[xi,πi]添加噪声,令s(xi,πi)表示属性xi和其父属性关系对之间的取值种类数,在laplace机制中,向n的联合分布添加噪声,n的最大父节点个数k值越大,在网络第二阶段的数据维度就越高,laplace所需添加的噪音就越多,其中不单是k值影响了数据维度,s(xi,πi)同样也决定了噪音的添加量,因此为了区分不同的属性,将p(xi,πi)作为属性关系对(xi,πi)的权重值,则有:

37、

38、权重值越小所需添加的噪声就越多,对应隐私预算就越小。

39、步骤s3-2:计算属性归一化风险熵。属性关系对的多样性代表了其耗费隐私预算的权重,但是并不能代表该属性自身的权重值,在指数机制下,每次构建的网络都是不同的,属性关系对自然也不相同,但是属性本身所具有的信息量应当是不变的。

40、归一化风险熵不仅代表属性种类的多样性,属性值越平均其蕴含的信息量越大,该属性的敏感度也就越大,归一化风险熵计算如下:

41、

本文档来自技高网...

【技术保护点】

1.一种基于混合权重值的隐私预算分配方法,其特征在于:所述隐私预算分配方法具体包括如下步骤:

2.根据权利要求1所述的基于混合权重值的隐私预算分配方法,其特征在于:在步骤1中挑选初始属性具体为:采用信息熵作为初始节点的选择依据,信息熵代表了属性种类分布均匀程度,属性信息熵越高,重要程度越高,对其余属性的影响也越大,当采用以信息熵为评价函数的指数机制,属性所有取值概率相同时,信息熵最大,符合优先加入贝叶斯网络的特点。

3.根据权利要求1所述的基于混合权重值的隐私预算分配方法,其特征在于:在步骤2中,计算属性关系对的互信息,以互信息为权重值,通过指数机制挑选属性关系对加入到贝叶斯网络N中具体包括如下步骤:

4.根据权利要求3所述的基于混合权重值的隐私预算分配方法,其特征在于:所述步骤2-2获取网络初始属性v1具体包括如下步骤:

5.根据权利要求4所述的基于混合权重值的隐私预算分配方法,其特征在于:所述步骤2-3构建完整的贝叶斯网络N具体包括以下步骤:

6.根据权利要求1所述的基于混合权重值的隐私预算分配方法,其特征在于:所述步骤3中,计算属性混合权重值具体包括如下步骤:

...

【技术特征摘要】

1.一种基于混合权重值的隐私预算分配方法,其特征在于:所述隐私预算分配方法具体包括如下步骤:

2.根据权利要求1所述的基于混合权重值的隐私预算分配方法,其特征在于:在步骤1中挑选初始属性具体为:采用信息熵作为初始节点的选择依据,信息熵代表了属性种类分布均匀程度,属性信息熵越高,重要程度越高,对其余属性的影响也越大,当采用以信息熵为评价函数的指数机制,属性所有取值概率相同时,信息熵最大,符合优先加入贝叶斯网络的特点。

3.根据权利要求1所述的基于混合权重值的隐私预算分配方法,其特征在于:在步骤...

【专利技术属性】
技术研发人员:章韵张帅
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1