基于混合权重值的隐私预算分配方法组成比例

技术编号：39949531 阅读：6 留言：0更新日期：2024-01-08 23:11

本发明专利技术属于计算机应用技术领域，公开了一种基于混合权重值的隐私预算分配方法，该方法以信息熵为权重使用指数机制选取初始属性，以互信息为评价函数，从待选属性中以指数机制挑选副属性关系对，加入到贝叶斯网络N中；通过属性关系对的多样性和属性归一化风险熵，计算属性的混合权重值；按照属性混合权重值，向网络N中添加Laplace噪声，提取数据到新的数据集中。本发明专利技术的方法有效提高了加噪后的数据的可用性，能够提高数据的可用性和敏感数据的安全性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机应用，具体的说是涉及一种基于混合权重值的隐私预算分配方法。

技术介绍

1、当前是信息技术蓬勃发展的时代，大量的信息产生于生活的方方面面，在信息化的今天就转变为了大量的数据，这些数据经过汇总形成足够庞大的规模后，便可通过数据分析、数据挖掘等研究其中的价值。大数据量逐渐成为常态，例如糖尿病病人信息、人类基因遗传库等等，这些数据在相关行业存在着重要的价值和巨大的潜力，合理的使用对于推进行业进步具有重要作用。

2、然而大数据信息的一个重要问题就是隐私安全，这些数据往往包含大量的个人隐私信息，数据拥有者在发布数据时如果没有相应的隐私保护措施，那么这些用户隐私信息就会直接或者间接的被非法人员获取，造成严重后果。

3、针对隐私数据的发布问题，差分隐私方法，具有严格的数学基础和鲁棒性，该方法通过向数据集中添加可控噪声，减少单个记录对整体的影响，使得攻击者无法通过观察不同的输出结果来重构真实的数据信息，将隐私泄露的可能性限制在可接受的范围内，来实现对个体隐私信息的保护；同时该方法不限制攻击者的知识背景，默认攻击者拥有所有知识背景，依然能够实现隐私保护，因此适用性更广泛。

4、差分隐私算法在最初设计用于解决小规模数据，而在如今的大数据集，由于维度的增加表现出一些问题，包括单个记录的改变对整个数据集的影响大量增加、数据的敏感度增加、隐私预算消耗过快、发布的数据集可用性低等。

5、对于高维数据发布方法，通常的方法是数据降维，即将高维数据转化为低维的近似数据集，再对降维后的数据集添加噪声

6、在概率图模型算法中，privbayes算法通过构建原始数据集的贝叶斯网络模型，向网络中添加噪声后提取近似噪声分布的方式，获取原始数据集的近似分布，在确保隐私安全的前提下保证了数据的可用性。

7、然而对于隐私预算的权重分配方式，没有考虑数据集不同带来的影响，平均分配隐私预算，没有考虑属性之间的差异，造成噪音分配不合理，影响数据集加噪后可用性较低。

技术实现思路

1、针对现有技术中存在的不足，本专利技术提出了一种基于混合权重值的隐私预算分配方法，该方法能够提高数据的可用性和敏感数据的安全性。

2、为了达到上述目的，本专利技术是通过以下技术方案实现的：

3、本专利技术一种基于混合权重值的隐私预算分配方法，该方法包括如下步骤：

4、步骤s1：计算属性信息熵，以此为权重值，通过指数机制挑选初始属性，加入到贝叶斯网络n中；

5、步骤s2：计算属性关系对的互信息，以此为权重值，通过指数机制挑选属性关系对加入到贝叶斯网络n中；

6、步骤s3：计算属性混合权重值，由属性关系对多样性和属性归一化风险熵计算而成；

7、步骤s4：以属性混合权重值为依据，向构造的网络n中加入laplace噪音。

8、本专利技术的进一步改进在于：在步骤s1中，选取初始属性：

9、privbayes算法初始节点采用随机选取，无疑会对网络可用性造成影响。优先加入的属性应当有对其他属性影响大且自身属性多样的特点，ibayes算法使用信息熵作为权重，挑选首个属性节点。

10、信息熵是对属性不确定性的度量，信息熵越高，表明属性越复杂、携带的信息量越多，越有可能处于贝叶斯网络的上层，因此采用信息熵作为初始节点的选择依据，信息熵的计算公式为：

11、

12、当采用以信息熵为评价函数的指数机制时，由于访问了原始数据集，需要计算其敏感度并分配隐私预算，敏感度：

13、

14、根据式信息熵公式可知，当属性所有可能的取值概率相同时，信息熵最大，符合优先加入贝叶斯网络的特点。

15、本专利技术的进一步改进在于：在步骤s2中，具体步骤如下：

16、步骤s2-1：初始化贝叶斯网络n，属性节点集合v；

17、步骤s2-2：获取网络初始属性v1，具体步骤如下：

18、步骤s2-2-1：获取从s1中计算得到的各属性信息熵；

19、步骤s2-2-2：指数机制是差分隐私中对于非数值型数据加噪的方式，对于分数值型数据，假设有随机算法m，对于数据集d，有评分函数q(d，r)→r，δq为评分函数敏感度，若算法满足：

20、

21、则算法m满足∈-差分隐私，其中pr[r∈o]为评分函数q输出为r的概率，评分函数的输出越高，被选中的概率越高。

22、将计算的结果v1添加进入属性集合v中，将(xi，φ)加入贝叶斯网络n中；

23、步骤s2-3：构建完整的贝叶斯网络n，主要有以下步骤：

24、步骤s2-3-1：初始化集合ω＝φ，对于剩下的所有待插入属性vi，计算vi的所有可能的父节点(xi，π)，加入到集合ω中。

25、步骤s2-3-2：使用指数机制，从集合ω中挑选具有最大互信息的i(xi，πi)。在这一过程中，隐私预算∈1作为贝叶斯网络构建第一阶段分配的隐私预算，对于总体的隐私预算来说，有以下计算公式：

26、∈＝p∈1+(1-p)∈2

27、p通常取值0.3，作为网络构建两个阶段的分配比例，∈2是网络第二阶段分配的隐私预算。

28、依据互信息为评价函数的指数机制，信息熵的公式为：

29、

30、x为待挑选的属性节点，π为x的父属性节点集合，互信息的敏感度δi(x，π)计算方式为：

31、

32、则以信息熵为评价函数的结果为：

33、

34、根据指数机制计算的结果，将(xi,πi)加入n，将xi加入v。

35、本专利技术的进一步改进在于：在步骤s3中，具体步骤如下：

36、步骤s3-1：计算属性关系对多样性。在网络n中，laplace机制向每个联合分布pr[xi,πi]添加噪声，令s(xi,πi)表示属性xi和其父属性关系对之间的取值种类数，在laplace机制中，向n的联合分布添加噪声，n的最大父节点个数k值越大，在网络第二阶段的数据维度就越高，laplace所需添加的噪音就越多，其中不单是k值影响了数据维度，s(xi,πi)同样也决定了噪音的添加量，因此为了区分不同的属性，将p(xi,πi)作为属性关系对(xi,πi)的权重值，则有：

37、

38、权重值越小所需添加的噪声就越多，对应隐私预算就越小。

39、步骤s3-2：计算属性归一化风险熵。属性关系对的多样性代表了其耗费隐私预算的权重，但是并不能代表该属性自身的权重值，在指数机制下，每次构建的网络都是不同的，属性关系对自然也不相同，但是属性本身所具有的信息量应当是不变的。

40、归一化风险熵不仅代表属性种类的多样性，属性值越平均其蕴含的信息量越大，该属性的敏感度也就越大，归一化风险熵计算如下：

41、

本文档来自技高网...

【技术保护点】

1.一种基于混合权重值的隐私预算分配方法，其特征在于：所述隐私预算分配方法具体包括如下步骤：

2.根据权利要求1所述的基于混合权重值的隐私预算分配方法，其特征在于：在步骤1中挑选初始属性具体为：采用信息熵作为初始节点的选择依据，信息熵代表了属性种类分布均匀程度，属性信息熵越高，重要程度越高，对其余属性的影响也越大，当采用以信息熵为评价函数的指数机制，属性所有取值概率相同时，信息熵最大，符合优先加入贝叶斯网络的特点。

3.根据权利要求1所述的基于混合权重值的隐私预算分配方法，其特征在于：在步骤2中，计算属性关系对的互信息，以互信息为权重值，通过指数机制挑选属性关系对加入到贝叶斯网络N中具体包括如下步骤：

4.根据权利要求3所述的基于混合权重值的隐私预算分配方法，其特征在于：所述步骤2-2获取网络初始属性v1具体包括如下步骤：

5.根据权利要求4所述的基于混合权重值的隐私预算分配方法，其特征在于：所述步骤2-3构建完整的贝叶斯网络N具体包括以下步骤：

6.根据权利要求1所述的基于混合权重值的隐私预算分配方法，其特征在于：所述

...

【技术特征摘要】

1.一种基于混合权重值的隐私预算分配方法，其特征在于：所述隐私预算分配方法具体包括如下步骤：

3.根据权利要求1所述的基于混合权重值的隐私预算分配方法，其特征在于：在步骤...

【专利技术属性】
技术研发人员：章韵，张帅，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人