基于贝叶斯网络的合成数据隐私增强算法制造技术

技术编号：40326857 阅读：10 留言：0更新日期：2024-02-09 14:20

本发明专利技术为基于贝叶斯网络的合成数据隐私增强算法，涉及数据处理技术领域，计算原始数据的所有属性之间的互信息，采用拉普拉斯机制对互信息进行加噪，并构建贝叶斯网络；然后根据得到的贝叶斯网络，采用等比法为网络中不同的节点按照节点联合分布域大小分配隐私预算，按照不同的隐私预算采用拉普拉斯机制对贝叶斯网络中节点的联合分布进行二次加噪，从带噪联合分布中推导出带噪条件概率分布；根据隐私保护后贝叶斯网络结构和节点的条件概率分布进行前向采样，得到一个合成的数据集。本发明专利技术能够合成与原始数据统计特征相似同时能够实现隐私保护的数据集，合成的数据集能使数据分析者在不接触原始数据集的情况下，挖掘数据中的潜在价值。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理，具体为基于贝叶斯网络的合成数据隐私增强算法。

技术介绍

1、数据作为信息时代最重要的生产资料，有着大规模、多样式、高维度、关联复杂等特性，且通常都包含大量的个人隐私信息(例如薪资状况、医疗信息)。随着数据分析技术与机器学习的发展，社会各界对高质量数据的需求变得越来越明显。然而直接共享或发布不经过隐私保护处理的数据，可能会导致隐私的泄露。

2、2023年2月，在联合国大数据和数据科学专家委员(uncebd)发布的《联合国官方统计隐私增强技术指南》中是这样定义隐私增强技术的：隐私增强技术，也被称为隐私保护技术，甚至隐私技术，在使用敏感或机密数据时降低隐私风险的方法和方法，这些方法和方法统称为隐私增强技术(pets)。指南中列举了联合国认可的隐私增强技术：安全多方计算、同态加密、差分隐私、合成数据、分布式学习、零知识证明和可信执行环境。不同于上述隐私增强技术，传统的数据隐私保护方法有不能抵御拥有全部背景知识的敌手攻击的弱点，例如k-匿名，l-多样性，t-贴近性，(α,k)-匿名等，且随着数据维度的增加，高维数据集中的每条记录变得越来越具体，敌手更有可能根据其背景知识对数据集中的隐私信息进行重新识别，造成隐私的泄露。

技术实现思路

1、本专利技术提出了基于贝叶斯网络的合成数据隐私增强算法，解决数据共享或发布中数据的隐私保护问题，具有安全、可靠性强效果。

2、本专利技术的技术方案如下：

3、基于贝叶斯网络的合成数据隐私增强算法，包括：

4、步骤1：计算原始数据的所有属性之间的互信息，对每对属性的互信息加拉普拉斯噪声，并将所有带噪的互信息存储至带噪相关矩阵，以便在结构学习时检索，得到带噪相关矩阵；

5、步骤2：根据平均互信息，应用贪婪算法迭代生成贝叶斯网络结构；

6、步骤3：根据步骤2所得贝叶斯网络结构，计算网络中节点的域大小，采用等比法为不同域大小节点的联合分布分配不同的隐私预算，对于域大小相同节点的联合分布分配相同的隐私预算，得到一个隐私预算序列；

7、步骤4：根据步骤2得到的贝叶斯网络中节点的顺序计算节点的联合分布，根据步骤3得到的隐私预算序列对节点的联合分布加入拉普拉斯噪声，然后从加噪的节点联合分布中推导出节点的带噪条件概率分布；

8、步骤5：根据步骤2所得贝叶斯网络结构和步骤4所得节点的带噪条件概率分布进行贝叶斯网络的正向采样，最终采样生成一个与原始数据统计特征相似的合成数据集。

9、作为本方案的进一步优化，所述步骤2包括，步骤2-1：计算所有属性与其他属性的平均互信息，将拥有平均互信息最大的节点作为贝叶斯网络的首个节点加入贝叶斯网络；

10、步骤2-2：使用贪婪算法迭代生成贝叶斯网络结构，迭代过程中每次选择拥有最大带噪互信息的ap对加入到贝叶斯网络，直到所有节点均进入贝叶斯网络，得到贝叶斯网络结构。

11、作为本方案的进一步优化，采用拉普拉斯机满足ε1-差分隐私，所述步骤4所得节点带噪条件概率分布满足ε2-差分隐私，合成数据集差分隐私的证明满足(ε1+ε2)-差分隐私，其中ε1：ε2＝0.3：0.7。

12、作为本方案的进一步优化，所述步骤3中采用等比法分配隐私预算的关键在于等比数列首项的求解，根据等比数列求和公式采用单步线性定长迭代法求解等比数列的首项初值，直到等比数列的和与真实的隐私预算的差值小于等于误差范围，最终返回一个与贝叶斯网络节点顺序对应的隐私预算序列。

13、作为本方案的进一步优化，对互信息注入拉普拉斯噪声，并得到带噪相关矩阵，在此步骤中需要的隐私预算为ε1，其中互信息的计算公式为：

14、

15、其中x为节点，π为x的父节点集。

16、敏感度为：

17、

18、其中n为数据集中的记录数目。

19、作为本方案的进一步优化，等比法公比设置范围为[1，1.5]。

20、本专利技术的工作原理及有益效果为：

21、除恶意攻击者之外的数据使用者并不关心数据集中的个体记录，而更注重挖掘整体数据中的潜在价值。数据合成是一种受欢迎的技术，如图2所示，其基本原理是将敏感数据集转换为具有相似统计属性的新数据集，而不泄露原始数据集中的个人信息，数据需求者可以使用合成的数据集执行数据分析或机器学习任务。联合国认为合成数据不仅可以共享信息，同时可以保证敏感数据的隐私。就合成数据本身而言，它并不提供隐私或者安全保证，数据合成器不可避免的会记住一些个人信息，因此，一些学者在训练数据合成器时结合差分隐私技术为个体记录提供隐私保护，差分隐私技术同样是联合国公认的隐私增强技术之一，其作为一种拥有严格的数学定义和逻辑证明的隐私保护方法，几乎不需要对攻击者的背景知识做任何假设，能够为发布数据集中的个人信息提供强有力的隐私保护。

22、本专利技术采用拉普拉斯机制而非指数机制对结构学习进行隐私保护，利用带噪相关矩阵保留计算中间值，避免重复计算问题，减轻计算负载；采用等比法为域大小不同的边缘联合分布分配更合理的隐私预算，缓解了由个别带噪分布信噪比不稳定导致的贝叶斯网络带噪分布的整体信噪比低，提高了数据可用性。

本文档来自技高网...

【技术保护点】

1.基于贝叶斯网络的合成数据隐私增强算法，其特征在于，包括：

2.根据权利要求1所述的基于贝叶斯网络的合成数据隐私增强算法，其特征在于，所述步骤2包括，步骤2-1：计算所有属性与其他属性的平均互信息，将拥有平均互信息最大的节点作为贝叶斯网络的首个节点加入贝叶斯网络；

3.根据权利要求2所述的基于贝叶斯网络的合成数据隐私增强算法，其特征在于，采用拉普拉斯机满足ε1-差分隐私，所述步骤4所得节点带噪条件概率分布满足ε2-差分隐私，合成数据集差分隐私的证明满足(ε1+ε2)-差分隐私，其中ε1：ε2＝0.3：0.7。

4.根据权利要求2所述的基于贝叶斯网络的合成数据隐私增强算法，其特征在于，所述步骤3中采用等比法分配隐私预算的关键在于等比数列首项的求解，根据等比数列求和公式采用单步线性定长迭代法求解等比数列的首项初值，直到等比数列的和与真实的隐私预算的差值小于等于误差范围，最终返回一个与贝叶斯网络节点顺序对应的隐私预算序列。

5.根据权利要求3所述的基于贝叶斯网络的合成数据隐私增强算法，其特征在于，对互信息注入拉普拉斯噪声，并得到带噪相关

6.根据权利要求4所述的基于贝叶斯网络的合成数据隐私增强算法，其特征在于，等比法公比设置范围为[1，1.5]。

...

【技术特征摘要】

1.基于贝叶斯网络的合成数据隐私增强算法，其特征在于，包括：

4.根据权利要求2所述的基于贝叶斯网...

【专利技术属性】
技术研发人员：朴春慧，卢晓天，杨新法，杨兴雨，
申请(专利权)人：石家庄铁道大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人