一种基于贝叶斯网络的数据隐私保护技术研究制造技术

技术编号：33904861 阅读：51 留言：0更新日期：2022-06-25 18:30

本文公布了一种基于贝叶斯网络的数据隐私保护技术，所述方法包括：引入贝叶斯网络到差分隐私保护模型；使用语义树的结构来描述含有层次关系的数据属性；通过贝叶斯网络描述数据属性之间的依赖关系；利用格雷码减少随机噪声对数据精度的影响。本发明专利技术通过结合语义树和贝叶斯网络的方法，保证了发布数据精度，提高了隐私预算的利用率。了隐私预算的利用率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于贝叶斯网络的数据隐私保护技术研究

[0001]本专利技术涉及数据保护
，尤其涉及一种基于贝叶斯网络的数据隐私保护技术研究。

技术介绍

[0002]在互联网高速发展的成长期，数据信息在存储、传播、交换等过程中面临着很多安全风险。数据存在安全隐患可能会给用户带来巨大的损失。如何保护隐私数据和防止信息泄露日渐被人们所关注，其中，既能保证数据的隐私性，又能保证数据的可用性一直是数据隐私研究最核心的内容。在不同的技术中，由于可以假设攻击者拥有最强的先验知识，差分隐私保护技术逐渐成为近年来的研究热点，并在现实实践中得到了很广泛的应用。
[0003]在对现有技术的研究和实践中，本专利技术的专利技术人发现，现有的网络通信指标分析方法，主要面临以下问题：
[0004](1)传统隐私保护方法通常需要注入过量的噪声，这使得接下来发布的数据精度较低
[0005](2)引入贝叶斯网络结构的方法没有充分利用数据语义关系来减少对隐私预算的消耗，存在隐私预算利用率低的问题。

技术实现思路

[0006]本专利技术所要解决的技术问题在于，提供一种基于贝叶斯网络的数据隐私保护技术，结合语义树和贝叶斯网络的方法，保证了发布数据精度，提高了隐私预算的利用率。
[0007]为解决上述问题，本专利技术的一个实施例提供一种基于贝叶斯的差分隐私保护模型的方法，包括：
[0008]结合局部敏感度和平滑上界来决定插入的随机噪声量；
[0009]使用Laplace机制和指数机制发布数据；
>[0010]采用F函数作为打分函数；
[0011]对多类别属性变量进行编码；
[0012]根据连续型属性的语义组成具有层次结构的树；
[0013]根据贝叶斯方法学习参数。
[0014]进一步地，所述的插入的随机噪声量依据为局部敏感度和平滑上界。
[0015]局部敏感度用来衡量一个函数对数据集中变化的敏感程度大小，其数值大小还和数据集本身相关。假设函数f:D
→
R
d
可以将数据集D转化为向量d，函数f的局部敏感度定义为：
[0016][0017]其中，D2为D1的任一邻近数据集，||f(D1)
‑
f(D2)||1为f(D1)与f(D2)的1阶范数距离。
[0018]平滑上界指的是某个函数S:D
→
R满足S(D1)≥LS(f,D1)且S(D1)≤e
β
S(D2)；其中β＞
0。
[0019]进一步地，所述的发布数据的实现机制为在连续型数据中插入服从Laplace概率分布的随机噪声，在离散型数据根据打分函数输出查询结果，具体地：
[0020]Laplace机制为对于数据集D和任意查询函数f:D
→
R
d
，算法A使得A(D)＝f(D)+N；其中，N～Lap(S(f)/ε)。
[0021]指数机制为对于数据集D和任意查询函数f:D
→
R，打分函数q:(D
×
R)
→
O。其中，打分函数q将查询函数f的值域R映射到实数集O，f的查询结果r(r∈R)越接近真实值，则获得分数o(o∈O)越高。算法A以正比于的概率从值域R中选择并输出r。敏感度根据打分函数q来定义：
[0022]进一步地，所述的F函数的基本原理为保存原文数据D所需要的总数据长度等于压缩后D
*
的长度加上编码模型M的数据长度，最终的总数据长度称为总描述长度。选择一个模型使总描述长度达到最小(MDL)，具体地：
[0023]将数据集D使用海明码进行编码压缩，可得到数据描述长度为：
[0024][0025]网络拓扑结构的复杂度可以使用参数个数来衡量，可得到网络结构描述长度为：
[0026][0027]其中，数据集D的样本总量为m，贝叶斯网络中的各个节点所对应的随机变量表示为X
i
，随机变量X
i
的取值状态总数为r
i
，随机变量X
i
父节点pa(X
i
)的取值状态总数为q
i
，当随机变量X
i
在第k个取值状态，其父节点pa(X
i
)在第j个取值状态下，用m
ijk
表示满足条件的观测样本数目，并有
[0028]MDL评分函数为：
[0029][0030]进一步地，所述的编码方法包括二进制编码和格雷码方法，具体地：
[0031]在二进制编码方法中，对于具有n个不同取值的离散型变量X，把X转换为个二进制变量每个二进制变量X
i
对应X取值二进制表示的第i位。对于连续性变量Y，先对其离散化，将整个值域划分成b个小区间，再使用与离散型变量X类似的方法，将Y转换为个二进制变量。
[0032]在格雷码方法中，设有一组数据编码，若对于任意一对相邻的代码，两者只相差一个二进制位，并且第一个代码与最后一个代码之间也是只相差一个二进制位，即“首尾相连”。
[0033]进一步地，所述的语义树指的是在真实数据集中，尤其是连续型属性，可以根据其语义构成具有层次结构的树。树的叶子节点表示为所有真实取值，上层节点可以依据语义
表示为对下一层节点的“泛化”；使得上层节点本身拥有一定的噪音量。
[0034]进一步地，所述的MaximalParentSets用来学习贝叶斯网络结构，具体地：
[0035]MaximalParentSets会递归地计算出贝叶斯网络单个结点的所有可能的父结点集的集合，并满足k度贝叶斯网络的定义，即每个父结点集合的元素数量不大于k。经过MaximalParentSets算法处理后的集合内，每个节点可包含各自的层次信息。
[0036]伪代码为：
[0037][0038][0039]进一步地，选择合适的P(θ)作为网络参数θ的先验分布；
[0040]使用贝叶斯公式，计算其后验分布P(θ|D)作为网络参数θ的推断。
[0041][0042]贝叶斯方法将未知网络参数θ看作成一个普通的随机变量，结合了网络参数θ的先验信息和可以观测到的样本信息，共同对网络参数θ做出估计。对于网络参数θ先验分布，可以从共轭分布里选取。
附图说明
[0043]图一是本专利技术的一个实施例提供的一种基于贝叶斯的差分隐私保护模型下离散型变量编码方法；
[0044]图二是本专利技术的一个实施例提供的一种基于贝叶斯的差分隐私保护模型下连续型变量编码方法；
具体实施方式
[0045]下面将结合本专利技术实施例中的附图，对本专利技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本专利技术一部分实施例，而不是全部的实施例。基于本专利技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本专利技术保护的范围。
[004本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于贝叶斯的差分隐私保护模型的方法，其特征在于，包括：结合局部敏感度和平滑上界来决定插入的随机噪声量；使用Laplace机制和指数机制发布数据；采用F函数作为打分函数；对多类别属性变量进行编码；根据连续型属性的语义组成具有层次结构的树；根据贝叶斯方法学习参数。2.根据权利要求1所说的基于贝叶斯的差分隐私保护模型，其特征在于，所述的插入的随机噪声量依据为局部敏感度和平滑上界。局部敏感度用来衡量一个函数对数据集中变化的敏感程度大小，其数值大小还和数据集本身相关。假设函数f:D
→
R
d
可以将数据集D转化为向量d，函数f的局部敏感度定义为：其中，D2为D1的任一邻近数据集，||f(D1)
‑
f(D2)||1为f(D1)与f(D2)的1阶范数距离。平滑上界指的是某个函数S:D
→
R满足S(D1)≥LS(f,D1)且S(D1)≤e
β
S(D2)；其中β＞0。3.根据权利要求1所说的基于贝叶斯的差分隐私保护模型，其特征在于，所述的发布数据的实现机制为在连续型数据中插入服从Laplace概率分布的随机噪声，在离散型数据根据打分函数输出查询结果，具体地：Laplace机制为对于数据集D和任意查询函数f:D
→
R
d
，算法A使得A(D)＝f(D)+N；其中，N～Lap(S(f)/ε)。指数机制为对于数据集D和任意查询函数f:D
→
R，打分函数q:(D
×
R)
→
O。其中，打分函数q将查询函数f的值域R映射到实数集O，f的查询结果r(r∈R)越接近真实值，则获得分数o(o∈O)越高。算法A以正比于的概率从值域R中选择并输出r。敏感度根据打分函数q来定义：4.根据权利要求1所说的基于贝叶斯的差分隐私保护模型，其特征在于，所述的F函数的基本原理为保存原文数据D所需要的总数据长度等于压缩后D
*
的长度加上编码模型M的数据长度，最终的总数据长度称为总描述长度。选择一个模型使总描述长度达到最小(MDL)，具体地：将数据集D使用海明码进行编码压缩，可得到数据描述长度为：网络拓扑结构的复杂度可以使用参数个数来衡量，可得到网络结构描述长度为：其中，数据集D的样本总量为m，贝叶斯网络中的各个节点所对应的随...

【专利技术属性】
技术研发人员：周松波，曾璇燕，周松远，柯婷婷，
申请(专利权)人：广州皮卡充科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人