一种基于敏感等级划分的数据扰动方法及装置制造方法及图纸

技术编号:35025976 阅读:24 留言:0更新日期:2022-09-24 22:57
本发明专利技术公开了一种基于敏感等级划分的数据扰动方法及装置,该方法包括:1)对输入值域内每一项数据的敏感度进行评估并确定每个敏感等级的划分标准及对应的隐私预算;2)根据数据敏感度评估结果计算出数据的综合敏感度;3)对照敏感等级的划分标准,确定用户数据敏感等级与隐私预算;4)使用对应的隐私预算对数据进行扰动。本发明专利技术通过对数据的敏感等级进行划分,结合数据自身敏感度与用户的隐私需求为不同等级的数据分配不同的隐私预算进行扰动,能有效地减少噪声引入,提高统计结果的精度。提高统计结果的精度。提高统计结果的精度。

【技术实现步骤摘要】
一种基于敏感等级划分的数据扰动方法及装置


[0001]本专利技术涉及数据发布与隐私保护
,具体涉及一种基于敏感等级划分的数据扰动方法及装置。

技术介绍

[0002]随着智能终端设备的普及以及大数据技术的飞速发展,越来越多的网络运营商通过客户端、网络服务等方式收集用户数据,以改善软件及服务的质量,为用户提供更准确、更有价值的内容。一旦发生隐私泄露的问题,不仅会为用户带来很大的风险,还会对企业自身造成经济与名誉上的双重损失。在这样的过程中用户个人隐私的保护是重中之重,如何在数据收集的过程中保护用户个人隐私,是当今社会关注的一个热点问题。
[0003]差分攻击是一种通过比对邻近数据库之间的差异获取信息的隐私攻击方式,传统的隐私保护方式无法防止差分攻击。针对此,有学者提出了一种新的隐私保护模型——差分隐私。差分隐私通过对原有数据添加噪声以达到扰动的作用,与其他隐私保护模型的区别在于差分隐私利用严格的数学定义证明了自身的隐私保护能力,并通过隐私预算参数对隐私保护水平进行量化,能有效地抵抗差分攻击。
[0004]差分隐私依赖于一个可信的第三方服务器,若服务器遭受到隐私攻击还是存在隐私泄露的风险。为了解决这一问题,有学者在差分隐私的基础上提出了本地差分隐私。本地差分隐私将数据扰动的过程放在用户端,由用户对数据进行扰动后再发送给服务器,因此摆脱了对第三方服务器的依赖,大大降低了隐私泄露的风险。
[0005]数据统计分析是本地差分隐私的主要应用与研究热点之一,主要包括对用户数据的频率估计与均值估计。频率估计针对分类型数据,通过收集所有用户数据统计每一项数据出现的频率;均值估计则针对数值型数据,在频率估计的基础上计算数据的均值。为了给统计分析的过程提供本地差分隐私保护,用户在上传数据前需要使用扰动方法对数据进行加噪,再由服务器进行统计与校正。
[0006]隐私预算的大小决定了扰动方法的隐私保护水平,也是影响结果精度的重要因素。目前针对统计分析的扰动方法大多都使用相同隐私预算对所有用户的数据进行扰动,没有对用户数据及用户的隐私敏感程度进行区分。现实中不同数据、不同用户的隐私保护需求很大可能存在差异,若直接为所有用户提供最严格的隐私保护,可能会引入很多不必要的噪声。

技术实现思路

[0007]本专利技术的目的在于提出一种基于敏感等级划分的数据扰动方法及装置,通过对用户数据隐私敏感程度进行分级的方式实现隐私预算的合理分配,结合数据敏感度与用户的隐私需求为不同等级的数据提供不同水平的本地差分隐私保护,从而减少噪声的引入,提高统计结果的精度。
[0008]为达到上述目的,本专利技术采用以下技术方案:
[0009]本专利技术提供一种基于敏感等级划分的数据扰动方法,括:
[0010]获取输入值域内每一项数据的敏感度,以及划分用户的敏感等级和各敏感等级对应的隐私预算;
[0011]根据每一项数据的敏感度,计算用户发送数据的综合敏感度;
[0012]根据用户敏感等级划分,结合所计算的综合敏感度,确定用户发送数据的敏感等级以及敏感等级所对应的隐私预算;
[0013]对用户发送数据进行填充,使得数据长度达到预设长度;
[0014]从填充后的用户发送数据中选择一个数据,根据填充后值域的大小选择相应的协议,并基于用户隐私预算对所选择的数据进行扰动。
[0015]进一步的,所述划分用户的敏感等级和各敏感等级对应的隐私预算,包括:
[0016]设置k个敏感等级,用L
j
表示第j级对应的敏感节点,其中1≤j≤k且L0=0,L
j
‑1<L
j

[0017]当用户的数据敏感度在范围(L
j
‑1,L
j
]时,表示该用户的敏感等级为j;
[0018]为每个敏感等级设置隐私预算,用∈
j
表示第j级对应的隐私预算,其中,1≤j≤k且∈1>∈2>...>∈
k

[0019]进一步的,所述计算用户发送数据的综合敏感度,包括:
[0020][0021]其中,S
i
表示用户u
i
的综合敏感度,Q(
·
)表示打分函数,X
i
={x1,x2,...,x
m
}表示用户u
i
发送的数据集合,其中x1,x2,...,x
m
∈D且1≤m≤d,D={x1,x2,...,x
d
}表示输入值域,m表示用户发送数据个数,d表示输入值域数据个数,表示用户u
i
对于数据x
j
的发送意愿,s
j
表示数据x
j
的敏感度。
[0022]进一步的,所述确定用户发送数据的敏感等级以及敏感等级所对应的隐私预算,包括:
[0023]使用二分查找法找到计算得到的综合敏感度S
i
所在的区间,假设是(L
j
‑1,L
j
],即L
j
‑1≤S
i
≤L
j
,则确定用户发送数据的敏感等级为j,对应的隐私预算为∈
j

[0024]进一步的,所述对用户发送数据进行填充,使得数据长度达到预设长度,包括:
[0025]预设填充长度l与填充数据集D
l
={
⊥1,
⊥2,...,

l
‑1},其中1≤l≤d;
[0026]如果用户u
i
发送数据个数m满足m<l,则从D
l
中随机选取l

m项数据加入到用户u
i
发送数据集合X
i
中;若m>l则从X
i
中随机选取m

l项数据删除。
[0027]进一步的,所述填充长度l大于所有用户中90%数据的长度;
[0028]所述充数据集D
l
中所有数据均不属于D。
[0029]进一步的,还包括,
[0030]若用户数据均为单值数据,则不进行填充采样。
[0031]进一步的,所述从填充后的用户发送数据中选择一个数据,根据填充后值域的大小选择相应的协议,并基于用户隐私预算对所选择的数据进行扰动,包括:
[0032]按以下方式选择相应的协议对所选择的数据进行扰动:
[0033][0034]其中,为方差临界值,d

=|D|+l

1表示填充后值域的大小,满足时,采用OLH协议对用户发送数据进行扰动;时,采用GRR协议对用户发送数据进行扰动;
[0035]所述采用OLH协议对用户发送数据进行扰动,包括:
[0036]采用不同的哈希函数将输入数据映射到一个长度为g的集合中,表示如下:
[003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于敏感等级划分的数据扰动方法,其特征在于,包括:获取输入值域内每一项数据的敏感度,以及划分用户的敏感等级和各敏感等级对应的隐私预算;根据每一项数据的敏感度,计算用户发送数据的综合敏感度;根据用户敏感等级划分,结合所计算的综合敏感度,确定用户发送数据的敏感等级以及敏感等级所对应的隐私预算;对用户发送数据进行填充,使得数据长度达到预设长度;从填充后的用户发送数据中选择一个数据,根据填充后值域的大小选择相应的协议,并基于用户隐私预算对所选择的数据进行扰动。2.根据权利要求1所述的一种基于敏感等级划分的数据扰动方法,其特征在于,所述划分用户的敏感等级和各敏感等级对应的隐私预算,包括:设置k个敏感等级,用L
j
表示第j级对应的敏感节点,其中1≤j≤k且L0=0,L
j
‑1<L
j
;当用户的数据敏感度在范围(L
j
‑1,L
j
]时,表示该用户的敏感等级为j;为每个敏感等级设置隐私预算,用∈
j
表示第j级对应的隐私预算,其中,1≤j≤k且∈1>∈2>...>∈
k
。3.根据权利要求2所述的一种基于敏感等级划分的数据扰动方法,其特征在于,所述计算用户发送数据的综合敏感度,包括:其中,S
i
表示用户u
i
的综合敏感度,Q(
·
)表示打分函数,X
i
={x1,x2,...,x
m
}表示用户u
i
发送的数据集合,其中x1,x2,...,x
m
∈D且1≤m≤d,D={x1,x2,...,x
d
}表示输入值域,m表示用户发送数据个数,d表示输入值域数据个数,表示用户u
i
对于数据x
j
的发送意愿,s
j
表示数据x
j
的敏感度。4.根据权利要求3所述的一种基于敏感等级划分的数据扰动方法,其特征在于,所述确定用户发送数据的敏感等级以及敏感等级所对应的隐私预算,包括:使用二分查找法找到计算得到的综合敏感度S
i
所在的区间,假设是(L
j
‑1,L
j
],即L
j
‑1≤S
i
≤L
j
,则确定用户发送数据的敏感等级为j,对应的隐私预算为∈
j
。5.根据权利要求3所述的一种基于敏感等级划分的数据扰动方法,其特征在于,所述对用户发送数据进行填充,使得数据长度达到预设长...

【专利技术属性】
技术研发人员:黄屿璁吕鑫张潮高晟凯李鑫曾涛王鑫元徐振楠
申请(专利权)人:水利部信息中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1