基于最小均方误差准则的自适应隐私保护方法、装置及系统制造方法及图纸

技术编号:37121053 阅读:20 留言:0更新日期:2023-04-01 05:16
本发明专利技术提供了一种基于最小均方误差准则的自适应隐私保护方法、装置及系统,自适应包含自适应选择最佳的扰动方法以进行数据扰动和自适应选择最佳的扰动概率以输出扰动数据,该方法不仅实现了个性化隐私保护,并且通过加权聚合可获得更高的数据效用。其中,基于最小均方误差推导两种经典本地化差分隐私技术——basic RAPPOR技术和k

【技术实现步骤摘要】
基于最小均方误差准则的自适应隐私保护方法、装置及系统


[0001]本专利技术涉及隐私数据保护
,尤其涉及一种基于最小均方误差准则的自适应隐私保护方法、装置及系统。

技术介绍

[0002]随机响应(Randomized Response,RR)是基于数据失真的本地化差分隐私(Local Differential Privacy,LDP)保护技术的主流扰动机制,模型简洁直观且易于实现,并且其扰动程度可直接量化,在统计特性的估计方面性能优良,因此受到了广泛的关注。RR采用依概率作答的方式来保护数据提供者(或受访者)的隐私,保证敏感问题作答具有很强的可否认性,即具有隐私保护性,已经在Google Chrome的隐私保护工具和Apple系统中应用。同时,RR充分考虑了数据采集过程中数据收集者窃取或泄露用户隐私的可能性,该模型中受访者能够独立地对个体数据进行隐私化处理,即使是数据收集者也无法获得确切的原始隐私数据,大大激发其参与数据收集的积极性。因此,不同于中心化的隐私保护机制对于可信第三方的假设,基于RR的本地化差分隐私保护机制不再需要可信第三方的介入,同时也免除了不可信第三方数据收集者可能带来的隐私泄露和隐私攻击。
[0003]然而,实际中不同个体的隐私保护需求不一样。如果硬性地对所有用户的数据进行相同等级的隐私保护,会造成隐私需求高的用户保护不足,隐私需求低的用户过度保护。不仅造成用户反对数据的开放与共享,也在一定程度上降低统计估计的精度。

技术实现思路

[0004]本专利技术的目的在随机响应的本地化数据收集中,充分考虑本地端用户的个性化隐私需求,基于最小均方误差准则给出一种自适应隐私保护方法,包含自适应的扰动方法选择和自适应的扰动概率选择,并基于最小均方误差构建合适的加权因子以进行加权聚合来提高统计估计的精度,同时采用一种多重扰动的数据扩展策略,在不泄露额外隐私的情况下等效地增加了某些子群体的样本量,进一步提高数据的可用性。
[0005]为了实现上述目的,本专利技术采用如下技术方案:
[0006]第一方面提供了基于最小均方误差准则的自适应隐私保护方法,包括:
[0007]数据聚合者接收本地端用户发送的隐私保护等级;
[0008]根据隐私保护等级对本地端用户进行分群,将具有相同隐私保护等级的用户划分到同一个子群体中;
[0009]根据本地化差分隐私技术和隐私保护等级确定最佳的扰动概率,基于最小均方误差准则,确定出两种经典本地化差分隐私技术的自适应边界,根据自适应边界选择最佳的数据扰动方式,并将自适应结果发送给对应的子群体中的用户,以使每个子群体中的用户采用对应的最佳的数据扰动方式对其隐私数据进行扰动处理,并采用最佳的扰动概率执行隐私保护操作,得到扰动后的数据,并发送给数据聚合者,其中,自适应结果包括最佳的数据扰动方式和最佳的扰动概率;
[0010]基于最小均方误差构建加权因子,对来自不同隐私保护等级下各子群体发送的扰动后的数据进行聚合,得到本地端用户隐私数据的统计估计。
[0011]在一种实施方式中,两种经典本地化差分隐私技术包括basic RAPPOR技术或k

RR技术,根据本地化差分隐私技术和隐私保护等级确定最佳的扰动概率,包括:
[0012]当采用的本地化差分隐私技术为basic RAPPOR技术时,在∈隐私保护等级下,针对二进制编码后隐私数据的每一个比特采用的最佳的扰动概率为:
[0013][0014]其中,∈隐私保护等级;
[0015]当采用的本地化差分隐私技术为k

RR技术时,在∈隐私保护等级下,针对二进制编码后隐私数据的每一个比特采用的最佳的扰动概率为:
[0016][0017]上式表示对隐私数据以p的概率保持原值,以(1

p)/的概率扰动输出其他k

1种的任意一种,k为不同隐私数据的个数。
[0018]在一种实施方式中,两种经典本地化差分隐私技术包括basic RAPPOR技术或k

RR技术,基于最小均方误差准则,确定出两种经典本地化差分隐私技术的自适应边界,包括:
[0019]基于最大似然估计准则计算采用basic RAPPOR技术时隐私分布的第一估计误差:
[0020][0021]基于最大似然估计准则计算采用k

RR技术时隐私分布的第二估计误差:
[0022][0023]其中,n表示数据量或用户个数,∈为隐私保护等级,也称为隐私预算,x
i
为第i种隐私数据,隐私数据x
i
的真实概率为P
i
,k为不同隐私数据的个数,为第一估计误差,为第二估计误差;
[0024]根据第一估计误差和第二估计误差确定出两种经典本地化差分隐私技术的自适应边界。
[0025]在一种实施方式中,根据第一估计误差和第二估计误差确定出两种经典本地化差分隐私技术的自适应边界,包括:
[0026]构建函数则ΔMSE的零点时的取值为:
[0027][0028]其中,u和v的表达式为:
[0029][0030][0031]将∈
*
作为最小MSE准则下basic RAPPOR技术和k

RR技术的最佳自适应边界。
[0032]在一种实施方式中,基于最小均方误差构建加权因子,对来自不同隐私保护等级下各子群体发送的扰动后的数据进行聚合,得到本地端用户隐私数据的统计估计,包括:
[0033]基于最小均方误差的期望构建加权因子:
[0034][0035]w
τ
为第v个子群体的加权因子且满足l为计数符号,取值从1到m,MSE
τ
是第τ个子群体在隐私保护等级∈
τ
下的估计分布的均方误差值;
[0036]基于构建的加权因子对m个子群体中的扰动后的数据进行加权聚合,得到本地端用户隐私数据的统计估计:
[0037][0038]其中,为针对第τ个子群体隐私数据的估计分布,m为子群体的总数,为本地端用户隐私数据的统计估计。
[0039]在一种实施方式中,所述方法还包括:采用多重扰动的数据扩展策略对子群体中的数据进行扩展,用以等效增加隐私需求高的隐私子群体的数量。
[0040]基于同样的专利技术构思,本专利技术第二方面提供了基于最小均方误差准则的自适应隐私保护装置,包括:
[0041]隐私保护等级接收模块,数据聚合者接收本地端用户发送的隐私保护等级;
[0042]群体划分模块,用于根据隐私保护等级对本地端用户进行分群,将具有相同隐私保护等级的用户划分到同一个子群体中;
[0043]自适应结果生成模块,用于根据本地化差分隐私技术和隐私保护等级确定最佳的扰动概率,基于最小均方误差准则,确定出两种经典本地化差分隐私技术的自适应边界,根据自适应边界选择最佳的数据扰动方式,并将自适应结果发送给对应的子群体中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于最小均方误差准则的自适应隐私保护方法,其特征在于,包括:数据聚合者接收本地端用户发送的隐私保护等级;根据隐私保护等级对本地端用户进行分群,将具有相同隐私保护等级的用户划分到同一个子群体中;根据本地化差分隐私技术和隐私保护等级确定最佳的扰动概率,基于最小均方误差准则,确定出两种经典本地化差分隐私技术的自适应边界,根据自适应边界选择最佳的数据扰动方式,并将自适应结果发送给对应的子群体中的用户,以使每个子群体中的用户采用对应的最佳的数据扰动方式对其隐私数据进行扰动处理,并采用最佳的扰动概率执行隐私保护操作,得到扰动后的数据,并发送给数据聚合者,其中,自适应结果包括最佳的数据扰动方式和最佳的扰动概率;基于最小均方误差构建加权因子,对来自不同隐私保护等级下各子群体发送的扰动后的数据进行聚合,得到本地端用户隐私数据的统计估计。2.如权利要求1所述的基于最小均方误差准则的自适应隐私保护方法,其特征在于,两种经典本地化差分隐私技术包括basic RAPPOR技术或k

RR技术,根据本地化差分隐私技术和隐私保护等级确定最佳的扰动概率,包括:当采用的本地化差分隐私技术为basic RAPPOR技术时,在∈隐私保护等级下,针对二进制编码后隐私数据的每一个比特采用的最佳的扰动概率为:其中,∈隐私保护等级;当采用的本地化差分隐私技术为k

RR技术时,在∈隐私保护等级下,针对二进制编码后隐私数据的每一个比特采用的最佳的扰动概率为:上式表示对隐私数据以p的概率保持原值,以(1

p)/的概率扰动输出其他k

1种的任意一种,k为不同隐私数据的个数。3.如权利要求1所述的基于最小均方误差准则的自适应隐私保护方法,其特征在于,两种经典本地化差分隐私技术包括basic RAPPOR技术或k

RR技术,基于最小均方误差准则,确定出两种经典本地化差分隐私技术的自适应边界,包括:基于最大似然估计准则计算采用basic RAPPOR技术时隐私分布的第一估计误差:基于最大似然估计准则计算采用k

RR技术时隐私分布的第二估计误差:其中,n表示数据量或用户个数,∈为隐私保护等级,也称为隐私预算,x
i
为第i种隐私数据,隐私数据x
i
的真实概率为P
i
,k为不同隐私数据的个数,为第一估计误差,
为第二估计误差;根据第一估计误差和第二估计误差确定出两种经典本地化差分隐私技术的自适应边界。4.如权利要求3所述的基于最小均方误差准则的自适应隐私保护方法,其特征在于,根据第一估计误差和第二估计误差确定出两种经典本地化差分隐私技术的自适应边界,包括:构建函数则ΔMSE的零点时的取值为:其中,u和v的表达式为:其中,u...

【专利技术属性】
技术研发人员:宋海娜武明虎张凡胡胜熊炜李利荣万相奎沈华张明武
申请(专利权)人:湖北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1