基于压缩的本地化差分隐私保护的逻辑回归方法技术

技术编号:38567358 阅读:14 留言:0更新日期:2023-08-22 21:04
本发明专利技术公开了一种基于压缩的本地化差分隐私保护的逻辑回归方法。在该方法中,用户根据服务器发布的模型参数计算梯度向量,对其编码处理得到输入向量;通过随机响应机制扰动得到输出向量,实现隐私保护。服务器聚合并校正输出向量,得到无偏均值可用于更新模型参数,并向下一轮参与训练的用户发布更新参数。经多轮迭代后训练出逻辑回归模型。最后,利用逻辑回归模型可对未知类标签的用户数据分类预测。本发明专利技术引入压缩的本地化差分隐私模型,该模型在保护用户隐私的同时提高了数据统计的效用和估计精度,平衡了隐私保护和数据可用性,为用户提供分类预测的同时,确保了攻击者无法逆向推理出训练数据中个体的数据,并具有较高的分类准确率。分类准确率。分类准确率。

【技术实现步骤摘要】
基于压缩的本地化差分隐私保护的逻辑回归方法


[0001]本专利技术属于信息安全领域,尤其涉及一种基于压缩的本地化差分隐私保护的逻辑回归方法。

技术介绍

[0002]数据的爆炸式增长促进了数据挖掘技术的发展。连接到互联网的设备中每天都会产生海量的数据,通过对这些数据分析和挖掘,能够有效提升用户体验和服务质量。然而,涉及私人敏感信息的设备在接入互联网并提供给其他设备访问数据的过程中,用户隐私信息可能存在泄露的风险,这可能对用户造成无法估量的损失。因此,在对数据挖掘和分析的同时,需要为个人数据提供隐私保护。
[0003]差分隐私(Differential Privacy,DP)是一种可被严格证明的隐私保护模型,有着严格的数学理论基础。目前差分隐私已被广泛应用在机器学习、深度神经网络、联邦学习等领域。传统的差分隐私模型又称为中心化差分隐私模型,通常由第三方数据收集者负责收集用户数据,并结合差分隐私技术发布隐私化处理后的数据集或相关统计信息。然而中心化差分隐私依赖于可信的数据收集器,因此,当一个不可信任的数据收集器收集数据时,无法保证每个参与者的隐私。随着本地化差分隐私(Local Differential Privacy,LDP)的提出,LDP继承了DP定量化隐私保护程度的特点,将隐私化处理的过程从第三方收集者转移到用户的终端,消除了不可信第三方服务器可能带来的隐私泄露威胁。考虑到满足LDP的扰动机制通常需假设用户群的数量在百万级别的大型数据集上,压缩的本地差分隐私(Condensed Local Differential Privacy,CLDP)概念被提出,CLDP引入一种距离度量标准来构建数据之间的不可区分性,通过数据之间的距离(即相似程度)可缩放隐私。相较于LDP模型,CLDP模型在小型数据集或数据维度较多情况下可提供更好的数据统计效用。
[0004]目前基于本地化差分隐私保护的逻辑回归算法通常需要引入满足LDP的多维数值数据的均值估计算法,再结合梯度下降法来实现。然而,现有的满足LDP的多维数值数据均值估计算法,通常将隐私预算拆分到不同维度,或随机采样单个维度数据代替全部维度数据的方法来解决多维问题,这会造成算法数据统计效用较低的缺陷。此外,此类均值估计算法通常假设用户群数量在百万级别的大型数据集,而应用在小型数据集上会造成估计精度较低的问题。

技术实现思路

[0005]专利技术目的:本专利技术的目的在于提供一种基于压缩的本地化差分隐私保护的逻辑回归方法。针对现有的基于本地化差分隐私保护的逻辑回归方法存在的缺陷,本专利技术引入了压缩的本地差分隐私模型(CLDP),CLDP模型在面对数据维度较多和小型数据集的情况下数据统计效用更高。同时。本专利技术在处理多维的梯度向量时,无需采样,因此有效避免采样带来的估计误差。
[0006]技术方案:本专利技术的基于压缩的本地化差分隐私保护的逻辑回归方法,通过执行
如下步骤,用户对梯度向量进行扰动以实现隐私保护,服务器端将对经扰动后的输出向量聚合,还原出所有用户输入向量的均值,并将该均值带入逻辑回归的迭代式更新模型参数,用户基于该模型利用假设函数的决策边界来预测其标签;
[0007]S1:在训练阶段,服务器初始化逻辑回归模型参数,设置隐私预算值α,将初始模型参数和隐私预算值公开给用户。
[0008]其中,服务器是一个不可信的实体,负责聚合用户梯度,并计算模型参数。
[0009]用户拥有参与逻辑回归模型所需的训练数据,由n个用户构成。
[0010]S2:用户User
i
根据服务器发放的模型参数,计算得到d+1维数值型的梯度向量
[0011]S3:用户User
i
在用户端对其梯度向量编码到d+1维的输入向量s
(i)

[0012]S4:用户User
i
对输入向量s
(i)
进行扰动,利用扰动机制M
CLDP

ME
将输入向量s
(i)
扰动到输出向量t
(i)
使其满足α

压缩的本地差分隐私;
[0013]S5:用户User
i
将扰动后的输出向量t
(i)
发送给服务器;
[0014]S6:服务器根据所有用户发送的输出向量t
(i)
进行统计分析,得到n个输入向量的均值。
[0015]S7:服务器将得到的均值结果带入逻辑回归的迭代式,进一步更新模型参数θ。重复步骤S2

S7,直到模型收敛,迭代结束。
[0016]S8:最终,得到模型的参数θ,即逻辑回归分类器模型。对于未知类标签的用户,将θ和其属性代入逻辑回归的假设函数,用户可利用假设函数的决策边界来其预测标签。
[0017]进一步的,步骤S1中,服务器初始化逻辑回归模型参数θ。其中,θ是一个d+1维向量,量,表示由实数组成的d+1维空间向量,向量中的每个元素均为0。n个用户{User1,...,User
i
,...,User
n
},每个用户拥有一条隐私记录User
(i)
=(x
(i)
,y
(i)
),其中包含d维数值型属性类标签y
(i)
∈{0,1}。服务器将初始逻辑回归模型参数θ和隐私预算α发送给n个用户{User1,...,User
i
,...,User
n
}。
[0018]进一步的,步骤S2具体为,根据逻辑回归的梯度计算式其中假设函数为其中假设函数为每个用户User
i
在用户端可得到由d+1维数值型的梯度向量其中i∈[1,n],j∈[0,d]。
[0019]进一步的,步骤S3具体为:对归一化使得对离散化后得到输入向量使得任意离散化的方式如下:
[0020][0021]其中,表示用户User
i
的梯度向量第j位的值。
[0022]进一步的,步骤S4具体包括如下步骤:
[0023]S41:对于维度为d+1的向量,将总样本划分为d+2组样本子空间,相似度为k的样本子空间大小为计算到作为归一化因子;
[0024]S42:根据二项式定理简化归一化因子,得到:
[0025]S43:定义扰动机制M
CLDP

ME
,对于任意输入向量s
(i)
,经过扰动机制M
CLDP

ME
后得到输出向量的概率如下:
[0026][0027]其中:Pr[
·
]表示概率分布值,α为CLDP模型下的隐私预算,u(s
(i)
,t
(i)
)为效用函数,u(s
(i)
,t
(i)
)=d+1

d(s
(i本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于压缩的本地化差分隐私保护的逻辑回归方法,其特征在于,通过执行如下步骤,用户对梯度向量编码进输入向量,并进行扰动以实现隐私保护,服务器端将对经扰动后的输出向量聚合,还原出所有用户输入向量的均值,并将该均值带入逻辑回归的迭代式更新模型参数,用户基于该模型利用假设函数的决策边界来预测其标签;S1:在训练阶段,服务器初始化逻辑回归模型参数,设置隐私预算值,将初始模型参数和隐私预算值公开给用户;其中,服务器负责聚合用户梯度,并计算模型参数;每个用户User
i
拥有参与逻辑回归模型所需的训练数据,由n个用户构成;S2:用户User
i
根据服务器发放的模型参数,计算得到d+1维数值型的梯度向量S3:用户User
i
在用户端对其梯度向量编码到d+1维的输入向量s
(i)
;S4:用户User
i
对输入向量s
(i)
进行扰动,利用扰动机制M
CLDP

ME
将输入向量s
(i)
扰动到输出向量t
(i)
使其满足α

压缩的本地差分隐私;S5:用户User
i
将扰动后的输出向量t
(i)
发送给服务器;S6:服务器根据所有用户发送的输出向量t
(i)
进行统计分析,得到n个输入向量的均值;S7:服务器将得到的均值结果带入逻辑回归的迭代式,更新模型参数θ;重复S2

S7,直到模型收敛,迭代结束,进入步骤8;S8:得到模型的参数θ,即逻辑回归分类器模型;对于未知类标签的用户,将θ和其属性代入逻辑回归的假设函数,用户利用假设函数的决策边界来预测其标签。2.根据权利要求1所述的一种基于压缩的本地化差分隐私保护的逻辑回归方法,其特征在于,步骤S1具体包括如下步骤:S11:服务器初始化逻辑回归模型参数θ;其中,θ是一个d+1维向量,其中,θ是一个d+1维向量,表示由实数组成的d+1维空间向量,向量中的每个元素均为0;n个用户{User1,...,User
i
,...,User
n
},每个用户User
i
拥有一条隐私记录User
(i)
=(x
(i)
,y
(i)
),其中包含d维数值型属性类标签y
(i)
∈{0,1};S12:服务器将初始逻辑回归模型参数θ和隐私预算α发送给n个用户{User1,...,User
i
,...,User
n
}。3.根据权利要求1所述的一种基于压缩的本地化差分隐私保护的逻辑回归方法,其特征在于,步骤S2中,根据逻辑回归的梯度计算式其中假设函数为每个用户User
i
在用户端可得到由d+1维数值型的梯度向量其中i∈[1,n],j∈[0,d]。4.根据权利要求1所述的一种基于压缩的本地化差分隐私保护的逻辑回归方法,其特征在于,步骤S3具体包括如下步骤:
S31:对归一化使得S32:对离散化后得到输入向量使得任意离散化的方式如下:其中,表示用户User
i
的梯度向量第j位的值。5.根据权利要求1所述的一种基于压缩的本地化差分隐私保护的逻辑回归方法,其特征在于,步骤S4具体包括如下步骤:S41:对于维度为d+1的向量,将总样本划分为d+2组样本子空间,相似度为k的样本子空间大小为计算到作为归一化因子;S42:根据二项式定理简化归一化因子,得到:S43:定义扰动机制M
CLDP

ME
,对于任意输入向量s
(i)
,经过扰动机制M
C...

【专利技术属性】
技术研发人员:王慧婷陈燕俐杨庚王周生
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1