【技术实现步骤摘要】
一种基于联邦学习的隐私保护特征工程方法
[0001]本专利技术属于数据安全
,具体涉及一种基于联邦学习的隐私保护特征工程方法。
技术介绍
[0002]随着计算机算力的提升,机器学习作为海量数据的分析处理技术,已经广泛服务于人类社会。然而,机器学习技术的发展过程中面临两大挑战:一是数据安全难以得到保障,隐私数据泄露问题亟待解决;二是网络安全隔离和行业隐私,不同行业、部门之间存在数据壁垒,导致数据形成“孤岛”无法安全共享,而仅凭各部门独立数据训练的机器学习模型性能无法达到全局最优化。为了谷歌提出联邦学习(Federated Learning,FL)技术,其通过将机器学习的数据存储和模型训练阶段转移至本地用户,仅与中心服务器交互模型更新的方式有效保障了用户的隐私安全。
[0003]特征工程(Feature Engineering,FE)是将原始数据集转化为更好的表达问题本质的特征的过程,使得将这些特征运用到预测模型中能提高对不可见数据的模型预测精度。简单来讲,FE就是发现对因变量y有明显影响作用的特征,通常称自变量x ...
【技术保护点】
【技术特征摘要】
1.一种基于联邦字习的隐私保护特征工程方法,其特征在于,包括:获取系统参数,系统参数包括Beaver三元组和特征策略参数;客户端和服务端根据系统参数执行安全检索协议,使得客户端和服务端分别得到对方数据集的加法秘密共享份额;客户端和服务端根据加法秘密共享份额进行联邦学习训练,得到相应的模型。2.根据权利要求1所述的一种基于联邦学习的隐私保护特征工程方法,其特征在于,获取系统参数包括:获取n个d维Beaver三元组{α
i
,β
i
,γ
i
},其中将数据集A={α1,
…
,α
n
}存储在客户端中,数据集B={β1,
…
,β
n
}存储在服务端中,其中数据集A和数据集B中的数据满足α
i
·
β
i
=<γ
i
>;获取服务端的数据集D
s
={ν1,
…
,ν
n
},并将服务端的数据集进行加法秘密共享,使得服务端和客户端分别得到<D
s
>1={<ν1>1,
…
,<ν
n
>1}和<D
s
>2={<ν1>2,
…
,<ν
n
>2},其中<ν
i
>1+<ν
i
>2=ν
i
;获取客户端的策略参数τ,对客户端的策略参数τ进行加法密钥共享,使得服务端得到第一策略参数<τ>1,客户端得到第二策略参数<τ>2,其中<τ>1和<τ>2满足τ=<τ>1+<τ>2;服务端得到的系统参数为:A、<γ
i
>1、D
s
、<D
s
>1、<τ>1,<γ
i
>1,客户端得到的参数为:B、<γ
i
>2、<D
s
>2、<τ>2、ν、τ、η;其中,α
i
表示第i个Beaver三元组中的第一个数据,β
i
表示第i个Beaver三元组中的第二个数据,γ
i
表示第i个Beaver三元组中的第三个数据,<γ
i
>1表示服务端保存的Beaver三元组中的第三个数据,<γ
i
>2表示客户端保存的Beaver三元组中的第三个数据,A表示α
i
的集合,B表示β
i
的集合,ν
n
表示服务端数据集的第n个样本,D
s
表示服务端获取的数据集,<D
s
>1表示服务端保存的数据集,<D
s
>2表示客户端保存的数据集,ν表示安全检索协议的协议参数,η表示加法秘密共享的位数范围。3.根据权利要求2所述的一种基于联邦学习的隐私保护特征工程方法,其特征在于,服务端对数据加法秘密共享过程中,客户端将划分的份额样本顺序与特征顺序进行混淆。4.根据权利要求1所述的一种基于联邦学习的隐私保护特征工程方法,其特征在于,客户端和服务端根据系统参数执行安全检索协议的过程包括:S1:服务端和客户端采用密钥生成算法对生成对应的密钥对(pk
s
,sk
s
)和(pk
c
,sk
c
),并将密钥对的公钥公开;其中,pk
s
表示服务端生成的公钥,sk
s
表示服务端生成的私钥,pk
c
表示客户端生成的公钥,sk
c
表示客户端生成的私钥;S2:根据客户端和服务端生成的密钥对对服务端的每个样本执行安全检索协议,得到数据集的加法秘密共享份额。5.根据权利要求4所述的一种基于联邦学习的隐私保护特征工程方法,其特征在于,服务端和客户端采用密钥生成算法为加法同态Exp
‑
E1Gamal方案的秘钥生成算法。6.根据权利要求4所述的一种基于联邦学习的隐私保护特征工程方法,其特征在于,对服务端的每个样本执行安全检索协议的过程包括:S21:服务端根据得到的参数<γ
i
>1和<τ>1计算服务端的中间参数d
1,i
;客户端根据得到的参数<γ
i
>2和&...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。