【技术实现步骤摘要】
基于数据加密的模型训练方法及系统
[0001]本专利技术涉及数据处理
,具体涉及一种基于数据加密的模型训练方法及系统。
技术介绍
[0002]传统的机器学习中,用户需要直接将明文数据上传到服务器,而互联网上很多包含大量数据的服务器存在严重的安全漏洞,更有些云服务商(例如谷歌、Facebook)其会自动挖掘用户隐私数据,导致用户数据隐私信息的泄露,因此,数据直接以明文状态存储在云服务器,会危害用户信息安全。
[0003]采用同态加密技术可以将数据以密文的形式上传到服务器,并对实数计算进行优化,再利用最小二乘法去近似sigmod函数以提高精度和效率(即降低计算成本)。虽然同态方案在数据的安全性上提供了很大的保障,但其存在时间与性能消耗的弊端,无法在短时间内训练出有效模型。
[0004]采用秘密共享将数据变成份额形式上传至两服务器,再将两服务器中的份额数据通过beaver三元组实现预测与模型训练。该方法在不暴露隐私的情况下快速地得到所需要的结果,并且具有较好的模型准确率。但在实际场景中,每个用户都是一次性将自 ...
【技术保护点】
【技术特征摘要】
1.一种基于数据加密的模型训练方法,其特征在于,包括:使用公钥加密原始数据得到密文c;生成随机负数R和随机负数的相反数R1,其中,将随机负数R作为模型训练的一部分明文份额,使用公钥加密随机负数的相反数R1得到密文份额c2;将c和c2通过同态运算生成秘密共享的密文份额c3;使用私钥解密所述密文份额c3,得到另一部分明文份额m3;将两部分明文份额,借助Beaver三元组进行交互训练,得到两个模型份额;将得到的两个模型份额进行相加,得到最终所需要的模型。2.根据权利要求1所述的基于数据加密的模型训练方法,其特征在于,在得到密文c之前,还包括以下步骤:在可信任服务器中生成公私钥对和Beaver三元组,生成伪随机函数、随机预言机和随机数。3.根据权利要求2所述的基于数据加密的模型训练方法,其特征在于:可信服务器随机选择两个长度相等的大素数p和q,满足gcd(pq(p
‑
1)(q
‑
1))=1;计算n=pq和λ=(lcm(p
‑
1),(q
‑
1)),随机选择整数g,并满足gcd(L(g
λ
modn2),n)=1;表示模n2的互质同余类;生成公钥为pk=(n,g),私钥为sk=λ;生成Beaver三元组<Z,U,V>,且满足Z=U
×
V;生成3个伪随机函数分别为:F:{0,1}
k
×
{0,1}
*
→
{0,1}
k
、G:{0,1}
k
×
{0,1}
*
→
{0,1}
k
、P:{0,1}
k
×
{0,1}
*
→
{0,1}
k
;生成两个随机预言机分别为:H1:{0,1}
*
→
{0,1}
*
、H2:{0,1}
*
{0,1}
*
;生成3个k位伪随机数分别为:K1、K2、K3。4.根据权利要求3所述的基于数据加密的模型训练方法,其特征在于,提取原始数据的关键词、文件标志符;结合对称可搜索加密算法SSE,利用关键词、伪随机函数,构建查询表;结合对称可搜索...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。