一种基于安全多方计算的岭回归隐私保护算法制造技术

技术编号:39271600 阅读:7 留言:0更新日期:2023-11-07 10:51
本发明专利技术公开了一种基于安全多方计算的岭回归隐私保护算法,涉及计算机软件技术。设置两个网络互联的参与方S

【技术实现步骤摘要】
一种基于安全多方计算的岭回归隐私保护算法


[0001]本专利技术涉及计算机软件技术,更具体地说,它涉及一种基于安全多方计算的岭回归隐私保护算法。

技术介绍

[0002]机器学习主要做的研究,是如何依据已有数据构建算法模型,在面对经验数据时,算法能基于数据生成模型,而模型会基于新的同类型数据反映给我们需要的决策。常见的机器学习算法大致可以分为三种,它们分别是有监督学习、无监督学习和强化学习。针对包括线性回归、逻辑回归、支持向量机、决策树、神经网络、k

means聚类、贝叶斯分类、随机森林等不同的机器学习算法,已有研究人员设计了许多隐私保护方案。而这些隐私保护技术基本上基于以下几种类型。
[0003]其中一类是基于差分隐私的隐私保护技术。差分隐私技术利用随机噪声掩盖真实数据信息,拥有实现开销低的优点,依据随机噪声加入的时机可以将差分隐私扰动方法分为输入扰动、中间参数扰动、目标扰动、输出扰动等。Beaulieu

Jones
[1]提出了一种基于差分隐私的机器学习梯度下降法来训练辅助分类器生成对抗网络的模型,为保护患者的个人数据同时分享临床研究数据提供了解决方案。Shokri
[2]提出了一种分布式的选择随机梯度下降算法,该方案在模型训练过程中给梯度参数添加噪声,以达到防止隐私泄露的目的。Papernot
[3]将一种新的噪声聚集机制R
é
nyi差分隐私引入教师群体私有集成模型,该模型可用于图像分类,引入R
é
nyi差分隐私后得到了更严格的差分隐私保护机制。但基于差分隐私的隐私保护技术没有使用加密技术,安全强度弱,且加入噪声也会在一定程度上减低最后训练的模型准确度,如何更精确地添加噪音、更严格地测量隐私损失,是研究差分隐私技术的重要关注点。
[0004]另一类是基于同态加密的隐私保护技术。同态加密
[4]是一种允许直接对密文进行特定形式数学运算的技术,对结果密文解密后,可获取与无加密计算时同等的结果,介于它可在加密状态下计算的性质可以有效解决机器学习的隐私保护问题,并且同态加密相比差分隐私使用了加密技术,其安全性相比差分隐私技术要高。同态加密方案主要特点是对参与方间通信交互的需求少,但对计算力需求高。2009年Gentry
[5]提出了全同态加密方案,该方案以理想格理论作为支撑,理论上该方案是使用同态加密解决机器学习隐私保护问题的理想方案,但该方案在现实中使用是困难的,因为伴随着全同态加密方案的是高昂的计算力要求。除此外同态加密还存在部分同态加密方案和类同态方案,有研究人员尝试通过部分同态加密方案实现机器学习的隐私化,如利用离散对数计算难题,Fang
[6]创造了多元线性回归安全模型。Gilad

Bachrach
[7]指出在神经网络层数较少或参与训练的数据量不高时,令样本以加密的形式参与模型训练是可行的。Xie
[8]研究了同态加密处理过的样本在已训练神经网络模型上实行预测的方法,并且提及乘法同态加密技术在处理高阶多项式时存在数据误差会高速增长的缺点,使得受到多项式阶数的限制。Nikolaenko
[9]提出了一种基于同态加密和混淆电路混合应用的水平分割数据隐私保护岭回归算法。
[0005]还有一类是基于安全多方计算的隐私保护技术。安全多方计算重点在于保护预测或训练过程的隐私性,其主要特点是本地计算开销小,在保障参与者数据秘密参与计算的同时,借用参与者间的大量通信替代高昂的计算开销。如今安全多方计算面对的难题是如何在参与方之间构造可靠又不失效率的计算协议。Gasc
ó
n
[10]的线性回归隐私保护方案建立在姚期智的混淆电路技术与内积运算协议的配合之上,但出于大规模运算门的限制,以混淆电路技术为核心的算法在实现时复杂度高,故此方案仍存在发展空间。Mohassel
[11]实现了在两个半诚实服务器不共谋时,安全两方计算允许用户的隐私数据用于训练回归模型,Wu
[12]利用量化函数将数据量化为定点数,从而提高了训练的数据精度,Patra
[13]构筑的ABY2.0模型实现了在半诚实环境下,不同秘密共享方式的应用以及快速转换,Mohassel
[14]在ABY框架的基础上继续改进,实现复制秘密共享的同时,使得框架获得在恶意敌手的参与下也能保证安全性的能力,其他涉及安全两方计算的还有魏立斐
[15]、Agrawal
[16]等人所建立的隐私保护回归模型。Wagh
[17][18]考虑了三方服务器安全学习训练,同时其研究FALCON框架能容忍最多一个恶意参与方的加入。Chaudhari
[19]和Byali
[20]等人考虑了四方服务器的训练学习,基于三方或四方服务器的学习方案对比两方学习方案拥有更高的效率,但缺点是但参与方少于三或四个时则无法适用。
[0006]以下为上文中所涉及的公开技术/文献的出处。
[0007][1]Beaulieu

Jones BK,Wu ZS,Williams C,Greene CS.Privacy

preserving generative deep neural networks support clinical data sharing.BioRxiv,2017,159756.[doi:10.1101/159756][0008][2]Shokri R,Shmatikov V.Privacy

preserving deep learning.In:Proc.of the 22nd ACM SIGSAC Conf.on Computer and Communications Security.New York:ACM,2015.1310

1321.[doi:10.1145/2810103.2813687][0009][3]Papernot N,Song S,Mironov I,Raghunathan A,Talwar K,ErlingssonScalable private learning with PATE.arXiv PreprintarXiv:180208908,2018.
[0010][4]Hesamifard E,Takabi H,Ghasemi M,et al.Privacy

preserving machine learning as a service[J].Proc.Priv.Enhancing Technol.,2018,2018(3):123

142.
[0011][5]Gentry C.Fully homomorphic encryption using ideal lattices[C]//Proceedings of the Forty

first An本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于安全多方计算的岭回归隐私保护算法,其特征在于,设置两个网络互联的参与方S
k
;然后执行如下步骤,三元组生成步骤,用于通过扩展不经意传输协议对参与方S
k
进行运算分析,以生成乘法三元组;岭参数选取步骤,用于通过所述参与方S
k
的数据集对备选岭参数进行十折交叉验证,以获取岭参数λ;数据处理步骤,用于对所述参与方S
k
中待训练的数据进行盲化分块处理,以获取整数数据矩阵;并对所述参与方S
k
的回归参数进行初始化,以获取初始参数向量秘密分块[W]
k
(d+1,1);模型训练步骤,用于以乘法三元组、岭参数λ、整数数据矩阵和初始化后的回归参数作为训练参数,通过安全多方计算法进行岭回归训练,获取岭回归的模型参数向量秘密分块;结果重构步骤,用于在所述模型训练步骤完成后,两个所述参与方S
k
之间将通过数据交互进行秘密重构处理,以获取训练模型的模型回归参数w(d+1,1);其中,k∈(1,2);d为样本特征数。2.根据权利要求1所述的一种基于安全多方计算的岭回归隐私保护算法,其特征在于,所述三元组生成步骤具体包括,第一步、生成随机数A
i
;生成随机数B
i
;第二步、所述参数方S1通过扩展不经意传输协议与参数方S2交互得到秘密分块[C
i
]1;所述参数方S2通过扩展不经意传输协议与参数方S1交互得到秘密分块[C
i
]2;第三步、生成随机数[A
i
]1;生成随机数[B
i
]2;第四步、对所述随机数A
i
与随机数[A
i
]1进行差值运算,获取秘密分块[A
i
]2,并将所述秘密分块[A
i
]2,发送给参数方S2;对所述随机数B
i
与随机数[B
i
]2进行差值运算,获取秘密分块[B
i
]1,并将所述秘密分块[B
i
]1,发送给参数方S1;其中,i为1以上的自然数。3.根据权利要求2所述的一种基于安全多方计算的岭回归隐私保护算法,其特征在于,所述随机数A
i
、随机数B
i
与秘密分块[C
i
]1、秘密分块[C
i
]2之间的关系为,[C
i
]1+[C
i
]2=A
i
B
i
。4.根据权利要求1所述的一种基于安全多方计算的岭回归隐私保护算法,其特征在于,所述岭参数选取步骤,具体包括,第一步、获取若干个备选岭参数,对所有所述的备选岭参数进行十折交叉验证,以获取均方误差最低的备选岭参数λ1、备选岭参数λ2、备选岭参数λ3;第二步、将所述备选岭参数λ1、备选岭参数λ2、备选岭参数λ3发送给参数方S2;第三步、采用所述参数方S2的数据集对备选岭参数λ1、备选岭参数λ2、备选岭参数λ3进行十折交叉验证,获取均方误差最低的备选岭参数作为岭参数λ;第四步、将所述岭参数λ发送给参数方S1。5.根据权利要求4所述的一种基于安全多方计算的岭回归隐私保护算法,其特征在于,若干个所述备选岭参数为,首项为1,公比为0.5的等比数列。6.根据权利要求1所述的一种基于安全多方计算的岭回归隐私保护算法,其特征在于,所述盲化分块处理,具体为,
第一步、在参与方S1中随机生成数据矩阵[x1]1(n1,d+1)、数据矩阵[y1]1(n1,1);第二步、在参与方S2中随机生成数据矩阵[x2]1(n2,d+1)、数据矩阵[y2]1(n2,1);第三步、计算数据矩阵[x1]2(n1,d+1)=x1(n1,d+1)

[x1]1(n1,d+1),数据矩阵[y1]2(n1,1)=y1(n1,1)

[y1]1(n1,1);第四步、计算数据矩阵[x2]2(n2,d+1)=x2(n2,d+1)

[x2]1(n2,d+1),数据矩阵[y2]2(n2,1)=y2(n2,1)

[y2]1(n2,1);第五步、将所述数据矩阵[x1]1(n1,d+1)、数据矩阵[y1]1(n1,1)发送给参与方S2;第六步、将所述数据矩阵[x2]1(n2,d+1)、数据矩阵[y2]1(n2,1)发送给参与方S1;第七步、将所述数据矩阵[x1]2(n1,d+1)、数据矩阵[x2]1(n2,d+1)合并为数据矩阵[x]1(n,d+1),将所述数据矩阵[y1]2(n1,1)、数据矩阵[y2]1(n2,1)合并为数据矩阵[y]1(n,1);第八步、将所述数据矩阵[x2]2(n2,d+1)、数据矩阵[x1]1(n1,d+1)合并为数据矩阵[x]2(n,d+1),将所述数据矩阵[y2]2(n2,1)、数据矩阵[y1]1(n1,1)合并为数据矩阵[y]2(n,1);第九步、对数据矩阵[x]1(n,d+1)、数据矩阵[y]1(n,1)进行精度处理,使其分别转化为整数矩阵[X]1(n,d+1)、整数矩阵[Y]1(n,1);第十步、对数据矩阵[x]2(n,d+1)、数据矩阵[y]2(n,1)进行精度处理,使其分别转化为整数矩阵[X]2(n,d+1)、整数矩阵[Y]2(n,1);其中,n、n1、n2均为1以上的自然数,且n=n1+n2;x1(n1,d+1)为参与方S1输入的用于训练的数据矩阵;x2(n2,d+1)为参与方S2输入的用于训练的数据矩阵;y1(n1,1)为参与方S1输入的用于训练的标签向量;y2(n2,1)为参与方S2输入的用于训练的标签向量。7.根据权利要求1所述的一种基于安全多方计算的岭回归隐私保护算法,其特征在于,对所述参与方S
k
的回归参数进行初始化,具体为,初始化参与方S1的回归参数,以生成长度为d+1的列向量,记为初始参数向量秘密分块[W]1(d+1,1)=(0,0,

,0);初始化参与方S2的回归参数,以生成长度为d+1的列向量,记为初始参数向量秘密分块[W]2(d+1,1)=(0,0,

,0)。8.根据权利要求6所述的一种基于安全多方计算的岭回归隐私保护算法,其特征在于,所述模型训练步骤,具体包括,第一步、所述参与方S1通过扩展不经意传输协议获取秘密分块[a]1(n,d+1);计算所述参与方S1中被盲化的待训练样本数据矩阵的秘密分块[E]1(n,d+1)=[X]1(n,d+1)

[a]1(n,d+1);第二步、所述参与方S2通过扩展不经意传输协议获取秘密分块[a]2(n,d+1);计算所述参与方S2中被盲化的待训练样本数据矩阵的秘密分块[E]2(n,d+1)=[X]2(n,d+1)

[a]2(n,d+1);第三步、通过秘密重构协议得到被盲化的待训练样本数据矩阵E(n,d+1)=[E]1(n,d+1)+[E]2(n,d+1);第四步、在所述参与方S1中顺序选取若干数据矩阵,分别记为数据矩阵[X
t
]1(|B|,d+1)、数据矩阵[Y
t
]1(|B|,1)、数据矩阵E<...

【专利技术属性】
技术研发人员:林志强王楷梁梁承东王正临
申请(专利权)人:广州竞远安全技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1