一种安全联邦学习逻辑回归算法制造技术

技术编号:27977481 阅读:16 留言:0更新日期:2021-04-06 14:12
本发明专利技术公开了一种安全联邦学习逻辑回归算法,步骤如下:host计算E(W

【技术实现步骤摘要】
一种安全联邦学习逻辑回归算法
本专利技术涉及联邦学习
,特别涉及一种安全联邦学习逻辑回归算法。
技术介绍
机器学习(MachineLearning,简称ML)是指用某些算法指导计算机利用已知数据自主构建合理的模型,并利用此模型对新的情境给出判断的过程,在网络搜索、在线广告、商品推荐、机械故障预测、保险定价、金融风险管理等各种应用中发挥着非常重要的作用。传统上,机器学习模型是在一个集中的数据语料库上训练的,这些数据可能是由单个或多个数据提供者收集的。虽然已经开发了并行分布式算法来加速训练过程,但是训练数据本身仍然集中收集和存储在一个数据中心。2018年5月,欧盟通过GeneralDataProtectionRegulation(GDPR)法案把对隐私保护的要求提到了一个新的高度。除此以外,还有很多关于隐私数据的法律法规开始公布。因此,以前平台机构以任意方式进行数据共享受到挑战,也给机器学习的数据收集带来了严重的隐私问题。因为用于机器学习训练的数据通常是敏感的,可能来自具有不同隐私要求的多个所有者。这一严重的隐私问题限制了数据的实际数量。有很多学者提出利用安全多方计算技术直接对数据加密进行训练,显然这样会带来相当大的计算开销。为了应对这一挑战,谷歌引入了联邦学习(FL)系统。微众银行的杨强等人对联邦学习的概念进行了扩展,涵盖了更多的场景,形成了全面安全的联邦学习框架,包括横向联邦学习(HFL)、垂直联邦学习(VFL)和联邦转移学习(FTL)。联邦学习的定义是各方数据都保留在本地,不泄露隐私也不违反法规;多个参与者联合数据建立虚拟的共有模型,并且共同获益的体系。具体来说吗,可以做到各自数据不出本地,然后通过加密机制下的参数交换方式,在不违反数据隐私法规情况下,建立一个虚拟的共有模型。联邦学习作为一种保障数据安全的建模方法,在销售、金融等行业中拥有巨大的应用前景。在这些行业中,受到知识产权、隐私保护、数据安全等诸多因素影响,数据无法被直接聚合来进行机器学习模型训练。此时,就需要借助联邦学习来训练一个联合模型。因此,联邦学习的难点所在。第一:无标签数据的企业B如何计算模型。第二:服务器如何更新全新的模型。第三:每个服务器获取最新的模型后,不会逆推出别的信息。因此如何保密利用机器学习算法进行模型训练是重点也是难点。逻辑回归算法是机器学习算法中一个经典的算法,在处理机器学习问题时,优先采用简单算法,并对其参数进行优化。如果不能达到目的,再选择更加复杂的算法,比如神经网络等。而且逻辑回归算法使用范围十分广泛,金融、互联网等行业都能看到它的身影,只要涉及到二分类,逻辑回归基本都是首选。由于逻辑回归的各种优点以及在许多二分类任务中的广泛使用,已经有几种用于垂直联邦学习的逻辑回归实现。这些现有的联邦学习体系下的逻辑回归算法是建立在一个协调者C之上,也就说这里联合建模需要三个参与者:企业A,企业B以及帮助融合模型的协调者C,这里的协调者C对模型的训练起着至关重要的作用。在最近的一些工作中,建模参与方的原始数据被全同态密码系统加密,然后上传到一个中央服务器(例如云主机),通过运行适合于AHE的机器学习算法,即在加密的数据上训练模型。通过这种方式,它可以保护原始数据。但是,对加密数据进行运算需要消耗内存和处理时间。另一方面,数据虽然加密了,但不能保存在本地,增加了数据泄漏的潜在风险。如果不用将加密的数据传输到中央服务器,在训练过程中一些中间结果可以用全同态密码系统加密并传输。这带来了一些显著的好处:(1)原始数据由双方保存在本地。(2)需要加密的数据量最小化,从而大大降低了整体计算开销。在这个研究方向上,Hardy等人提出了一种基于垂直分区数据的联邦逻辑回归的解决方案。2019年百度提出的方案,去掉了第三方,但是经过的论真,存在Y标签信息泄露问题。2020年提出非交互式的训练方式,交给CSP,也是借助第三方CSP进行解密,不够安全。
技术实现思路
本专利技术的目的在于提供一种安全联邦学习逻辑回归算法,可以大大降低系统的复杂性,降低任意双方建立联合模型的成本,可以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种安全联邦学习逻辑回归算法,包括纵向联邦学习,步骤如下:步骤1:host计算E(WBXB)发送给guest;步骤2:guest计算计算计算计算E(▽y)=E(y-y')发送给host,然后通过计算梯度值LA,更新本地模型参数W'A;步骤3:如果isstop≠0,则计算梯度值LB,更新模型参数E(W'B),然后重复步骤1:如果isstop=0,则进入步骤4;步骤4:guest返回WA,host选择随机向量,将添加扰动的W'B发送给guest;步骤5:guest帮助解密W'B,发送给host;步骤6:host返回模型参数WB。进一步地,数据应用方(guest)和数据持有方(host)方分别持有一个特征矩阵和guest持标签矩阵y∈Rn×1,其中yj∈R1×1,i∈[A,B],j∈[1,n]属于某一个用户的记录实例,使用表示对应特征矩阵Xi的特征集。进一步地,在应用机器学习算法时,采用小批量梯度下降法来对采用的算法进行训练。进一步地,为了训练基于同态加密的逻辑回归联邦模型,需要保护guest的标签矩阵y∈Rn×1和部分特征值矩阵需要保护host的部分特征值矩阵以及guest和host初始化的模型参数进一步地,将guest持有数据矩阵和标签矩阵,主动方能够访问标签y,guest自然在联邦学习中担当起主导服务器的角色,host视为数据持有者,只有数据矩阵,host在联邦学习中扮演客户的角色,对自己的客户进行预测。进一步地,小批量梯度下降法每次用一部分样本来更新参数batchsize。进一步地,若batchsize=1,则变成了SGD,若batchsize=m,则变成了BGD,batchsize通常设置为2的幂次方,通常设置2,4,8,16,32,64,128,256,512。与现有技术相比,本专利技术的有益效果是:(1)提出了一种新的垂直联邦学习体系结构,删除了第三方协调器的角色,这大大降低了系统的复杂性,并允许任何双方在没有可信协调器的帮助下训练联合模型。除了两方模型训练外,提出的系统架构也可以很容易地扩展到支持多方模型训练。(2)基于上述架构,实现了用于垂直联邦学习的并行分布式逻辑回归,通过在双方的一个机器集群上运行训练算法,可以处理大量的训练数据。本文涉及到联邦学习(FL),一种新的机器学习机制,能够训练一个联合模型在一个由不同方拥有的分散数据的大型语料库上,同时保持数据的隐私。(3)避免用泰勒展开来近似当前算子,保证后续的最终结果准确性上会不会产生偏差,从而保证模型的精度。附图说明图1为本专利技术中心的逻辑回归训练模型的流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案本文档来自技高网
...

【技术保护点】
1.一种安全联邦学习逻辑回归算法,其特征在于,包括纵向联邦学习,步骤如下:/n步骤1:host计算E(W

【技术特征摘要】
1.一种安全联邦学习逻辑回归算法,其特征在于,包括纵向联邦学习,步骤如下:
步骤1:host计算E(WBXB)发送给guest;
步骤2:guest计算计算计算计算发送给host,然后通过计算梯度值LA,更新本地模型参数W′A;
步骤3:如果isstop≠0,则计算梯度值LB,更新模型参数E(W′B),然后重复步骤1:如果isstop=0,则进入步骤4;
步骤4:guest返回WA,host选择随机向量,将添加扰动的W′B发送给guest;
步骤5:guest帮助解密W′B,发送给host;
步骤6:host返回模型参数WB。


2.如权利要求1所述的安全联邦学习逻辑回归算法,其特征在于,数据应用方(guest)和数据持有方(host)方分别持有一个特征矩阵和guest持标签矩阵y∈Rn×1,其中yj∈R1×1,i∈[A,B],j∈[1,n]属于某一个用户的记录实例,使用表示对应特征矩阵Xi的特征集。


3.如权利要求1所述的安全联邦学习逻辑回归算法,其特征在于,在应用机器学习算法时,采用小批量...

【专利技术属性】
技术研发人员:祝文伟
申请(专利权)人:神谱科技上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1