基于标签加密发送的企业间联邦学习算法模型训练方法技术

技术编号:37307325 阅读:10 留言:0更新日期:2023-04-21 22:51
本发明专利技术提供了一种基于标签加密发送的企业间联邦学习算法模型训练方法,包括:S1:协调者进行初始化,获取各项训练参数,感知参与方数量,并开始让参与方进行标签ID对齐操作;S2:完成标签对齐后,协调者发起模型训练,各参与方将利用共有的实体数据训练机器学习模型;S3:各参与方对ID对应的标签结果进行预测,协调方根据各参与方的预测结果计算最终预测值。本发明专利技术解决了传统联邦学习算法在不同业态企业间的条件下的通讯过程中责任所有制与效率的问题。的问题。的问题。

【技术实现步骤摘要】
基于标签加密发送的企业间联邦学习算法模型训练方法


[0001]本专利技术涉及人工智能
,特别涉及一种基于标签加密发送的企业间联邦学习算法模型训练方法。

技术介绍

[0002]随着隐私的重要性与数据安全的问题受到越来越多的关注,数据隐私和安全问题已成为时下的热点问题,受到了来自各大企业的重点关注。与此同时,人工智能技术与大数据的在公司业务中的应用效果颇具成效,引发了人工智能的时代浪潮。在这两个前提下,联邦学习应运而生。
[0003]在联邦学习中,各方参与者之间可以共享训练数据但对数据内容不可见,可以实现协同训练的效果。在该机制下,由可信协调者控制流程,并负责管理密钥的生成、发放与解密,各个参与方将所持有的数据经过加密后发送至协调者与其他参与方,实现联合训练一个联邦模型,再将这个模型给各个参与方使用。但与此同时,在这个过程中,每个参与方都需要发送自己的数据,若密钥泄露,这个过程中数据泄露的风险需要所有参与方共同承担。此外,如何在保证数据安全的前提下提升各个环节的交互效率,对于提升联邦学习的效率有重要的意义。
[0004]鉴于企业间的数据特征空间重叠度小,但可能共享一个巨大的用户群体,因此采用一种基于用户对齐,扩展特征空间的联邦学习。但在传统的联邦学习体系下,各参与方都需要承担将数据发送至其他参与方中可能会导致数据泄露带来的风险。这种风险一定程度上降低了联邦学习的可操作性,阻碍了企业间建立良好的数据共享环境。
[0005]在目前传统联邦学习中,交互过程中需要每一轮都发送中间结果,并利用中间结果计算所需数据,完成本轮自身参数的更新。在计算过程中会主要遇到两种延误计算效率的情况,其一是交换的中间数据为密文,密文的计算往往比明文计算慢1

2个数量级;其二是当双方的计算中间数据完成的时间不一致,将会出现先完成的一方等待另一方的情况,导致总时间成本增加。

技术实现思路

[0006]为解决上述问题,本专利技术提供了一种基于标签加密发送的企业间联邦学习算法模型训练方法,通过同态加密算法,持有目标预测标签的参与方将加密后的标签发送至无标签的参与方,之后各个参与方独自完成训练,得到各自的模型,并利用各参与方的预测结果计算最终预测值,更符合企业间“需求方承担有限的数据传送风险,协作方不承担数据传送风险”的业务协作基本特性,让联邦学习更具有可操作性。同时,该联邦学习算法保证传统联邦学习质量的条件下,提高近50%的计算效率。
[0007]本专利技术提供了一种基于标签加密发送的企业间联邦学习算法模型训练方法,具体技术方案如下:
[0008]S1:协调者进行初始化,获取各项训练参数,感知参与方数量,并开始让参与方进
行标签ID对齐操作;
[0009]S2:完成标签对齐后,协调者发起模型训练,各参与方将利用共有的实体数据训练机器学习模型;
[0010]S3:各参与方对ID对应的标签结果进行预测,协调方根据各参与方的预测结果计算最终预测值。
[0011]进一步的,所述训练参数包括训练目标以、训练轮数以及正则化参数。
[0012]进一步的,步骤S1中,样本ID对齐方式采用RSA密钥与哈希函数进行的加密样本对齐。
[0013]进一步的,步骤S2中,各参与方在训练过程中均采用同一种机器学习模型算法进行模型训练。
[0014]进一步的,(引用3)步骤S1,具体过程如下:
[0015]S101:协调者获取各项训练参数,感知参与方数量,并发送标签对齐消息至各参与方;
[0016]S102:持有标签方生成RSA密钥对,包括公钥(e,n)与私钥(d,n),并利用私钥计算自身样本ID的最终签名;
[0017]S103:发送公钥(e,n)至无标签参与方,并将私钥存储在本地;
[0018]S104:对每一个样本生成一个与n互质且不为1的随机数,利用公钥对ID进行加密,并乘以随机数进行加盲扰动,加密后的数据作为第一数据;
[0019]S105:无标签参与方发送第一数据至持有标签发送方;
[0020]S106:利用私钥进行对第一数据进行签名的初步计算,将该数据与自身的最终签名作为第二数据;
[0021]S107:持有标签方将第二数据发送至无标签参与方;
[0022]S108:对第二数据进行去盲计算,并计算得到最终签名,将双方的最终签名进行取交集运算,得到对齐ID集合;
[0023]S109:无标签方将对齐ID集合发送给持有标签方,持有标签方保存对齐ID集合,并发送样本对齐完成信号至协调者;
[0024]S110:协调者接收到样本对齐完成信号后,发送模型训练开始的信号。
[0025]进一步的,步骤S2,具体过程如下:
[0026]S201:协调者生成同态加密公钥和私钥,将私钥保存在本地,将公钥发送至各参与方;
[0027]S202:持有标签方将标签y利用公钥进行同态加密,并将该数据作为第一加密数据,同时开始进行自身模型训练。
[0028]S203:持有标签方发送第一加密数据至无标签参与方;
[0029]S204:无标签参与方利用第一加密数据作为标签与自身所持数据结合进行模型训练,得到所需的模型参数加密中间结果,并添加随机掩码加盲,将加盲结果作为第二加密数据;
[0030]S205:无标签参与方将第二加密数据发送至协调者进行解密;
[0031]S206:协调者对第二加密数据使用私钥进行解密,并将解密结果作为第三数据。
[0032]S207:协调者将解密后的第三数据发送至第二加密数据的发送方;
[0033]S208:无标签参与方将第三数据上所附加的掩码去除得到模型参数中间结果,并使用该中间结果更新各项模型参数;
[0034]S209:各参与方检查是否达成训练目标,若未完成则返回至步骤S204重新执行,直至各参与方均完成模型训练。
[0035]进一步的,步骤S3,具体过程如下:
[0036]S301:协调者获取预测目标ID,并将ID发送至各参与方;
[0037]S302:各参与方利用ID、自身所持数据与模型对该ID对应的标签结果进行预测;
[0038]S303:各参与方发送预测结果至协调者,协调者利用各方预测结果计算最终预测值。
[0039]进一步的,各参与方ID、自身所持数据与模型均保存在各方分布式服务器本地,除计算结果外其余数据均不会发送。
[0040]进一步的,(引用7),协调者采用如下公式计算最终预测结果:
[0041][0042]其中,pred
j
表示第j个样本的最终预测结果,n表示参与方数量,pred
i:j
表示第i个参与方对第j个样本的预测结果。
[0043]本专利技术的有益效果如下:
[0044]1、本专利技术通过发起者发送加密标签的方式,实现需求方承担有限的数据传送风险,协作方不承担数据传送风险,解决传统联邦学习算法在不同本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于标签加密发送的企业间联邦学习算法模型训练方法,其特征在于,包括:S1:协调者进行初始化,获取各项训练参数,感知参与方数量,并开始让参与方进行标签ID对齐操作;S2:完成标签对齐后,协调者发起模型训练,各参与方将利用共有的实体数据训练机器学习模型;S3:各参与方对ID对应的标签结果进行预测,协调方根据各参与方的预测结果计算最终预测值。2.根据权利要求1所述的企业间联邦学习算法模型训练方法,其特征在于,步骤S1中,所述训练参数包括训练目标以、训练轮数以及正则化参数。3.根据权利要求1所述的企业间联邦学习算法模型训练方法,其特征在于,步骤S1中,样本ID对齐方式采用RSA密钥与哈希函数进行的加密样本对齐。4.根据权利要求1所述的企业间联邦学习算法模型训练方法,其特征在于,步骤S2中,各参与方在训练过程中均采用同一种机器学习模型算法进行模型训练。5.根据权利要求3所述的企业间联邦学习算法模型训练方法,其特征在于,步骤S1,具体过程如下:S101:协调者获取各项训练参数,感知参与方数量,并发送标签对齐消息至各参与方;S102:持有标签方生成RSA密钥对,包括公钥(e,n)与私钥(d,n),并利用私钥计算自身样本ID的最终签名;S103:发送公钥(e,n)至无标签参与方,并将私钥存储在本地;S104:对每一个样本生成一个与n互质且不为1的随机数,利用公钥对ID进行加密,并乘以随机数进行加盲扰动,加密后的数据作为第一数据;S105:无标签参与方发送第一数据至持有标签发送方;S106:利用私钥进行对第一数据进行签名的初步计算,将该数据与自身的最终签名作为第二数据;S107:持有标签方将第二数据发送至无标签参与方;S108:对第二数据进行去盲计算,并计算得到最终签名,将双方的最终签名进行取交集运算,得到对齐ID集合;S109:无标签方将对齐ID集合发送给持有标签方,持有标签方保存对齐ID集合,并发送样本对齐完成信号至协调者;S110:协调者接收到样本对齐完成信号后,...

【专利技术属性】
技术研发人员:刘淼苏生唐永清黄伟程段志国黄晨晗李精书赵飞刘秋霞田园田野
申请(专利权)人:泸州老窖集团有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1