一种多方纵向逻辑回归算法模型的训练方法及系统技术方案

技术编号：34870548 阅读：12 留言：0更新日期：2022-09-08 08:16

本发明专利技术实施例提供一种多方纵向逻辑回归算法模型的训练方法及系统，该方法包括：向协议内各特征提供方发起多方纵向逻辑回归算法初始模型训练的请求，迭代步骤包括：步骤121、接收由各特征提供方的局部聚合值；步骤122、将各局部聚合值进行相加得到全局聚合值；步骤123、将全局聚合值输入分段函数内进行计算，得到预测值；步骤124、根据预测值计算各特征提供方相应的残差，并将所述残差发送至对应的特征提供方，用于各特征提供方在其本地调整模型训练参数，实现模型训练迭代计算。通过特征提供方在本地将模型训练参数与其所持有的本地数据生成局部聚合值，避免原始数据集的分发，在模型训练的整个过程中通信开销小。模型训练的整个过程中通信开销小。模型训练的整个过程中通信开销小。

全部详细技术资料下载

【技术实现步骤摘要】
一种多方纵向逻辑回归算法模型的训练方法及系统

[0001]本专利技术涉及模型训练领域，具体涉及一种多方纵向逻辑回归算法模型的训练方法及系统。

技术介绍

[0002]逻辑回归是一种常用的机器学习模型，它广泛应用于金融、广告等领域。但现在数据往往分布在多方，把这些数据都有效利用起来，是可以提升模型表现的。然而数据中存在的隐私信息，使各方不愿轻易共享、集成这些数据，从而形成了数据孤岛。安全多方计算、同态加密等隐私保护技术，允许多方在不暴露各自敏感数据的前提下，协同地去训练逻辑回归模型，从而打破数据孤岛。
[0003]跨多个数据拥有者的机器学习按照数据切分可以划分为纵向以及横向场景，纵向场景指所有数据拥有者持有相同的样本以及不同的特征，横向场景指所有数据拥有者持有相同的特征以及不同的样本。在企业与企业之间的协同建模场景中，大部分是数据纵向切分场景(纵向场景)。但是无法解决各方之间的通信开销大的问题。

技术实现思路

[0004]本专利技术实施例提供一种多方纵向逻辑回归算法模型的训练方法及系统，通过特征提供方在本地将模型训练参数与其所持有的本地数据生成局部聚合值，避免原始数据集的分发，在模型训练的整个过程中通信开销小。
[0005]为达上述目的，一方面，本专利技术实施例提供一种多方纵向逻辑回归算法模型的训练方法，应用于模型训练发起方，包括：
[0006]步骤11、向协议内各特征提供方发起多方纵向逻辑回归算法初始模型训练的请求，并将与各特征提供方所提供的特征对应模型训练初始参数发送给相应特征...

【技术保护点】

【技术特征摘要】
1.一种多方纵向逻辑回归算法模型的训练方法，应用于模型训练发起方，其特征在于，包括：步骤11、向协议内各特征提供方发起多方纵向逻辑回归算法初始模型训练的请求，并将与各特征提供方所提供的特征对应模型训练初始参数发送给相应特征提供方；步骤12、将各特征提供方提供的局部聚合值输入多方纵向逻辑回归算法初始模型进行模型迭代训练，直至满足所述多方纵向逻辑回归算法初始模型的收敛条件，得到训练完毕的多方纵向逻辑回归算法模型；其中，每次模型迭代训练时，属于模型训练发起方的具体步骤包括：步骤121、接收由各特征提供方根据接收的模型训练参数与其所持有的本地数据在本地生成局部聚合值；其中，首次采用的模型训练参数为模型训练初始参数；步骤122、当接收到协议内各特征提供方所有局部聚合值后，将各局部聚合值进行相加得到全局聚合值；步骤123、将所述全局聚合值输入分段函数内进行计算，得到预测值；步骤124、根据所述预测值计算各特征提供方相应的残差，并将所述残差发送至对应的特征提供方，所述残差用于各特征提供方采用随机梯度下降法计算参数梯度，所述参数梯度用于各特征提供方在其本地调整模型训练参数，实现模型训练迭代计算。2.根据权利要求1所述的多方纵向逻辑回归算法模型的训练方法，其特征在于，在步骤121中，所生成的局部聚合值为同态密文形式；在步骤123中，将所述同态密文形式的各局部聚合值进行相加所得到的全局聚合值也为同态密文形式。3.根据权利要求2所述的多方纵向逻辑回归算法模型的训练方法，其特征在于，步骤123具体包括：将同态密文形式的全局聚合值转换为二进制秘密分享；在二进制秘密分享下，通过比较算子比较全局聚合值与各个分段点，得到二进制秘密分享的两个指示位，并将所述指示位由二进制秘密分享转化为同态密文形式；其中，分段函数中指明各分段点；根据两个指示位计算分段函数各分段的计算结果，通过各计算结果表示模型的预测值；其中，所述预测值为同态密文形式。4.根据权利要求2所述的多方纵向逻辑回归算法模型的训练方法，其特征在于，步骤124具体包括：所述残差等于同态密文形式的真实标签值与预测值之差，所述残差为同态密文形式；将各残差以同态密文形式分别发送给相应的特征提供方。5.根据权利要求3所述的多方纵向逻辑回归算法模型的训练方法，其特征在于，还包括：在多方纵向逻辑回归算法模型训练完毕之后，接收各特征提供方根据最终的模型参数与其所持有的本地数据在本地生成局部聚合值；将各局部聚合值进行相加得到全局聚合值；将所述全局聚合值输入分段函数内进行计算，得到预测值；将所述预测值泛化成预测类别；其中，所述的将所述预测值泛化成预测类别，具体包
括：将预测值由同态密文形式转换为算数秘密分享的预测值；根据设定的输出值分段点，提取算数秘密分享的预测值与设定的输出值分段点的差值符号位，将所述符号位的非门作为预测类别。6.一种多方纵向逻辑回归算法模型的训练方法，应用于特征提供方，其特征在于，包括：步骤21、接收协议内的模型训练发起方发送的多方纵向逻辑回归算法初始模型训练的请求，接收与本特征提供方所提供的特征对应的模型训练参数；步骤22、向模型训练发起方提供局部聚合值，直至满足所述多方纵向逻辑回归算法初始模型的收敛条件，得到训练完毕的多方纵向逻辑回归算法模型；其中，每次模型迭代训练时，属于特征提供方的具体步骤包括：步骤221、根据模型训练参数与所持有的本地数据在本地生成局部聚合值，将生成的局部聚合值发送给模型训练发起方；其中，首次采用的模型训练参数为模型训练初始参数；步骤222、接收模型训练发起方发送的残差，根据残差采用随机梯度下降法计算参数梯度，通过所述参数梯度调整模型训练参数；其中，调整后的模型训练参数用于与所持有的本地数据在本地生成新的局部聚合值。7.根据权利要求6所述的多方纵向逻辑回归算法模型的训练方法，其特征在于，步骤21，具体包括：当接收与本特征提供方所提供的特征对应的模型训练参数后，对模型训练参数进行初始化；步骤221具体包括：接收模型训练发起方提供的同态密文形式的模型训练参数，根据同态密文形式的模型训练参数与所持有的本地数据在本地生成局部聚合值，所述局部聚合值为同态密文形式，将同态密文形式的局部聚合值发送给模型训练发起方。8.根据权利要求7所述的多方纵向逻辑回归算法模型的训练方法，其特征在于，步骤222具体包括：自样本集获取一份未被选取的样本，根据模型训练发起方发送的残差和所获取的样本在本地计算参数梯度，通过所述参数梯度调整模型训练参数；其中，所述样本集具有均分的预设份数样本；将调整后的模型训练参数以同态密文形式保存在本地。9.一种多方纵向逻辑回归算法模型的训练方法，其特征在于，包括：步骤31、模型训练发起方向协议内各特...

【专利技术属性】
技术研发人员：韩宗达，池长康，薛瑞东，
申请(专利权)人：北京融数联智科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人