基于多方安全计算的机器学习模型训练及预测方法、装置制造方法及图纸

技术编号:23933117 阅读:46 留言:0更新日期:2020-04-25 02:10
本说明书实施例提供基于多方安全计算的非线性机器学习模型训练方法、模型预测方法及装置。非线性机器学习模型被分解为多个子模型,每个子模型部署在对应训练参与方处。在每次循环时,将非线性机器学习模型的模型计算分割为至少一个第一模型计算和至少一个第二模型计算。针对各个第一模型计算,经由各个训练参与方使用对应模型参数以及训练样本数据或者在前第二模型计算的计算结果来进行多方安全计算。针对各个第二模型计算,使用在前第一模型计算的计算结果来在可信计算设备的可信执行环境中进行可信计算。在循环未结束时,根据预测差值调整各个训练参与方的子模型。利用该方法,能够在确保隐私数据安全的情况下提高模型训练效率。

Machine learning model training and prediction method and device based on multi-party security computing

【技术实现步骤摘要】
基于多方安全计算的机器学习模型训练及预测方法、装置
本说明书的实施例通常涉及计算机领域,更具体地,涉及基于多方安全计算(Multi-partyComputation,MPC)的非线性机器学习模型训练方法、模型预测方法及装置。
技术介绍
对于公司或企业而言,数据是非常重要的资产,比如,用户数据和业务数据。用户数据例如可以包括用户身份数据等。业务数据例如可以包括在公司提供的业务应用上发生的业务数据,比如淘宝上的商品交易数据等。保护数据安全是公司或企业广泛关注的技术问题。在公司或企业进行业务运营时,通常会需要使用机器学习模型来进行模型预测,以确定业务运营风险或者进行业务运营决策。非线性机器学习模型是机器学习领域广泛使用的机器学习模型。在很多情况下,非线性机器学习模型需要多个模型训练参与方来协同进行模型训练,多个模型训练参与方(例如,电子商务公司、快递公司和银行)各自拥有训练非线性机器学习模型所使用的训练数据中的部分数据。该多个模型训练参与方希望共同使用彼此的数据来统一训练非线性机器学习模型,但又不想把各自的隐私数据提供给其它各个模型训练参与方本文档来自技高网...

【技术保护点】
1.一种基于多方安全计算的非线性机器学习模型训练方法,其中,所述非线性机器学习模型利用第一数目个训练参与方协同训练并且被分解为第一数目个子模型,每个训练参与方具有一个子模型,所述方法包括:/n执行下述循环过程,直到满足循环结束条件:/n将训练样本数据提供给当前非线性机器学习模型,以经由各个训练参与方和可信计算设备配合计算来得到所述当前非线性机器学习模型的当前预测值,其中,所述当前非线性机器学习模型的模型计算被按照第一模型计算和第二模型计算间隔的方式分割为至少一个第一模型计算和至少一个第二模型计算,所述第一模型计算是线性模型计算,所述第二模型计算包括非线性模型计算,针对各个第一模型计算,经由各个...

【技术特征摘要】
1.一种基于多方安全计算的非线性机器学习模型训练方法,其中,所述非线性机器学习模型利用第一数目个训练参与方协同训练并且被分解为第一数目个子模型,每个训练参与方具有一个子模型,所述方法包括:
执行下述循环过程,直到满足循环结束条件:
将训练样本数据提供给当前非线性机器学习模型,以经由各个训练参与方和可信计算设备配合计算来得到所述当前非线性机器学习模型的当前预测值,其中,所述当前非线性机器学习模型的模型计算被按照第一模型计算和第二模型计算间隔的方式分割为至少一个第一模型计算和至少一个第二模型计算,所述第一模型计算是线性模型计算,所述第二模型计算包括非线性模型计算,针对各个第一模型计算,经由各个训练参与方,使用各自当前子模型的对应模型参数以及所述训练样本数据或者在前第二模型计算的计算结果来进行多方安全计算,以得到该第一模型计算的计算结果,以及针对各个第二模型计算,使用在前第一模型计算的计算结果来在所述可信计算设备的可信执行环境中进行可信计算,以得到该第二模型计算的计算结果;
基于所述当前预测值和样本标记值,确定当前预测差值;以及
在不满足所述循环结束条件时,根据所述当前预测差值,调整各个训练参与方处的子模型,所述调整后的各个训练参与方处的子模型充当下一循环过程的各个训练参与方处的当前子模型。


2.如权利要求1所述的非线性机器学习模型训练方法,其中,各个训练参与方与所述可信计算设备之间交互的计算结果是经过加密后的计算结果。


3.如权利要求1所述的非线性机器学习模型训练方法,其中,所述第二模型计算还包括线性模型计算,以及所述第一模型计算的数目根据用于模型训练的算力、应用场景所要求的训练时效性和/或模型训练精度来确定。


4.如权利要求1所述的非线性机器学习模型训练方法,其中,所述可信计算设备包括SGX设备或TrustZone设备。


5.如权利要求1所述的非线性机器学习模型训练方法,其中,所述当前预测差值的确定过程在所述可信计算设备执行或者在拥有所述样本标记值的训练参与方处执行。


6.如权利要求1所述的非线性机器学习模型训练方法,其中,所述循环结束条件包括:
循环次数达到预定次数;或者
当前预测差值在预定差值范围内。


7.如权利要求1所述的非线性机器学习模型训练方法,其中,所述多方安全计算包括秘密共享、混淆电路和同态加密中的一种。


8.如权利要求1所述的非线性机器学习模型训练方法,其中,所述非线性机器学习模型包括逻辑回归模型或者神经网络模型。


9.如权利要求1到8中任何一个所述的非线性机器学习模型训练方法,其中,所述训练样本数据包括基于图像数据、语音数据或者文本数据的训练样本数据,或者所述训练样本数据包括用户特征数据。


10.一种基于非线性机器学习模型的模型预测方法,其中,所述非线性机器学习模型经由第一数目个模型拥有方协同训练出并且被分解为第一数目个子模型,每个模型拥有方具有一个子模型,所述模型预测方法包括:
接收待预测数据;以及
将所述待预测数据提供给非线性机器学习模型,以经由各个模型拥有方和可信计算设备配合计算来得到所述非线性机器学习模型的预测值,
其中,所述非线性机器学习模型的模型计算被按照第一模型计算和第二模型计算间隔的方式分割为至少一个第一模型计算和至少一个第二模型计算,所述第一模型计算是线性模型计算,所述第二模型计算包括非线性模型计算,针对各个第一模型计算,经由各个模型拥有方,使用各自子模型的对应模型参数以及所述待预测数据或者在前第二模型计算的计算结果来进行多方安全计算,以得到该第一模型计算的计算结果,以及针对各个第二模型计算,使用在前第一模型计算的计算结果来在所述可信计算设备的可信执行环境中进行可信计算,以得到该第二模型计算的计算结果。

【专利技术属性】
技术研发人员:陈超超王力周俊
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1