基于联邦学习的隐私保护样本预测应用方法及系统技术方案

技术编号:32546784 阅读:12 留言:0更新日期:2022-03-05 11:45
本发明专利技术涉及一种基于联邦学习的隐私保护样本预测应用方法及系统,属于大数据技术领域。该发明专利技术的基于联邦学习的隐私保护样本预测应用方法包括模型训练流程和画像预测流程。模型训练流程利用同态密码技术实现主动参与方与被动参与方共同建立决策树模型,进一步利用该决策树模型实现预测。整体实现过程中,不论是主动参与或是与被动参与方都提供样本特征,而不会将本方用户信息暴露给对方,从而在基于多方参与者的数据的基础上提升模型效果的同时又能够兼顾各方隐私保护,有助于AI技术等的进一步推广发展。进一步推广发展。进一步推广发展。

【技术实现步骤摘要】
基于联邦学习的隐私保护样本预测应用方法及系统


[0001]本专利技术涉及大数据
,特别涉及机器学习
,具体是指一种基于联邦学习的隐私保护样本预测应用方法及系统。

技术介绍

[0002]随着AI技术的发展,基于大数据的应用场景愈加广泛。为提升应用的准确性,有必要建立基于大数据的精度数据模型。在不同的应用领域中,相同的样本存在不同的特征数据,将相同样本的不同特征加以整合能够有效提升模型效果。
[0003]然而不同领域的特征数据往往由不同的主体掌握,将数据开放给对方存在数据安全隐患和法律风险。因此,掌握用户数据的各个主体难以将各自的数据进行整合,对大数据的进一步推广应用产生了制约。
[0004]为解决上述问题,现有技术中提出了联邦学习的概念,其本质上是一种分布式机器学习技术,目标在于保证数据隐私安全的基础上,实现共同建模,提升AI模型的效果。
[0005]然而,现有的联邦学习实现过程中仍然存在将用户信息暴露给对方的风险,因此,如何提供一种避免用户信息暴露的,能够实现隐私保护的,基于联邦学习的样本预测应用方法成为本领域亟待解决的问题。

技术实现思路

[0006]本专利技术的目的是克服了上述现有技术中的缺点,提供一种可避免用户信息暴露的基于联邦学习的隐私保护样本预测应用方法及系统。
[0007]为了实现上述的目的,本专利技术的基于联邦学习的隐私保护样本预测应用方法包括模型训练流程和画像预测流程。
[0008]所述模型训练流程包括:
[0009]主动参与方与至少一个被动参与方均提供样本特征,所述的主动参与方计算当前节点的样本损失函数的梯度信息,并发送至所述被动参与方;
[0010]所述被动参与方根据所述的梯度信息产生聚合梯度信息并反馈给主动参与方;
[0011]所述的主动参与方根据所述的聚合梯度信息对当前样本节点的样本空间进行划分,将当前节点样本空间划分同步给所述的被动参与方;
[0012]所述的主动参与方进入划分后的下一个样本节点,通过多次迭代完成训练形成决策树模型;
[0013]所述画像预测流程包括:
[0014]所述的主动参与方根据待预测样本的实际特征值查询所述决策树模型的关联节点,获取该关联节点的标注样本特征值,所述的主动参与方将该标注样本特征值发送至所述被动参与方,询问下一节点;
[0015]所述的被动参与方根据所述的标注样本特征值确定与所述待预测样本关联的下一节点并反馈给所述的主动参与方;
[0016]通过多次迭代达到叶子节点获得预测结果。
[0017]该基于联邦学习的隐私保护样本预测应用方法中,所述的主动参与方计算当前节点的样本损失函数的梯度信息,并发送至所述被动参与方,具体为:
[0018]所述的主动参与方计算当前节点的样本损失函数的的一阶梯度和二阶梯度作为梯度信息,并两所述的梯度信息加密后发送至所述被动参与方。
[0019]该基于联邦学习的隐私保护样本预测应用方法中,所述的被动参与方根据所述的梯度信息产生聚合梯度信息并反馈给主动参与方,具体为:
[0020]所述的被动参与方对当前节点样本空间中的样本的特征进行分类,将每个样本特征的特征值映射至每个分类中,基于分类后的特征值,并根据所述的梯度信息,产生聚合梯度信息,并将该聚合梯度信息加密反馈给主动参与方。
[0021]该基于联邦学习的隐私保护样本预测应用方法中,所述的主动参与方根据所述的聚合梯度信息对当前样本节点的样本空间进行划分,将当前节点样本空间划分同步给所述的被动参与方,具体包括:
[0022]所述的主动参与方根据所述的聚合梯度信息,基于全局最优分割方法,计算获得分割当前样本节点的特征id和阈值id,并将所述的特征id和阈值id反馈给所述的被动参与方;
[0023]所述的被动参与方所述的特征id和阈值id对当前样本节点的样本空间进行划分,并确定特征的阈值,并对应记录该特征的记录id和阈值,并反馈给所述主动参与方;
[0024]所述主动参与方根据所述的记录id和阈值对当前节点进行划分,并将当前节点与所述的记录id关联,并将当前节点划分信息同步给所述的被动参与方。
[0025]该基于联邦学习的隐私保护样本预测应用方法中,所述的通过多次迭代完成训练形成决策树模型,具体为:
[0026]通过多次迭代形成决策树模型,并确定决策树中每个叶节点的最佳权值。
[0027]该基于联邦学习的隐私保护样本预测应用方法中,所述的主动参与方根据待预测样本的实际特征值查询所述决策树模型的关联节点,获取该关联节点的标注样本特征值,具体为:
[0028]所述的主动参与方查询所述的决策树模型与待预测样本的实际特征值关联的节点作为当前节点,根据当前节点的记录id查到的记录信息,所述记录信息包括标注样本特征值。
[0029]该基于联邦学习的隐私保护样本预测应用方法中,,所述的被动参与方根据所述的标注样本特征值确定与所述待预测样本关联的下一节点并反馈给所述的主动参与方,具体为:
[0030]所述的被动参与方将接收到的标注样本特征值与本地记录的阈值进行比较,并确定下一节点为当前节点的右子节点或左子节点,并将结果反馈给所述的主动参与方。
[0031]本专利技术还提供一种基于联邦学习的隐私保护样本预测应用系统,该系统包括通过网络连接的主动参与方与至少一个被动参与方,所述的主动参与方和被动参与方通过网络交互实现模型训练流程和画像预测流程,
[0032]所述模型训练流程包括:
[0033]所述的主动参与方计算当前节点的样本损失函数的梯度信息,并发送至所述被动
参与方;
[0034]所述被动参与方根据所述的梯度信息产生聚合梯度信息并反馈给主动参与方;
[0035]所述的主动参与方根据所述的聚合梯度信息对当前样本节点的样本空间进行划分,将当前节点样本空间划分同步给所述的被动参与方;
[0036]所述的主动参与方进入划分后的下一个样本节点,通过多次迭代完成训练形成决策树模型;
[0037]所述画像预测流程包括:
[0038]所述的主动参与方根据待预测样本的实际特征值查询所述决策树模型的关联节点,获取该关联节点的标注样本特征值,所述的主动参与方将该标注样本特征值发送至所述被动参与方,询问下一节点;
[0039]所述的被动参与方根据所述的标注样本特征值确定与所述待预测样本关联的下一节点并反馈给所述的主动参与方;
[0040]通过多次迭代达到叶子节点获得预测结果。
[0041]采用了该专利技术的基于联邦学习的隐私保护样本预测应用方法及系统,其包括模型训练流程和画像预测流程。模型训练流程利用同态密码技术实现主动参与方与被动参与方共同建立决策树模型,进一步利用该决策树模型实现预测。整体实现过程中,不论是主动参与或是与被动参与方都提供样本特征,而不会将本方用户信息暴露给对方,从而在基于多方参与者的数据的基础上提升模型效果的同时又能够兼顾各方隐本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于联邦学习的隐私保护样本预测应用方法,其特征在于,该方法包括模型训练流程和画像预测流程,所述模型训练流程包括:主动参与方与至少一个被动参与方均提供样本特征,所述的主动参与方计算当前节点的样本损失函数的梯度信息,并发送至所述被动参与方;所述被动参与方根据所述的梯度信息产生聚合梯度信息并反馈给主动参与方;所述的主动参与方根据所述的聚合梯度信息对当前样本节点的样本空间进行划分,将当前节点样本空间划分同步给所述的被动参与方;所述的主动参与方进入划分后的下一个样本节点,通过多次迭代完成训练形成决策树模型;所述画像预测流程包括:所述的主动参与方根据待预测样本的实际特征值查询所述决策树模型的关联节点,获取该关联节点的标注样本特征值,所述的主动参与方将该标注样本特征值发送至所述被动参与方,询问下一节点;所述的被动参与方根据所述的标注样本特征值确定与所述待预测样本关联的下一节点并反馈给所述的主动参与方;通过多次迭代达到叶子节点获得预测结果。2.根据权利要求1所述的基于联邦学习的隐私保护样本预测应用方法,其特征在于,所述的主动参与方计算当前节点的样本损失函数的梯度信息,并发送至所述被动参与方,具体为:所述的主动参与方计算当前节点的样本损失函数的的一阶梯度和二阶梯度作为梯度信息,并两所述的梯度信息加密后发送至所述被动参与方。3.根据权利要求1所述的基于联邦学习的隐私保护样本预测应用方法,其特征在于,所述的被动参与方根据所述的梯度信息产生聚合梯度信息并反馈给主动参与方,具体为:所述的被动参与方对当前节点样本空间中的样本的特征进行分类,将每个样本特征的特征值映射至每个分类中,基于分类后的特征值,并根据所述的梯度信息,产生聚合梯度信息,并将该聚合梯度信息加密反馈给主动参与方。4.根据权利要求1所述的基于联邦学习的隐私保护样本预测应用方法,其特征在于,所述的主动参与方根据所述的聚合梯度信息对当前样本节点的样本空间进行划分,将当前节点样本空间划分同步给所述的被动参与方,具体包括:所述的主动参与方根据所述的聚合梯度信息,基于全局最优分割方法,计算获得分割当前样本节点的特征id和阈值id,并将所述的特征id和阈值id反馈给所述的被动参与方;所述的被动参与方所述的特征id和阈值id对当前样本节点的样本空间进行划分,并确定特征的阈值,并对应记录该特征...

【专利技术属性】
技术研发人员:汤寒林
申请(专利权)人:贵州数据宝网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1