一种树模型构建方法、装置、电子设备及存储介质制造方法及图纸

技术编号:35136746 阅读:26 留言:0更新日期:2022-10-05 10:11
本申请提供了一种树模型构建方法、装置、电子设备及存储介质,用于改善目前联邦学习树模型的构建过程的安全性较低的问题。该树模型构建方法可以应用于联邦学习的第一参与方设备,该方法包括:获取样本数据和样本标签;根据样本数据和样本标签计算初始梯度值;若在树模型中已构建的子树数量小于预设阈值,则对初始梯度值进行加噪处理,获得加噪梯度值,并根据加噪梯度值构建树模型;若在树模型中已构建的子树数量大于或等于预设阈值,则对初始梯度值进行同态加密,获得加密梯度值,并根据加密梯度值构建树模型。度值构建树模型。度值构建树模型。

【技术实现步骤摘要】
一种树模型构建方法、装置、电子设备及存储介质


[0001]本申请涉及联邦学习和机器学习的
,具体而言,涉及一种树模型构建方法、装置、电子设备及存储介质。

技术介绍

[0002]联邦机器学习(Federated Machine Learning,FML),又被称为联邦学习(Federated Learning)、联合学习或者联盟学习,是一种机器学习技术,具体来说就是人们在多个拥有本地数据样本的分散式边缘设备或服务器上训练算法;这种方法与传统的集中式机器学习技术有显著不同,传统的集中式机器学习技术将所有的本地数据集上传到一个服务器上,而更经典的分散式方法则通常假设本地数据样本都是相同分布的。联邦机器学习是一个机器学习框架,能有效帮助多个机构在满足用户隐私保护、数据安全和法律法规的要求下,进行数据使用和机器学习建模。
[0003]在目前的联邦学习树模型的构建过程中,有标签方设备和无标签方设备可以相互通信;无标签方设备是指存储有用于训练模型的样本数据的设备,而有标签方设备是指存储有该样本数据对应样本标签的设备,包括两种情况:第一种情况,有标签方设备是仅仅包含该样本数据对应样本标签的设备;第二种情况,有标签方设备是既包含样本数据,又包含该样本数据对应样本标签的设备。有标签方设备需要在无需获知无标签设备上明文存储的样本数据的情况下,计算出样本数据对应预测标签与样本标签的损失值,并将损失值发送给无标签方设备,以使无标签方设备根据损失值计算出梯度值,使用梯度值对本地模型进行训练。在具体的实践过程中发现,目前联邦学习树模型的构建过程的安全性较低。

技术实现思路

[0004]本申请实施例的目的在于提供一种树模型构建方法、装置、电子设备及存储介质,用于改善目前联邦学习树模型的构建过程的安全性较低的问题。
[0005]第一方面,本申请实施例提供了一种树模型构建方法,应用于联邦学习的第一参与方设备,包括:获取样本数据和样本标签;根据样本数据和样本标签计算初始梯度值;若在树模型中已构建的子树数量小于预设阈值,则对初始梯度值进行加噪处理,获得加噪梯度值,并根据加噪梯度值构建树模型;若在树模型中已构建的子树数量大于或等于预设阈值,则对初始梯度值进行同态加密,获得加密梯度值,并根据加密梯度值构建树模型。在上述方案的实现过程中,通过在树模型中已构建的子树数量小于预设阈值时,直接根据加噪处理后的梯度值构建树模型,并且在子树数量大于或等于预设阈值时,直接根据同态加密后的梯度值构建树模型,由于无法根据加噪过的或加密过的梯度值形成的序列反向推测出样本数据的标签值,从而有效地满足了联邦学习的隐私保护要求,提高了联邦学习的安全性。
[0006]在第一方面的一种可选实现方式中,对初始梯度值进行加噪处理,包括:获取Laplace噪声或者差分隐私噪声,并在初始梯度值中添加Laplace噪声或者差分隐私噪声。
在上述方案的实现过程中,由于结合了对梯度值加噪(包括拉普拉斯Laplace噪声或者差分隐私噪声)和对梯度值同态加密两种方式来构建树模型,有效地改善了仅使用梯度值加噪方式来构建树模型导致数据标签等信息泄露给无标签方的问题,与此同时,由于使用加噪梯度值对树模型进行子树分裂的速度比使用同态加密梯度值的速度快,因此,也改善了仅使用同态加密方式来构建树模型的速度较慢的问题。
[0007]在第一方面的一种可选实现方式中,根据加噪梯度值构建树模型,包括:获取加噪梯度值对应的梯度总和;向联邦学习的多个第二参与方设备中的每个参与方设备分别发送加噪梯度值和加噪梯度值对应的梯度总和,以使每个参与方设备根据存储的特征数据、加噪梯度值和加噪梯度值对应的梯度总和计算出并返回第一分裂信息,分裂信息是树模型中已构建的子树分裂时所需信息;接收多个第二参与方设备发送的多个第一分裂信息;从多个第一分裂信息和本地计算出的第二分裂信息中筛选出目标分裂信息,并根据目标分裂信息对树模型进行子树分裂,直至树模型满足构建终止条件,第二分裂信息是对本地的特征数据、加噪梯度值和加噪梯度值对应的梯度总和计算获得的。
[0008]在上述方案的实现过程中,通过多个参与方设备根据存储的特征数据、加噪梯度值和加噪梯度值对应的梯度总和计算出分裂信息,并根据目标分裂信息对树模型进行子树分裂;由于使用加噪梯度值对树模型进行子树分裂的速度比使用同态加密梯度值的速度快,从而使得树模型的前几棵子树通过加噪梯度值来分裂,能够有效地提高了构建树模型的整体速度。
[0009]在第一方面的一种可选实现方式中,目标分裂信息包括:分裂值、分裂特征和分裂点;从多个第一分裂信息和本地计算出的第二分裂信息筛选出目标分裂信息,包括:从多个第一分裂信息和所述第二分裂信息的多个分裂值中筛选出最优分裂值;将最优分裂值、最优分裂值对应的分裂特征和分裂点确定为目标分裂信息。
[0010]在第一方面的一种可选实现方式中,根据目标分裂信息对树模型进行子树分裂,包括:判断是否存储有最优分裂值对应的分裂特征;若是,则根据最优分裂值对应的分裂特征和分裂点对树模型进行子树分裂,以生成树模型的至少一个子树。
[0011]在上述方案的实现过程中,通过在存储有最优分裂值对应的分裂特征的情况下,才根据最优分裂值对应的分裂特征和分裂点对树模型进行子树分裂,从而避免了没有使用最优分裂值对应的分裂特征和分裂点来构建树模型的问题,有效地提高了树模型的构建准确度。
[0012]在第一方面的一种可选实现方式中,根据加密梯度值构建树模型,包括:向联邦学习的多个第二参与方设备中的每个参与方设备分别发送加密梯度值,以使每个参与方设备根据存储的特征数据和加密梯度值计算出并返回第一分裂直方图;接收多个第二参与方设备发送的多个第一分裂直方图,并根据多个第一分裂直方图和本地计算出的第二分裂直方图,获得目标分裂信息,第二分裂直方图是对本地的特征数据和梯度值计算获得的;根据目标分裂信息对树模型进行子树分裂,直至树模型满足构建终止条件。
[0013]在上述方案的实现过程中,通过多个参与方设备根据接收的分裂直方图和本地计算出的分裂直方图计算出分裂信息,并分裂信息对树模型进行子树分裂,从而避免了其中一个参与方设备被其它参与方设备反向推测出样本数据的标签值的问题,从而有效地满足了联邦学习的隐私保护要求,提高了联邦学习的安全性。
[0014]在第一方面的一种可选实现方式中,还包括:获取待处理样本;使用树模型对待处理样本的类别进行预测,获得预测结果。
[0015]第二方面,本申请实施例提供了一种树模型构建装置,应用于联邦学习的第一参与方设备,包括:数据标签获取模块,用于获取样本数据和样本标签;初始梯度计算模块,用于根据样本数据和样本标签计算初始梯度值;梯度加噪构建模块,用于若在树模型中已构建的子树数量小于预设阈值,则对初始梯度值进行加噪处理,获得加噪梯度值,并根据加噪梯度值构建树模型;梯度加密构建模块,用于若在树模型中已构建的子树数量大于或等于预设阈值,则对初始梯度值进行同态加密,获得加密梯度值,并根据加密梯度值构建树模型。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种树模型构建方法,其特征在于,应用于联邦学习的第一参与方设备,包括:获取样本数据和样本标签;根据所述样本数据和所述样本标签计算初始梯度值;若在树模型中已构建的子树数量小于预设阈值,则对所述初始梯度值进行加噪处理,获得加噪梯度值,并根据所述加噪梯度值构建所述树模型;若在树模型中已构建的子树数量大于或等于预设阈值,则对所述初始梯度值进行同态加密,获得加密梯度值,并根据所述加密梯度值构建所述树模型。2.根据权利要求1所述的方法,其特征在于,所述对所述初始梯度值进行加噪处理,包括:获取Laplace噪声或者差分隐私噪声,并在所述初始梯度值中添加所述Laplace噪声或者所述差分隐私噪声。3.根据权利要求1所述的方法,其特征在于,所述根据所述加噪梯度值构建所述树模型,包括:获取所述加噪梯度值对应的梯度总和;向联邦学习的多个第二参与方设备中的每个参与方设备分别发送所述加噪梯度值和所述加噪梯度值对应的梯度总和,以使所述每个参与方设备根据存储的特征数据、所述加噪梯度值和所述加噪梯度值对应的梯度总和计算出并返回第一分裂信息,所述分裂信息是所述树模型中已构建的子树分裂时所需信息;接收所述多个第二参与方设备发送的多个第一分裂信息;从所述多个第一分裂信息和本地计算出的第二分裂信息筛选出目标分裂信息,所述第二分裂信息是对本地的特征数据、所述加噪梯度值和所述加噪梯度值对应的梯度总和计算获得的;根据所述目标分裂信息对所述树模型进行子树分裂,直至所述树模型满足构建终止条件。4.根据权利要求3所述的方法,其特征在于,所述目标分裂信息包括:分裂值、分裂特征和分裂点;所述从所述多个第一分裂信息和本地计算出的第二分裂信息筛选出目标分裂信息,包括:从所述多个第一分裂信息和所述第二分裂信息的多个分裂值中筛选出最优分裂值;将所述最优分裂值、所述最优分裂值对应的分裂特征和分裂点确定为所述目标分裂信息。5.根据权利要求4所述的方法,其特征在于,所述根据所述目标分裂信息对所述树模型进...

【专利技术属性】
技术研发人员:蔡晓娟陈立峰李腾飞邢旭卞阳
申请(专利权)人:上海富数科技有限公司广州分公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1