本申请提供一种联邦学习系统中集成学习模型及其构建方法。方法包括:确定联邦学习系统的优化目标和约束条件;系统中包含一个中心服务器以及多个参与方;设置集成学习模型的迭代次数,在每一轮迭代中,中心服务器随机选择预设数量个参与方进行并行的决策树训练,每个所选的参与方利用本地数据集训练出一棵决策树;将训练好的决策树发送给中心服务器进行聚合,聚合为一个基学习器,用于下一轮的迭代,更新全局的集成学习模型;中心服务器向各个参与方发送全局的集成学习模型,每个参与方利用本地数据集对全局的集成学习模型进行微调,最终获得个性化的、各自用于预测的集成学习模型。本申请的集成学习模型相较于现有的模型,预测准确度更高。准确度更高。准确度更高。
【技术实现步骤摘要】
一种联邦学习系统中集成学习模型及其构建方法
[0001]本申请涉及联邦学习
,具体涉及一种联邦学习系统中集成学习模型及其构建方法。
技术介绍
[0002]基于决策树的学习算法是一类重要的机器学习分支,在各项公开数据集的比赛中取得佳绩,并且应用广泛。决策树(Tree)模型因其对于数据类型和数据分布的不敏感性而具有显著应用价值。TreeBoost指的是一类集成学习算法,它基于梯度和误差信息迭代地训练决策树并将其组合为预测性能更佳的集成学习模型,并且在推荐、排序、用户行为预测、点击率预测、产品分类等应用中取得很好效果。虽然深度神经网络在近几年内获得广泛关注,但是TreeBoost 算法在有限数据集和缺乏调参信息的场景下显现优势。相比于深度神经网络,TreeBoost算法能够以更具可解释性的方式分析表单数据。
[0003]随着物联网的兴起,大数据不再以单一实体为主导,而是分散在不同的领域,形成大量的小数据集,数据分布各不相同。例如,每家医院都有自己有限的患者记录,并且可以从与其他医院的协作数据分析中受益,因为在综合数据集上训练机器学习模型可以获得更高的预测性能。然而,随着数据保护安全的意识和需求以及更多关于数据隐私的政策,在不同组织之间收集和共享数据将变得越来越困难。联邦学习(Federated Learning,FL)是一种广为接受的范例,它使多个数据提供者能够在不泄露用户私有数据的情况下协作训练基于树的集成模型。具体来说,在典型的FL框架中,每一方(也称为客户端)共享模型参数而不是原始数据,以协作提高模型性能。此外,如果客户端的本地数据是特征对齐的,则设置被认为是横向联邦学习。
[0004]近年来,研究人员针对如何在横向划分的联邦学习中部署TreeBoost进行了多项研究工作。但是,将现有解决方案应用于现实场景时仍有改进的余地。首先,在具有大量参与者的联邦学习系统中,数据异构性会降低预测性能并降低训练效率。具体来说,数据异构性是指每个客户端的数据分布具有任意偏向性的设置,也称为非独立分布(Non
‑
IID)。就总体趋势而言,为每个客户端训练单独模型而不是共享模型的个性化联邦学习已被合法化为解决数据异构性问题的有效手段。其次,FL系统没有严格的隐私保障。对于梯度提升树算法,从模型泄露的数据隐私主要来源于两方面:1)从梯度泄露本地数据信息;2)从决策树的叶子节点泄露数据的类别分布信息。然而现有的基于密码学方案需要大量的额外计算,而基于差分隐私的方案会导致训练出现偏差。
[0005]因此,如何在保证隐私的前提下,提升联邦学习场景下集成学习模型的预测精度是本领域亟需解决的技术问题。
技术实现思路
[0006]本申请的目的是提供一种联邦学习系统中集成学习模型及其构建方法,以提升联邦学习场景下集成学习模型的预测精度。
[0007]本申请第一方面提供一种联邦学习系统中集成学习模型的构建方法,包括:
[0008]确定联邦学习系统的优化目标和约束条件;所述联邦学习系统中包含一个中心服务器以及多个参与方,所述多个参与方参与集成学习模型的训练,同时避免暴露其本地数据;所述联邦学习系统采用星型拓扑的网络架构,多个参与方可同时与中心服务器进行通信;
[0009]设置集成学习模型的迭代次数,在每一轮迭代中,中心服务器随机选择预设数量个参与方进行并行的决策树训练,每个所选的参与方利用本地数据集,结合差分隐私机制训练出一棵决策树;
[0010]每个所选的参与方将训练好的决策树发送给中心服务器进行聚合,中心服务器将接收到的决策树聚合为一个基学习器,再将该基学习器发送给各参与方用于下一轮的迭代,以及根据该基学习器更新全局的集成学习模型,直至迭代完成;
[0011]中心服务器向各个参与方发送全局的集成学习模型,每个参与方利用本地数据集对全局的集成学习模型进行微调,最终获得每个参与方各自用于预测的集成学习模型。
[0012]在一些实施例中,所述每个参与方利用本地数据集对全局的集成学习模型进行微调,包括:
[0013]每个参与方基于本地数据集,利用预设的集成修剪算法对全局的集成学习模型进行微调。
[0014]在一些实施例中,所述每个参与方基于本地数据集,利用预设的集成修剪算法对全局的集成学习模型进行微调,包括:
[0015]基于本地数据集,利用预设的集成修剪算法计算集成学习模型中每个基学习器的权重,所述权重用于表征基学习器对于加入集成学习模型的适应度;
[0016]将权重大于预设阈值的基学习器保留在集成学习模型中,其余基学习器排除出集成学习模型,得到微调后的集成学习模型。
[0017]在一些实施例中,所述预设的集成修剪算法包括遗传算法。
[0018]在一些实施例中,所述基于本地数据集,利用预设的集成修剪算法计算集成学习模型中每个基学习器的权重,包括:
[0019]参与方m从本地数据集中随机采样T
ep
个数据集
[0020]参与方m随机生成P个基学习器的权重向量作为遗传算法的初始种群;
[0021]对于种群中各个权重向量,以交叉概率p
cross
进行两两交叉产生新的个体;
[0022]对于每个个体,以变异概率p
mut
对个体上的任一基因进行突变;
[0023]对于每个个体,根据微调后的集成学习模型在本地数据集上的错误率计算适应度其中,w表示基学习器的权重,表示用于微调集成学习模型的预设阈值;
[0024]选取适应度最高的N个个体进入下一轮遗传算法迭代;
[0025]迭代轮次达到T
ep
,选取适应度最高的个体作为基学习器的最终权重。
[0026]本申请第二方面提供一种集成学习模型,所述集成学习模型采用第一方面所述的联邦学习系统中集成学习模型的构建方法所创建。
[0027]本申请的联邦学习系统中集成学习模型及其构建方法的有益效果如下:
[0028]a)实现了决策树并发训练可行性
[0029]传统集成学习模型的构建方法是序列化地训练决策树,无法同时对多棵决策树进行训练。本申请的联邦学习系统采用星型拓扑的网络架构,确立了联邦学习系统并行传输的信息流,设计并行训练多颗决策树的残差计算方式,从而提升联邦学习系统的通信效率,实现了决策树并发训练可行性。
[0030]b)实现了隐私约束下性能提升可行性
[0031]对于数据集非独立同分布问题,本申请采用集成修剪算法对集成学习模型在异构数据集上进行微调,使用本地微调后的模型代替全局的集成学习进行预测,因此得到的定制化集成学习模型对于不同数据分布具有更好的适应性,从而提升其预测性能。
附图说明
[0032]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:<本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种联邦学习系统中集成学习模型的构建方法,其特征在于,包括:确定联邦学习系统的优化目标和约束条件;所述联邦学习系统中包含一个中心服务器以及多个参与方,所述多个参与方参与集成学习模型的训练,同时避免暴露其本地数据;所述联邦学习系统采用星型拓扑的网络架构,多个参与方可同时与中心服务器进行通信;设置集成学习模型的迭代次数,在每一轮迭代中,中心服务器随机选择预设数量个参与方进行并行的决策树训练,每个所选的参与方利用本地数据集,结合差分隐私机制训练出一棵决策树;每个所选的参与方将训练好的决策树发送给中心服务器进行聚合,中心服务器将接收到的决策树聚合为一个基学习器,再将该基学习器发送给各参与方用于下一轮的迭代,以及根据该基学习器更新全局的集成学习模型,直至迭代完成;中心服务器向各个参与方发送全局的集成学习模型,每个参与方利用本地数据集对全局的集成学习模型进行微调,最终获得每个参与方各自用于预测的集成学习模型。2.根据权利要求1所述的方法,其特征在于,所述每个参与方利用本地数据集对全局的集成学习模型进行微调,包括:每个参与方基于本地数据集,利用预设的集成修剪算法对全局的集成学习模型进行微调。3.根据权利要求2所述的方法,其特征在于,所述每个参与方基于本地数据集,利用预设的集成修剪算法对全局的集成学习模型进行微调,包括:基于本地数据集,利用预设的集成修剪算法计...
【专利技术属性】
技术研发人员:张斐斐,王智瑾,葛季栋,黄子峰,李传艺,
申请(专利权)人:南京大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。