面向联邦学习的模型自动训练方法技术

技术编号:36821809 阅读:15 留言:0更新日期:2023-03-12 01:02
一种面向联邦学习的模型自动训练方法,根据联邦学习平台所需的样本的数量和特征维度生成伪样本,采用XGBoost模型为基础进行训练任务的搭建,使用伪样本以连续二分减半的方法进行学习率和最大深度的参数搜索迭代,将最终的搜索结果作为联邦学习训练的配置参数。本发明专利技术通过不断提高数据集的采样比的迭代过程来缩小模型自动训练最佳参数的范围,从而避免地毯式、漫无目的地参数搜索。将整个搜索过程引导到一个合适的初始方向。在这个合适的范围内找到最合适的参数。在提高采样比的过程中通过不断变异生成近似子代的方式来获取适应更大样本的最佳参数。根据该参数搜索的算法特性,使整个搜索过程收敛得非常快且具有鲁棒性。使整个搜索过程收敛得非常快且具有鲁棒性。使整个搜索过程收敛得非常快且具有鲁棒性。

【技术实现步骤摘要】
面向联邦学习的模型自动训练方法


[0001]本专利技术涉及的是一种神经网络应用领域的技术,具体是一种面向联邦学习的模型自动训练方法。

技术介绍

[0002]针对完全搭建在联邦学习平台的简单的网格式搜索技术所导致的时间、内存资源占用过多、任务流搭建繁琐等问题,提出了全新的自动学习算法。通过独立于训练平台外的参数空间快速收缩和对参数空间添加扰动等方法,帮助整个训练任务流快速找到合适的训练启动方案。

技术实现思路

[0003]本专利技术提出一种面向联邦学习的模型自动训练方法,通过不断提高数据集的采样比的迭代过程来缩小模型自动训练最佳参数的范围,从而避免地毯式、漫无目的地参数搜索。将整个搜索过程引导到一个合适的初始方向。在这个合适的范围内找到最合适的参数。在提高采样比的过程中通过不断变异生成近似子代的方式来获取适应更大样本的最佳参数。根据该参数搜索的算法特性,使整个搜索过程收敛得非常快且具有鲁棒性。
[0004]本专利技术是通过以下技术方案实现的:
[0005]本专利技术涉及一种面向联邦学习的模型自动训练方法,根据联邦学习平台所需的样本的数量和特征维度生成伪样本,采用XGBoost模型为基础进行训练任务的搭建,使用伪样本以连续二分减半的方法进行学习率和最大深度的参数搜索迭代,将最终的搜索结果作为联邦学习训练的配置参数。
[0006]所述的伪样本,采用但不限于开源的基于python语言的机器学习工具包sklearn模拟训练得到。
[0007]本专利技术涉及一种实现上述方法的系统,包括:伪样本构造模块、二分参数空间收缩模块和贪心遗传模块,其中:伪样本构造模块根据任务训练所需要的真实属性信息进行人工数据的伪造,得到样本空间特征和复杂度与真实样本信息相似的结果;二分参数空间收缩模块模块根据默认设置的参数空间生成数量M组参数,并用数量为的样本对于这M组参数进行评估后保留前50%的参数组,以此迭代最后得到一组最终的参数结果,作为正式训练的配置参数;贪心遗传模块根据当前迭代次数决定参与本次迭代的样本数量,在迭代中对目前的参数空间进行二分参数空间收缩模块并使用遗传算法,得到新的参数空间。技术效果
[0008]本专利技术针对联邦学习平台,短时间内提供可供训练任务的最佳参数配置。相比现有技术,本专利技术节省时间和资源开销,能够利用更少的时间以及计算机资源,快速获取最佳训练的参数配置。同时规避了直接在联邦训练平台上自动训练容易造成的资源不足和排队、数据从联邦学习平台直接获取的不兼容、隐私证书等情况。
附图说明
[0009]图1为本专利技术原理示意图;
[0010]图2为实施例中任务流示意图;
[0011]图中:a为自动学习模块的内部结构,b为参数空间收缩模块与贪心遗传模块之间的作用关系,c为参数收缩模块的内部原理示意图。
具体实施方式
[0012]如图1所示,为本实施例涉及一种面向联邦学习的模型自动训练方法,包括:
[0013]步骤一、针对联邦学习模型训练的需求,快速构造伪样本数据集,从而避免在联邦学习过程中由于样本过大,需要从数据库读取,下载再传入到搜索模块的耗时过长的问题,具体包括:当联邦学习平台的前端发起训练时,同时向后台传输该样本的数量和特征维度,便于之后参数搜索模块的初始化以及后续数据的构建,根据样本的数量和特征维度,通过二分参数空间收缩得到一个在数量、特征维度上和真实样本相同并且符合正态分布的伪样本。
[0014]所述的联邦学习平台是指由多方企业在有隐私保护的情况下,拿出自己的数据共同参与某一模型的训练,使其达到更好的性能的训练平台;前端是指:一个多方用户都可共同登陆的平台,该平台能够上传下载数据,发起任务,管理任务,同时会有清晰的多方活动审计数据,后台是指:整个联邦学习的服务器,能够处理联邦学习任务流以及数据的存储。
[0015]所述的二分参数空间收缩模块是指:首先有一个默认的参数搜索空间,一共包含了N组参数,通过对目前的参数组进行评估,保留前50%表现最好的,直到参数组只剩一组。
[0016]所述的生成,具体为:通过向sklearn的样本生成函数输入真实样本的数量和特征维度,得到符合该特征的伪样本。
[0017]步骤二、针对邦学习模型自动训练及性能优化的需求,使用步骤一构建得到的伪样本进行学习率和最大深度的参数搜索,将最终的搜索结果作为联邦学习训练的配置参数,具体包括:
[0018]参数初始化:初次迭代时设置学习率为[0.1.0.2,...,0.9]的区间,最大深度设置为[1,2,4,6,8],并将两个参数集合组成参数空间,作为连续减半算法(successive

halving)的初次搜索。
[0019]模型参数搜索:采用XGBoost模型,以连续减半算法进行参数搜索迭代,每次迭代时逐步增加采样比;
[0020]所述的连续减半算法是指:假设有n*n组超参数组合,然后对这n*n组超参数均匀地分配预算并进行验证评估,根据验证结果淘汰一半表现差的超参数组,然后重复迭代上述过程直到找到最终的一个最优超参数组合。
[0021]所述的逐步增加采样比,优选在新一轮迭代中,在给定的参数上添加多个扰动,构成一个新的参数空间,进行下一轮迭代,具体为:以当前最佳参数作为期望,以0.05作为标准差的一个1*5维的正态分布矩阵,将该矩阵乘以目前的最佳参数,的可以得到新的参数空间。其他特征的参数空间构造方法同理。
[0022]经过具体实际实验,在python3.6的具体环境设置下,以初始化参数空间,其中learning_rate:[0.07,0.14,0.21,0.28,0.35,0.42,0.49,0.56,0.63,0.7],树的深度为
[1,2,3,4,5,6,7],得到结果包括:在样本1(数据量10000特征维度20)的实验中,使用自动学习策略的方法最后的指标为97.4%,91.4%,92.3%(分别为正确率,准确率,召回率),而没有使用自动学习策略的指标为96.2%,93.0%,88.4%;样本2(数据量50000特征维度40)的实验中,使用自动学习策略的方法最后的指标为97.3%,91.5%,91.1%(分别为正确率,准确率,召回率),而没有使用自动学习策略的指标为94.8%,88.0%,87.8%;样本3(数据量100000特征维度80)的实验中,使用自动学习策略的方法最后的指标为97.8%,92.5%,92.3%(分别为正确率,准确率,召回率),而没有使用自动学习策略的指标为95.4%,88.0%,86.7%。
[0023]表1样本1数据量10000特征维度20 准确性精确性Recall本专利技术97.4%91.4%92.3%手动训练96.2%93.0%88.4%
[0024]表2样本2数据量50000特征维度40 准确性精确性Recall本专利技术97.3%91.5%91.1%手动训练94.8%88.0%87.8%
[0025]表3样本3数据量100000特征维度80表3样本3数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向联邦学习的模型自动训练方法,其特征在于,根据联邦学习平台所需的样本的数量和特征维度生成伪样本,采用XGBoost模型为基础进行训练任务的搭建,使用伪样本以连续二分减半的方法进行学习率和最大深度的参数搜索迭代,将最终的搜索结果作为联邦学习训练的配置参数。2.根据权利要求1所述的面向联邦学习的模型自动训练方法,其特征是,所述的联邦学习平台是指由多方企业在有隐私保护的情况下,拿出自己的数据共同参与某一模型的训练,使其达到更好的性能的训练平台;前端是指:一个多方用户都可共同登陆的平台,该平台能够上传下载数据,发起任务,管理任务,同时会有清晰的多方活动审计数据,后台是指:整个联邦学习的服务器,能够处理联邦学习任务流以及数据的存储。3.根据权利要求1或2所述的面向联邦学习的模型自动训练方法,其特征是,具体包括:步骤一、针对联邦学习模型训练的需求,快速构造伪样本数据集,从而避免在联邦学习过程中由于样本过大,需要从数据库读取,下载再传入到搜索模块的耗时过长的问题,具体包括:当联邦学习平台的前端发起训练时,同时向后台传输该样本的数量和特征维度,便于之后参数搜索模块的初始化以及后续数据的构建,根据样本的数量和特征维度,通过二分参数空间收缩得到一个在数量、特征维度上和真实样本相同并且符合正态分布的伪样本;所述的二分参数空间收缩是指:首先有一个默认的参数搜索空间,一共包含了N组参数,通过对目前的参数组进行评估,保留前50%表现最好的,直到参数组只剩一组;步骤二、针对邦学习模型自动训练及性能优化的需求,使用步骤一构建得到的伪样本进行学习率和最大深度的参数搜索,将最终的搜索结果作为联邦学习训练的配置参数,具体包括:2.1)参数初始化:初次迭代时设置学习率为[0.1.0.2,...,0.9]的区间,最大深度设置为[1,2...

【专利技术属性】
技术研发人员:唐鹏邱卫东黄征罗宇辰李昕朋张浩臣王强民郭捷
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1