面向联邦学习的模型自动训练方法技术

技术编号：36821809 阅读：15 留言：0更新日期：2023-03-12 01:02

一种面向联邦学习的模型自动训练方法，根据联邦学习平台所需的样本的数量和特征维度生成伪样本，采用XGBoost模型为基础进行训练任务的搭建，使用伪样本以连续二分减半的方法进行学习率和最大深度的参数搜索迭代，将最终的搜索结果作为联邦学习训练的配置参数。本发明专利技术通过不断提高数据集的采样比的迭代过程来缩小模型自动训练最佳参数的范围，从而避免地毯式、漫无目的地参数搜索。将整个搜索过程引导到一个合适的初始方向。在这个合适的范围内找到最合适的参数。在提高采样比的过程中通过不断变异生成近似子代的方式来获取适应更大样本的最佳参数。根据该参数搜索的算法特性，使整个搜索过程收敛得非常快且具有鲁棒性。使整个搜索过程收敛得非常快且具有鲁棒性。使整个搜索过程收敛得非常快且具有鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
面向联邦学习的模型自动训练方法

[0001]本专利技术涉及的是一种神经网络应用领域的技术，具体是一种面向联邦学习的模型自动训练方法。

技术介绍

[0002]针对完全搭建在联邦学习平台的简单的网格式搜索技术所导致的时间、内存资源占用过多、任务流搭建繁琐等问题，提出了全新的自动学习算法。通过独立于训练平台外的参数空间快速收缩和对参数空间添加扰动等方法，帮助整个训练任务流快速找到合适的训练启动方案。

技术实现思路

[0003]本专利技术提出一种面向联邦学习的模型自动训练方法，通过不断提高数据集的采样比的迭代过程来缩小模型自动训练最佳参数的范围，从而避免地毯式、漫无目的地参数搜索。将整个搜索过程引导到一个合适的初始方向。在这个合适的范围内找到最合适的参数。在提高采样比的过程中通过不断变异生成近似子代的方式来获取适应更大样本的最佳参数。根据该参数搜索的算法特性，使整个搜索过程收敛得非常快且具有鲁棒性。
[0004]本专利技术是通过以下技术方案实现的：
[0005]本专利技术涉及一种面向联邦学习的模型自动训练方法，根据联邦学习平台所需的样本的数量和特征维度生成伪样本，采用XGBoost模型为基础进行训练任务的搭建，使用伪样本以连续二分减半的方法进行学习率和最大深度的参数搜索迭代，将最终的搜索结果作为联邦学习训练的配置参数。
[0006]所述的伪样本，采用但不限于开源的基于python语言的机器学习工具包sklearn模拟训练得到。
[0007]本专利技术涉及一种实现上述方法的系统，...

【技术保护点】

【技术特征摘要】
1.一种面向联邦学习的模型自动训练方法，其特征在于，根据联邦学习平台所需的样本的数量和特征维度生成伪样本，采用XGBoost模型为基础进行训练任务的搭建，使用伪样本以连续二分减半的方法进行学习率和最大深度的参数搜索迭代，将最终的搜索结果作为联邦学习训练的配置参数。2.根据权利要求1所述的面向联邦学习的模型自动训练方法，其特征是，所述的联邦学习平台是指由多方企业在有隐私保护的情况下，拿出自己的数据共同参与某一模型的训练，使其达到更好的性能的训练平台；前端是指：一个多方用户都可共同登陆的平台，该平台能够上传下载数据，发起任务，管理任务，同时会有清晰的多方活动审计数据，后台是指：整个联邦学习的服务器，能够处理联邦学习任务流以及数据的存储。3.根据权利要求1或2所述的面向联邦学习的模型自动训练方法，其特征是，具体包括：步骤一、针对联邦学习模型训练的需求，快速构造伪样本数据集，从而避免在联邦学习过程中由于样本过大，需要从数据库读取，下载再传入到搜索模块的耗时过长的问题，具体包括：当联邦学习平台的前端发起训练时，同时向后台传输该样本的数量和特征维度，便于之后参数搜索模块的初始化以及后续数据的构建，根据样本的数量和特征维度，通过二分参数空间收缩得到一个在数量、特征维度上和真实样本相同并且符合正态分布的伪样本；所述的二分参数空间收缩是指：首先有一个默认的参数搜索空间，一共包含了N组参数，通过对目前的参数组进行评估，保留前50％表现最好的，直到参数组只剩一组；步骤二、针对邦学习模型自动训练及性能优化的需求，使用步骤一构建得到的伪样本进行学习率和最大深度的参数搜索，将最终的搜索结果作为联邦学习训练的配置参数，具体包括：2.1)参数初始化：初次迭代时设置学习率为[0.1.0.2，...，0.9]的区间，最大深度设置为[1，2...

【专利技术属性】
技术研发人员：唐鹏，邱卫东，黄征，罗宇辰，李昕朋，张浩臣，王强民，郭捷，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人