模型超参数优化方法、存储介质和电子设备技术

技术编号:36301917 阅读:13 留言:0更新日期:2023-01-13 10:18
本申请公开了一种模型超参数优化方法、存储介质和电子设备。其中,该方法包括:获取第一嵌入表示和第一统计模型;基于第一嵌入表示和第一统计模型进行联邦学习过程中的部分训练迭代轮次,获取第二嵌入表示和第二统计模型,其中,第二嵌入表示为多个客户端中每个客户端对应的目标嵌入表示,第二统计模型是对第一统计模型的模型性能指标进行优化后得到的模型;通过第二嵌入表示和第二统计模型进行联邦超参数优化,得到第一配置数据。本申请解决了相关技术中依赖完整训练迭代轮次或者单一策略网络进行联邦超参数优化导致超参数优化过程个性化难度大、资源消耗大且搜索效率低的技术问题。问题。问题。

【技术实现步骤摘要】
模型超参数优化方法、存储介质和电子设备


[0001]本申请涉及计算机
,具体而言,涉及一种模型超参数优化方法、存储介质和电子设备。

技术介绍

[0002]机器学习算法对超参数往往非常敏感,机器学习得到的模型的性能在很大程度上取决于超参数的选取。在联邦学习这样的分布式机器学习的过程中,不同的联邦参与者之间的数据分布不同(也即非独立同分布,non

IID),因此,联邦学习过程中的超参数优化问题实际上是极高维度的搜索问题,该搜索问题的搜索空间为各个联邦学习参与者的超参数搜索空间的笛卡尔积。并且,联邦学习为分布式机器学习,每次超参数评估都涉及多方通信,导致超参数优化过程成本极高,根据现有技术提供的方法无法在合理的资源消耗范围内实现超参数优化。
[0003]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0004]本专利技术实施例提供了一种模型超参数优化方法、存储介质和电子设备,以至少解决相关技术中依赖完整训练迭代轮次或者单一策略网络进行联邦超参数优化导致超参数优化过程个性化难度大、资源消耗大且搜索效率低的技术问题。
[0005]根据本专利技术实施例的一个方面,提供了一种模型超参数优化方法,包括:获取第一嵌入表示和第一统计模型,其中,第一嵌入表示为多个客户端中每个客户端对应的初始嵌入表示,第一统计模型为多个客户端共享的策略网络模型;基于第一嵌入表示和第一统计模型进行联邦学习过程中的部分训练迭代轮次,获取第二嵌入表示和第二统计模型,其中,第二嵌入表示为多个客户端中每个客户端对应的目标嵌入表示,第二统计模型是对第一统计模型的模型性能指标进行优化后得到的模型;通过第二嵌入表示和第二统计模型进行联邦超参数优化,得到第一配置数据,其中,第一配置数据为多个客户端中每个客户端对应的目标个性化超参数配置。
[0006]根据本专利技术实施例的另一方面,还提供了一种模型超参数优化方法,包括:获取商品推荐数据的第一嵌入表示和第一商品推荐统计模型,其中,第一嵌入表示为多个客户端中每个客户端对应的初始嵌入表示,第一商品推荐统计模型为多个客户端共享的策略网络模型;基于第一嵌入表示和第一商品推荐统计模型进行联邦学习过程中的部分商品推荐训练迭代轮次,获取商品推荐数据的第二嵌入表示和第二商品推荐统计模型,其中,第二嵌入表示为多个客户端中每个客户端对应的目标嵌入表示,第二商品推荐统计模型是对第一商品推荐统计模型的模型性能指标进行优化后得到的模型;通过第二嵌入表示和第二商品推荐统计模型进行联邦超参数优化,得到第一配置数据,其中,第一配置数据为多个客户端中每个客户端对应的目标个性化超参数配置。
[0007]根据本专利技术实施例的另一方面,还提供了一种模型超参数优化方法,包括:获取新
闻推荐数据的第一嵌入表示和第一新闻推荐统计模型,其中,第一嵌入表示为多个客户端中每个客户端对应的初始嵌入表示,第一新闻推荐统计模型为多个客户端共享的策略网络模型;基于第一嵌入表示和第一新闻推荐统计模型进行联邦学习过程中的部分新闻推荐训练迭代轮次,获取新闻推荐数据的第二嵌入表示和第二新闻推荐统计模型,其中,第二嵌入表示为多个客户端中每个客户端对应的目标嵌入表示,第二新闻推荐统计模型是对第一新闻推荐统计模型的模型性能指标进行优化后得到的模型;通过第二嵌入表示和第二新闻推荐统计模型进行联邦超参数优化,得到第一配置数据,其中,第一配置数据为多个客户端中每个客户端对应的目标个性化超参数配置。
[0008]根据本专利技术实施例的另一方面,还提供了一种计算机可读存储介质,上述计算机可读存储介质包括存储的程序,其中,在上述程序运行时控制上述计算机可读存储介质所在设备执行任意一项上述的模型超参数优化方法。
[0009]根据本专利技术实施例的另一方面,还提供了一种电子设备,包括:处理器;以及存储器,与上述处理器连接,用于为上述处理器提供处理以下处理步骤的指令:获取第一嵌入表示和第一统计模型,其中,第一嵌入表示为多个客户端中每个客户端对应的初始嵌入表示,第一统计模型为多个客户端共享的策略网络模型;基于第一嵌入表示和第一统计模型进行联邦学习过程中的部分训练迭代轮次,获取第二嵌入表示和第二统计模型,其中,第二嵌入表示为多个客户端中每个客户端对应的目标嵌入表示,第二统计模型是对第一统计模型的模型性能指标进行优化后得到的模型;通过第二嵌入表示和第二统计模型进行联邦超参数优化,得到第一配置数据,其中,第一配置数据为多个客户端中每个客户端对应的目标个性化超参数配置。
[0010]在本专利技术实施例中,获取第一嵌入表示和第一统计模型,其中,第一嵌入表示为多个客户端中每个客户端对应的初始嵌入表示,第一统计模型为多个客户端共享的策略网络模型,进一步基于第一嵌入表示和第一统计模型进行联邦学习,得到训练结果,其中,训练结果为联邦学习的完整训练课程得到的结果,通过利用训练结果中的部分训练课程,获取第二嵌入表示和第二统计模型,其中,第二嵌入表示为多个客户端中每个客户端对应的目标嵌入表示,第二统计模型是对第一统计模型的模型性能指标进行优化后得到的模型,并通过第二嵌入表示和第二统计模型进行联邦超参数优化,得到第一配置数据,其中,第一配置数据为多个客户端中每个客户端对应的目标个性化超参数配置。由此,本专利技术实施例达到了基于联邦学习中的部分联邦训练课程为多个客户端同时搜索它们各自的优化超参数配置的目的,从而实现了在合理的资源消耗范围内提高个性化的联邦超参数优化的效率的技术效果,进而解决了相关技术中依赖完整训练迭代轮次或者单一策略网络进行联邦超参数优化导致超参数优化过程个性化难度大、资源消耗大且搜索效率低的技术问题。
附图说明
[0011]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1示出了一种用于实现模型超参数优化方法的计算机终端(或移动设备)的硬件结构框图;图2是根据本申请实施例的一种模型超参数优化方法的流程图;
图3是根据本申请实施例的一种可选的模型超参数优化过程的示意图;图4是根据本申请实施例的另一种模型超参数优化方法的流程图;图5是根据本申请实施例的又一种模型超参数优化方法的流程图;图6是根据本申请实施例的一种模型超参数优化装置的结构示意图;图7是根据本申请实施例的一种可选的模型超参数优化装置的结构示意图;图8是根据本申请实施例的另一种模型超参数优化装置的结构示意图;图9是根据本申请实施例的另一种可选的模型超参数优化装置的结构示意图;图10是根据本申请实施例的又一种模型超参数优化装置的结构示意图;图11是根据本申请实施例的另一种计算机终端的结构框图。
具体实施方式
[0012]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型超参数优化方法,其特征在于,包括:获取第一嵌入表示和第一统计模型,其中,所述第一嵌入表示为多个客户端中每个客户端对应的初始嵌入表示,所述第一统计模型为所述多个客户端共享的策略网络模型;基于所述第一嵌入表示和所述第一统计模型进行联邦学习过程中的部分训练迭代轮次,获取第二嵌入表示和第二统计模型,其中,所述第二嵌入表示为所述多个客户端中每个客户端对应的目标嵌入表示,所述第二统计模型是对所述第一统计模型的模型性能指标进行优化后得到的模型;通过所述第二嵌入表示和所述第二统计模型进行联邦超参数优化,得到第一配置数据,其中,所述第一配置数据为所述多个客户端中每个客户端对应的目标个性化超参数配置。2.根据权利要求1所述的模型超参数优化方法,其特征在于,基于所述第一嵌入表示和所述第一统计模型进行联邦学习过程中的所述部分训练迭代轮次,获取所述第二嵌入表示和所述第二统计模型包括:基于所述第一嵌入表示和所述第一统计模型进行联邦学习,得到训练结果,其中,所述训练结果为联邦学习过程的完整训练迭代轮次得到的结果;利用所述训练结果中的所述部分训练迭代轮次,获取第二嵌入表示和第二统计模型。3.根据权利要求2所述的模型超参数优化方法,其特征在于,基于所述第一嵌入表示和所述第一统计模型进行联邦学习,得到所述训练结果包括:将所述第一嵌入表示输入至所述第一统计模型,输出第二配置数据,其中,所述第二配置数据为所述多个客户端中每个客户端对应的初始个性化超参数配置;基于所述第二配置数据进行联邦学习,记录所述第一统计模型在第一数量训练迭代轮次中每个训练迭代轮次的模型状态记录与模型性能指标,得到所述训练结果。4.根据权利要求3所述的模型超参数优化方法,其特征在于,利用所述部分训练迭代轮次,获取所述第二嵌入表示和所述第二统计模型包括:基于所述部分训练迭代轮次获取第三神经网络模型,其中,所述第三神经网络模型为所述第一数量训练迭代轮次中第一迭代轮次训练得到的模型;利用所述第一嵌入表示对所述第三神经网络模型进行训练,确定目标函数的目标取值;采用所述目标函数的目标取值对所述第一嵌入表示和所述第一统计模型进行持续更新,直至满足预设条件,得到所述第二嵌入表示和所述第二统计模型。5.根据权利要求4所述的模型超参数优化方法,其特征在于,基于所述部分训练迭代轮次获取所述第三神经网络模型包括:基于所述部分训练迭代轮次确定所述第一迭代轮次的模型状态记录;利用所述第一迭代轮次的模型状态记录恢复所述第三神经网络模型。6.根据权利要求4所述的模型超参数优化方法,其特征在于,利用所述第一嵌入表示对所述第三神经网络模型进行训练,确定所述目标函数的目标取值包括:基于所述第一嵌入表示对所述第三神经网络模型进行第二数量训练迭代轮次的训练,获取第四神经网络模型,其中,所述第四神经网络模型为所述第二数量训练迭代轮次中第二迭代轮次训练得到的模型;
通过所述第一迭代轮次对应的模型性能指标与所述第二迭代轮次对应的模型性能指标,确定所述目标函数的初始取值;利用所述第二数量训练迭代轮次中各个迭代轮次对应的模型性能指标对所述目标函数的初始取值进行更新,得到所述目标函数的目标取值。7.根据权利要求6所述的模型超参数优化方法,其特征在于,所述第二数量训练迭代轮次小于所述第一数量训练迭代轮次。8.根据权利要求6所述的模型超参数优化方法,其特征在于,利用所述第二数量训练迭代轮次中各个迭代轮次对应的模型性能指标对所述目标函数的初始取值进行更新,得到所述目标函数的目标取值包括:获取所述第二迭代轮次对应的模型性能指标相对于所述第一迭代轮次对应的模型性能指标的性能提升幅度;通过所述性能提升幅度确定初始性能基线;利用所述第二数量训练迭代轮次中各个迭代轮次对应的模型性能指标对所述初始性能基线进行更新,得到目标性能基线;基于所述目标性能基线对所述目标函数的初始取值进行更新,得到所述目标函数的目标取值。9.根据权利要求1所述的模型超参数优化方法,其特征在于,通过终端设备...

【专利技术属性】
技术研发人员:王桢程安达李雅亮丁博麟
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1