【技术实现步骤摘要】
用于训练预测模型的方法和装置
本公开的实施例涉及计算机
,具体涉及人工智能
,尤其涉及用于训练预测模型的方法和装置。
技术介绍
随着人工智能技术和数据存储技术的发展,深度神经网络在许多领域取得了重要的成果。深度神经网络结构的设计对其性能具有直接的影响。传统的深度神经网络结构的设计由人工根据经验完成。人工设计网络结构需要大量的专家知识,并且针对不同的任务或应用场景需要分别针对性地进行网络结构的设计,成本较高。NAS(neuralarchitecturesearch,自动化神经网络结构搜索)是用算法代替繁琐的人工操作,自动搜索出最佳的神经网络架构。现有的模型结构自动搜索只能基于特定的约束条件进行搜索,例如针对指定的硬件设备型号进行搜索。然而,实际场景中的约束条件比较复杂,且变化很多,涉及到多种硬件种类,例如多种不同型号处理器。对每一种硬件,搜索约束也是繁多的,例如不同的延时约束。现有的方法需要针对每一种约束条件执行网络结构搜索,大量重复的网络结构搜索任务会消耗很多的计算资源,成本非常高。专利技 ...
【技术保护点】
1.一种用于训练预测模型的方法,所述预测模型用于预测神经网络结构的性能,所述方法包括通过采样操作训练所述预测模型;/n所述采样操作包括:/n从已训练完成的超网络中采样出子网络,并对采样出的子网络进行训练,得到训练完成的子网络的性能信息;/n基于所述训练完成的子网络和对应的性能信息构建样本数据,并利用样本数据训练所述预测模型;/n响应于确定当前采样操作中训练得到的预测模型的精度不满足预设的条件,执行下一次采样操作,并在下一次采样操作中增加采样的子网络的数量。/n
【技术特征摘要】
1.一种用于训练预测模型的方法,所述预测模型用于预测神经网络结构的性能,所述方法包括通过采样操作训练所述预测模型;
所述采样操作包括:
从已训练完成的超网络中采样出子网络,并对采样出的子网络进行训练,得到训练完成的子网络的性能信息;
基于所述训练完成的子网络和对应的性能信息构建样本数据,并利用样本数据训练所述预测模型;
响应于确定当前采样操作中训练得到的预测模型的精度不满足预设的条件,执行下一次采样操作,并在下一次采样操作中增加采样的子网络的数量。
2.根据权利要求1所述的方法,其中,所述从已训练完成的超网络中采样出子网络,包括:
采用初始的递归神经网络从所述已训练完成的超网络中采样出子网络;以及
在对采样出的子网络进行训练之前,所述采样操作还包括:
基于所述训练好的子网络的性能信息生成反馈信息,以基于所述反馈信息迭代更新所述递归神经网络;
基于迭代更新后的递归神经网络重新从已训练完成的超网络中采样出子网络。
3.根据权利要求1所述的方法,其中,所述从已训练完成的超网络中采样出子网络,包括:
从已训练完成的超网络中采样出未被采样过的子网络;以及
所述基于所述训练完成的子网络和对应的性能信息构建样本数据,包括:
基于当前采样操作中采样出的子网络和对应的性能信息、以及上一次采样操作中采样出的子网络和对应的性能信息构建样本数据。
4.根据权利要求1所述的方法,其中,所述采样操作还包括:
响应于确定所述预测模型的精度满足预设的条件,基于当前的采样操作的训练结果生成训练完成的预测模型。
5.根据权利要求1-4任一项所述的方法,其中,所述方法还包括:
基于训练完成的所述预测模型对预设的模型结构搜索空间内的模型结构的性能预测结果,以及预设的深度学习任务场景的性能约束条件,在所述模型结构搜索空间中搜索出满足所述性能约束条件的神经网络模型结构。
6.一种用于训练预测模型的装置,所述预测模型用于预测神经网络结构的性能,所述装置包括采样单元,被配置为通过采样操作训练所述预测模型;
所述采样单元执行的采样操作包括:
从已训练完成的超网络中采样出...
【专利技术属性】
技术研发人员:希滕,张刚,温圣召,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。