深度学习应用的超参数优化方法、装置、设备及存储介质制造方法及图纸

技术编号：31797007 阅读：13 留言：0更新日期：2022-01-08 10:57

本发明专利技术公开了一种深度学习应用的超参数优化方法、装置、设备及存储介质，该方法包括：获取多个粒子；基于多目标优化函数计算各粒子在目标组上的适应度值，并删除适应度值小于适应度阈值的粒子；如果当前粒子数量大于数量阈值，则删除势能最大的N个粒子，以使得粒子数量不大于数量阈值，否则，选择势能最小的粒子作为引导粒子，引导其他粒子移动；基于粒子的移动更新各粒子的位置，并返回执行基于多目标优化函数计算各粒子在目标组上的适应度值的步骤，直至达到预设要求为止，确定最终保留的各粒子均为优化所得参数数值。本申请利用基于数据场的多目标优化算法来寻求各项超参数与深度学习应用的最佳组合，有效加速深度学习部署效率。效率。效率。

全部详细技术资料下载

【技术实现步骤摘要】
深度学习应用的超参数优化方法、装置、设备及存储介质

[0001]本专利技术涉及人工智能业务
，更具体地说，涉及一种深度学习应用的超参数优化方法、装置、设备及存储介质。

技术介绍

[0002]随着计算力大幅提高，人工智能业务的广泛落地，数据中心中出现不同种类的高性能设备来满足人工智能业务的不同计算需求，如通用GPU来满足训练要求，专用计算卡(FPGA、ASIC等)来满足各种不同业务类型的计算要求，针对专门网络模型的训练或针对线上推理业务，不同种类的存储、网络设施也能够针对性的提高分布式训练和数据业务的需求。这些新兴的基础设施扮演的角色越来越重要，可以说是除了传统深度学习意义上超参数之外的新型参数，这些新的超参数虽然在模型精度上不会有影响，但是对于训练速度、业务上线效率以及稳定性却起着至关重要的作用，另外也能够提高数据中心的计算资源利用率和合理分配。
[0003]针对不同任务(视觉、自然语言、语音等)的模型结构各有不同，其模型中所用的不同参数如batch size、learning rate、weight decay等称作超参数，这些传统的超参数影响模型的收敛速度、精度等；但是模型结构的差异、参数量的不同也带来了对计算量需求的不同，这些其实在模型训练时算法人员并不能真实感知，这里涉及到模型结构、训练框架、编程语言、计算资源配置等多方面因素，所以如何加速深度学习部署效率，是目前本领域技术人员亟待解决的问题。

技术实现思路

[0004]本专利技术的目的是提供一种深度学习应用的超参数优化方法、装置...

【技术保护点】

【技术特征摘要】
1.一种深度学习应用的超参数优化方法，其特征在于，包括：获取多个粒子；单个粒子包含随机为参数组中各超参数进行随机赋值所得数值组，所述参数组包含深度学习应用需配置的各项超参数；基于多目标优化函数计算各粒子在目标组上的适应度值，并删除适应度值小于适应度阈值的粒子；所述目标组包含深度学习应用需实现的加速深度学习部署效率对应各项性能目标；如果当前粒子数量大于数量阈值，则删除势能最大的N个粒子，以使得粒子数量不大于数量阈值，否则，选择势能最小的粒子作为引导粒子，引导其他粒子移动；任意粒子的势能为基于该任意粒子的位置计算得到的；基于粒子的移动更新各粒子的位置，并返回执行基于多目标优化函数计算各粒子在目标组上的适应度值的步骤，直至达到预设要求为止，确定最终保留的各粒子均为优化所得参数数值。2.根据权利要求1所述的方法，其特征在于，基于多目标优化函数计算各粒子在目标组上的适应度值，包括：确定各粒子中任意粒子为当前粒子，基于各目标函数计算当前粒子在所述目标组中各性能目标上的适应度值，并对当前粒子在各性能目标上的适应度值进行加权求和计算，得到当前粒子在目标组上的适应度值。3.根据权利要求2所述的方法，其特征在于，确定当前是否达到预设要求，包括：判断执行基于多目标优化函数计算各粒子在目标组上的适应度值的步骤的次数是否达到次数阈值，如果是，则确定当前达到预设要求，否则，确定当前未达到预设要求。4.根据权利要求3所述的方法，其特征在于，获取多个粒子之后还包括：将获取的全部粒子均作为非支配解加入至外部解集中；基于多目标优化函数计算各粒子在目标组上的适应度值，包括：基于多目标优化函数计算所述外部解集中各粒子在目标组上的适应度值；删除相应的粒子，包括：从所述外部解集中删除相应的粒子；确定当前粒子数量是否大于数量阈值，包括：确定所述外部解集中粒子数量是否大于数量阈值。5.根据权利要求4所述的方法，其特征在于，获取参数组，包括：获取深度学习...

【专利技术属性】
技术研发人员：王超，
申请(专利权)人：苏州浪潮智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人