System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种神经网络结构搜索方法、装置、电子设备及存储介质制造方法及图纸_技高网

一种神经网络结构搜索方法、装置、电子设备及存储介质制造方法及图纸

技术编号:41066490 阅读:7 留言:0更新日期:2024-04-24 11:20
本申请公开了一种神经网络结构搜索方法、装置、电子设备及存储介质。上述方法包括:基于梯度优化的神经网络搜索算法,将神经网络结构的搜索操作转化为通过上层目标函数和下层目标函数分别对神经网络结构的结构权重和网络权重进行双层优化的操作;分别估计上层目标函数关于结构权重的第一梯度以及下层目标函数关于网络权重的第二梯度,以根据第一梯度和第二梯度构建基于动量递归的神经网络结构搜索模型;第一梯度包括上层目标函数关于结构权重的瞬时梯度和历史梯度,第二梯度包括下层目标函数关于网络权重的瞬时梯度和历史梯度;根据基于动量递归的神经网络结构搜索模型对神经网络结构的结构权重和网络权重进行双层优化,以搜索得到神经网络结构。

【技术实现步骤摘要】

本申请实施例涉及深度学习,特别涉及一种神经网络结构搜索方法、装置、电子设备及存储介质


技术介绍

1、基于梯度优化的神经网络搜索算法(darts)的关键创新在于将离散的网络结构搜索问题转化为一个对连续变量进行优化的问题,这一改变是通过将操作的选择过程松弛为连续的值实现的,从而允许使用梯度优化方法来求解最优网络结构权重。这种基于梯度优化的网络结构搜索算法可以将网络结构的搜索集成到端到端训练流程中,从而大幅地提高了搜索效率。

2、但是当前基于梯度优化的网络结构搜索算法存在一个尚未克服的挑战:在双层优化框架中梯度估计不准确的问题。而搜索过程的梯度估计的不准确会导致出现在多次运行基于梯度优化的网络结构搜索算法之后,搜索到的网络结构并不一致,甚至有时候搜索出来的网络结构的性能比随机搜索得到的网络结构的性能都要差的问题。例如,可能搜索到含有大量跳跃连接的网络结构,甚至出现整个网络结构全都是跳跃连接的极端情况,或者,搜索到的网络结构倾向于特定的网络构架,网络结构特征为较宽且浅层。


技术实现思路

1、本申请实施例的目的在于提供一种神经网络结构搜索方法、装置、电子设备及存储介质,可以提升网络结构搜索过程中梯度估计的准确度,从而提升搜索到的网络结构的性能。

2、为解决上述技术问题,本申请的实施例提供了一种神经网络结构搜索方法,包括以下步骤:基于梯度优化的神经网络搜索算法darts,将神经网络结构的搜索操作转化为通过上层目标函数和下层目标函数分别对所述神经网络结构的结构权重和网络权重进行双层优化的操作;分别估计所述上层目标函数关于所述结构权重的第一梯度以及所述下层目标函数关于所述网络权重的第二梯度,以根据所述第一梯度和所述第二梯度构建基于动量递归的神经网络结构搜索模型;其中,所述第一梯度包括所述上层目标函数关于所述结构权重的瞬时梯度和历史梯度,所述第二梯度包括所述下层目标函数关于所述网络权重的瞬时梯度和历史梯度;根据所述基于动量递归的神经网络结构搜索模型对所述神经网络结构的结构权重和网络权重进行双层优化,以搜索得到所述神经网络结构。

3、本申请的实施例还提供了一种神经网络结构搜索装置,包括:操作转化模块,用于基于梯度优化的神经网络搜索算法darts,将神经网络结构的搜索操作转化为通过上层目标函数和下层目标函数分别对所述神经网络结构的结构权重和网络权重进行双层优化的操作;梯度估计模块,用于分别估计所述上层目标函数关于所述结构权重的第一梯度以及所述下层目标函数关于所述网络权重的第二梯度,以根据所述第一梯度和所述第二梯度构建基于动量递归的神经网络结构搜索模型;其中,所述第一梯度包括所述上层目标函数关于所述结构权重的瞬时梯度和历史梯度,所述第二梯度包括所述下层目标函数关于所述网络权重的瞬时梯度和历史梯度;网络搜索模块,用于根据所述基于动量递归的神经网络结构搜索模型对所述神经网络结构的结构权重和网络权重进行双层优化,以搜索得到所述神经网络结构。

4、本申请的实施例还提供了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器中存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述神经网络结构搜索方法。

5、本申请的实施例还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述神经网络结构搜索方法。

6、在一些可选的实施例中,所述上层目标函数关于结构权重的瞬时梯度以及所述下层目标函数关于网络权重的瞬时梯度均通过纽曼级数近似和黑塞向量积策略结合估计得到。本申请可以减少对高昂计算资源的需求,并提升梯度估计的效率。

7、在一些可选的实施例中,所述基于动量递归的神经网络结构搜索模型通过以下公式表示:

8、

9、其中,gt表示第t次迭代过程中的第一梯度或者第二梯度,gt-1表示第t-1次迭代过程中的第一梯度或者第二梯度,表示第t次迭代过程中所述上层目标函数关于结构权重的瞬时梯度或者第t次迭代过程中所述下层目标函数关于网络权重的瞬时梯度,β为预设的动量系数。

10、在一些可选的实施例中,所述神经网络结构的结构权重通过以下公式进行优化:

11、

12、其中,表示第t次迭代过程中的第一梯度,表示第t次迭代过程中所述上层目标函数关于结构权重的瞬时梯度,表示第t-1次迭代过程中的第一梯度,表示第t-1次迭代过程中所述上层目标函数关于结构权重的瞬时梯度,为预设的第一超参数。

13、在一些可选的实施例中,所述神经网络结构的网络权重通过以下公式进行优化:

14、

15、其中,表示第t次迭代过程中的第二梯度,表示第t次迭代过程中所述下层目标函数关于网络权重的瞬时梯度,表示第t-1次迭代过程中的第二梯度,表示第t-1次迭代过程中所述下层目标函数关于网络权重的瞬时梯度,为预设的第二超参数。

16、在一些可选的实施例中,所述基于动量递归的神经网络结构搜索模型通过以下公式表示::

17、

18、其中,gt表示第t次迭代过程中的第一梯度或者第二梯度,gt-1表示第t-1次迭代过程中的第一梯度或者第二梯度,表示第t次迭代过程中上层目标函数关于结构权重的瞬时梯度或者第t次迭代过程中所述下层目标函数关于网络权重的瞬时梯度,表示第t次迭代过程中所述下层目标函数关于网络权重的瞬时梯度与第t-1次迭代过程中所述下层目标函数关于网络权重的瞬时梯度之间的差异,或者第t次迭代过程中所述上层目标函数关于结构权重的瞬时梯度与第t-1次迭代过程中所述上层目标函数关于结构权重的瞬时梯度之间的差异,,β为预设的动量系数。

19、在一些可选的实施例中,所述第一超参数和所述第二超参数在每一次迭代过程中逐步递减。本申请可以增强梯度估计的稳定性。

20、本申请的实施例提供的神经网络结构搜索方法能够达到以下有益效果:

21、基于梯度优化的神经网络搜索算法darts,将神经网络结构的搜索操作转化为通过上层目标函数和下层目标函数分别对神经网络结构的结构权重和网络权重进行双层优化的操作,则后续通过优化结构权重和网络权重实现神经网络结构的搜索,分别估计上层目标函数关于结构权重的第一梯度以及下层目标函数关于网络权重的第二梯度,以根据第一梯度和第二梯度构建基于动量递归的神经网络结构搜索模型,最后根据基于动量递归的神经网络结构搜索模型对神经网络结构的结构权重和网络权重进行双层优化,以搜索得到神经网络结构。

22、本申请中不仅仅关注了神经网络在迭代过程中目标函数的瞬时梯度(即上层目标函数关于结构权重的瞬时梯度以及下层目标函数关于网络权重的瞬时梯度),还考虑到了历史迭代过程中的梯度信息(即上层目标函数关于结构权重的历史梯度以及下层目标函数关于网络权重的瞬历史梯度),将两者相结合可以更加平滑的估计迭代过程中的梯度,从而对迭代过程中产生的梯度估计误差进行校本文档来自技高网...

【技术保护点】

1.一种神经神经网络结构搜索方法,其特征在于,包括:

2.根据权利要求1所述的神经网络结构搜索方法,其特征在于,所述上层目标函数关于结构权重的瞬时梯度以及所述下层目标函数关于网络权重的瞬时梯度均通过纽曼级数近似和黑塞向量积策略结合估计得到。

3.根据权利要求2所述的神经网络结构搜索方法,其特征在于,所述第一梯度或者所述第二梯度通过以下公式表示:

4.根据权利要求1中所述的神经网络结构搜索方法,其特征在于,所述神经网络结构的结构权重通过以下公式进行优化:

5.根据权利要求4所述的神经网络结构搜索方法,其特征在于,所述神经网络结构的网络权重通过以下公式进行优化:

6.根据权利要求2所述的神经网络结构搜索方法,其特征在于,所述第一梯度或者所述第二梯度通过以下公式表示::

7.根据权利要求5所述的神经网络结构搜索方法,其特征在于,所述第一超参数和所述第二超参数在每一次迭代过程中逐步递减。

8.一种神经网络结构搜索装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的神经网络结构搜索方法。

...

【技术特征摘要】

1.一种神经神经网络结构搜索方法,其特征在于,包括:

2.根据权利要求1所述的神经网络结构搜索方法,其特征在于,所述上层目标函数关于结构权重的瞬时梯度以及所述下层目标函数关于网络权重的瞬时梯度均通过纽曼级数近似和黑塞向量积策略结合估计得到。

3.根据权利要求2所述的神经网络结构搜索方法,其特征在于,所述第一梯度或者所述第二梯度通过以下公式表示:

4.根据权利要求1中所述的神经网络结构搜索方法,其特征在于,所述神经网络结构的结构权重通过以下公式进行优化:

5.根据权利要求4所述的神经网络结构搜索方法,其特征在于,所述...

【专利技术属性】
技术研发人员:夏勇马本腾刘琴
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1