当前位置: 首页 > 专利查询>清华大学专利>正文

基于课程学习的共享参数神经架构搜索方法、装置及产品制造方法及图纸

技术编号:35649944 阅读:17 留言:0更新日期:2022-11-19 16:44
本申请实施例涉及深度学习领域,提供了一种基于课程学习的共享参数神经架构搜索方法、装置及产品,包括:通过在超网络的训练过程中,搜索多个采样子网络来计算每个数据样本的不确定度,基于所述不确定度对所述数据样本设置数据权重,进而优化所述超网络并确定最优架构。本申请实施例通过动态调节数据样本的数据权重,提高了需要着重学习的数据样本的数据权重,从而使具有潜力但是暂时效果不佳的子网络的架构能够在这些数据权重高的数据样本上进行重点学习,得到充分训练从而提高被搜索到的概率,充分发挥出了数据在神经架构搜索过程中的作用,同时在优化超网络后搜索最优架构,实现了搜索过程中模型和数据的双层优化。现了搜索过程中模型和数据的双层优化。现了搜索过程中模型和数据的双层优化。

【技术实现步骤摘要】
基于课程学习的共享参数神经架构搜索方法、装置及产品


[0001]本申请实施例涉及深度学习领域,具体而言,涉及一种基于课程学习的共享参数神经架构搜索方法、装置及产品。

技术介绍

[0002]神经架构搜索是深度学习领域重要的研究方向,用于自动化生成神经网络模型架构。其中,共享参数的神经架构搜索方法时通过共享搜索空间内所有架构的可训练权重参数,避免了对每一个架构参数的重新训练,从而大幅提高搜索效率。
[0003]目前的共享参数的神经架构搜索方法都忽视了训练数据分布对于架构搜索的影响,简单地将每一个数据样本都同等对待。然而,由于不同的架构对于不同数据样本的拟合能力存在差异,会导致一些性能一般的结构由于在训练前期表现良好而始终占据优势,而另一些具有潜力的架构则无法得到充分训练而难以在验证阶段脱颖而出。因此,如何使具有潜力但暂时效果不佳的架构能够得到充分训练并提高被搜索到的概率,是当前亟待解决的问题。

技术实现思路

[0004]本申请实施例在于提供一种基于课程学习的共享参数神经架构搜索方法、装置及产品,旨在解决使具有潜力但暂时效果不佳的架构能够得到充分训练并提高被搜索到的概率问题。
[0005]本申请实施例第一方面提供一种基于课程学习的共享参数神经架构搜索方法,包括:
[0006]根据搜索策略对超网络进行采样,得到多个采样子网络,所述多个采样子网络用于评估数据样本的不确定度;
[0007]向每个采样子网络中输入多组数据样本,得到所述每个采样子网络针对所述多组数据样本而输出的数据样本测量值集合;
[0008]根据所述每个采样子网络针对所述多组数据样本而输出的多组数据样本测量值集合,计算每组数据样本的不确定度,基于所述不确定度对所述数据样本设置数据权重,进而优化所述超网络并确定最优架构。
[0009]可选地,在计算得到所述每组数据样本的所述不确定度之后,还包括:
[0010]根据所述不确定度更新所述超网络的可学习参数,得到更新的可学习参数,以及,根据所述更新的可学习参数更新所述超网络的所述搜索策略,得到更新的搜索策略;
[0011]将所述更新的可学习参数和所述更新的搜索策略应用于所述超网络,重复执行上述采样、输入、计算不确定度以及更新的步骤直到收敛,得到最优可学习参数;
[0012]从具有所述最优可学习参数的超网络中,搜索出所述最优架构。
[0013]可选地,根据所述每个采样子网络针对所述多组数据样本而输出的数据样本测量值集合,计算每组数据样本的所述不确定度,包括:
[0014]将每组数据样本对应的数据样本测量值集合中,具有相同标签的数据样本测量值取出,作为每组数据样本的分布集合;
[0015]将所述分布集合假设为一个高斯分布;
[0016]计算所述多个分布集合对应的多个高斯分布的乘积并进行优化,得到优化后的高斯分布式;
[0017]对所述优化后的高斯分布式进行计算,得到高斯分布的标准差;
[0018]将所述每组数据样本的分布集合对应的高斯分布的标准差,作为每组数据样本的不确定度。
[0019]可选地,根据所述不确定度更新所述超网络的可学习参数,得到更新的可学习参数,包括:
[0020]对所述每组数据样本的不确定度进行正则化,将每组数据样本的不确定度的正则化结果作为每组数据样本的数据权重;
[0021]将所述每组数据样本的数据权重加权于所述超网络的损失函数,得到加权的损失函数;
[0022]根据所述加权的损失函数,计算使所述加权的损失函数取最小值的可学习参数,作为更新的可学习参数。
[0023]可选地,计算所述多个分布集合对应的多个高斯分布的乘积并进行优化,得到优化后的高斯分布式,具体为:
[0024]由独立同分布假设,k个高斯分布p(f
k
(x)|y)的乘积为:
[0025][0026]根据最大似然准则,进行优化得到:
[0027][0028]其中,p(f
k
(x)|y)为所述第k个分布集合对应的高斯分布;K为所述分布集合对应的高斯分布的数目,1≤k≤K;样本x与标签y组成所述一组数据样本。
[0029]可选地,对所述优化后的高斯分布式进行计算,得到高斯分布的标准差,具体为:
[0030]对于回归问题的损失函数L(f(x),y)=(y

f(x))2,有回归问题优化式为
[0031][0032]其中,p(f
k
(x)|y)为所述第k个分布集合对应的高斯分布;K为所述分布集合对应的高斯分布的数目,1≤k≤K;σ为高斯分布的标准差;L为所述回归问题的损失函数;样本x与标签y组成所述一组数据样本;
[0033]对所述回归问题优化式求最小值并求导,得到高斯分布的标准差。
[0034]可选地,对所述优化后的高斯分布式进行计算,得到高斯分布的标准差,具体为:
[0035]对于分类问题的损失函数L(f(x),y)=

ylogSoftmaxf(x),有分类问题优化式为
[0036][0037]当σ

1时取等号;
[0038]其中,Softmax为归一化指数函数;p(f
k
(x)|y)为所述第k个分布集合对应的高斯分布;K为所述分布集合对应的高斯分布的数目,1≤k≤K;σ为高斯分布的标准差;L为所述分类问题的损失函数;样本x与标签y组成所述一组数据样本;
[0039]对所述分类问题优化式求最小值并求导,得到高斯分布的标准差。
[0040]本申请实施例第二方面提供一种基于课程学习的共享参数神经架构搜索装置,包括:
[0041]采样模块,用于根据搜索策略对超网络进行采样,得到多个采样子网络,所述多个采样子网络用于评估数据样本的不确定度;
[0042]测量模块,用于向每个采样子网络中输入多组数据样本,得到所述每个采样子网络针对所述多组数据样本而输出的数据样本测量值集合;
[0043]不确定度计算模块,用于根据所述每个采样子网络针对所述多组数据样本而输出的多组数据样本测量值集合,计算每组数据样本的不确定度,基于所述不确定度对所述数据样本设置数据权重,进而优化所述超网络并确定最优架构。
[0044]可选地,在计算得到所述每组数据样本的所述不确定度之后,所述装置还包括:
[0045]更新模块,用于根据所述不确定度更新所述超网络的可学习参数,得到更新的可学习参数,以及,根据所述更新的可学习参数更新所述超网络的所述搜索策略,得到更新的搜索策略;
[0046]迭代模块,用于将所述更新的可学习参数和所述更新的搜索策略应用于所述超网络,重复执行上述采样、输入、计算不确定度以及更新的步骤直到收敛,得到最优可学习参数;
[0047]搜索模块,用于从具有所述最优可学习参数的超网络中,搜索出所述最优架构。
[0048]其中,所述不确定度计算模块本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于课程学习的共享参数神经架构搜索方法,其特征在于,包括:根据搜索策略对超网络进行采样,得到多个采样子网络,所述多个采样子网络用于评估数据样本的不确定度;向每个采样子网络中输入多组数据样本,得到所述每个采样子网络针对所述多组数据样本而输出的数据样本测量值集合;根据所述每个采样子网络针对所述多组数据样本而输出的多组数据样本测量值集合,计算每组数据样本的不确定度,基于所述不确定度对所述数据样本设置数据权重,进而优化所述超网络并确定最优架构。2.根据权利要求1所述的基于课程学习的共享参数神经架构搜索方法,其特征在于,在计算得到所述每组数据样本的所述不确定度之后,还包括:根据所述不确定度更新所述超网络的可学习参数,得到更新的可学习参数,以及,根据所述更新的可学习参数更新所述超网络的所述搜索策略,得到更新的搜索策略;将所述更新的可学习参数和所述更新的搜索策略应用于所述超网络,重复执行上述采样、输入、计算不确定度以及更新的步骤直到收敛,得到最优可学习参数;从具有所述最优可学习参数的超网络中,搜索出所述最优架构。3.根据权利要求1所述的基于课程学习的共享参数神经架构搜索方法,其特征在于,根据所述每个采样子网络针对所述多组数据样本而输出的数据样本测量值集合,计算每组数据样本的所述不确定度,包括:将每组数据样本对应的数据样本测量值集合中,具有相同标签的数据样本测量值取出,作为每组数据样本的分布集合;将所述分布集合假设为一个高斯分布;计算所述多个分布集合对应的多个高斯分布的乘积并进行优化,得到优化后的高斯分布式;对所述优化后的高斯分布式进行计算,得到高斯分布的标准差;将所述每组数据样本的分布集合对应的高斯分布的标准差,作为每组数据样本的不确定度。4.根据权利要求2所述的基于课程学习的共享参数神经架构搜索方法,其特征在于,根据所述不确定度更新所述超网络的可学习参数,得到更新的可学习参数,包括:对所述每组数据样本的不确定度进行正则化,将每组数据样本的不确定度的正则化结果作为每组数据样本的数据权重;将所述每组数据样本的数据权重加权于所述超网络的损失函数,得到加权的损失函数;根据所述加权的损失函数,计算使所述加权的损失函数取最小值的可学习参数,作为更新的可学习参数。5.根据权利要求3所述的基于课程学习的共享参数神经架构搜索方法,其特征在于,计算所述多个分布集合对应的多个高斯分布的乘积并进行优化,得到优化后的高斯分布式,具体为:由独立同分布假设,k个高斯分布p(f
k
(x)|y)的乘积为:
根据最大似然准则,进行优化得到:其中,p(f
k
(x)|y)为所述第k个分布集合对应的高斯分布;K为所述分布集合对应的高斯分布的数目,1≤k≤K;样本x与标...

【专利技术属性】
技术研发人员:朱文武王鑫周煜威
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1