基于相似度运算符排序的神经架构搜索制造技术

技术编号:33625166 阅读:29 留言:0更新日期:2022-06-02 00:54
网络架构搜索(NAS)受到了许多关注。基于超网的可区分方法由于其可以有效地共享权重并进行更有效的搜索而变得流行。然而,由权重共享导致的架构与权重之间的不匹配仍然存在。此外,不同运算符之间的关联效应也被忽略。为了缓解这些问题,本文提出通过基于相似度的运算符排序的有效的NAS方法的实施方式。为了近似超网中每层的输出,使用基于统计随机比较的基于相似度的运算符排序。在一个或多个实施方式中,可能引起特征分布差异的最小改变的运算符被剪枝。在一个或多个实施方式中,可以使用公平采样过程来减轻先前超网方法中频繁发生的运算符的Matthew效应。的运算符的Matthew效应。的运算符的Matthew效应。

【技术实现步骤摘要】
【国外来华专利技术】基于相似度运算符排序的神经架构搜索


[0001]本公开总体上涉及可以提供改进的计算机性能、特征和用途的用于计算机学习的系统和方法。更具体地,本公开涉及克服传统神经架构搜索中的问题的有效方法。

技术介绍

[0002]深度学习被认为是近来人工智能出现的最成功的事情。深度神经网络在诸如计算机视觉、自然语言处理、推荐系统等的领域中取得了巨大的成功。然而,在不同任务中设计特定的神经架构是具有挑战性的。神经架构搜索(NAS)方法的出现旨在使神经架构设计的过程自动化。沿着此新颖方向的早期工作倾向于应用强化学习(RL)方法来遍历巨大的搜索空间,以寻找可能的神经网络架构。然后,基于进化的方法已被进一步用于在大型搜索空间中获得可能的最优解。这两种方法都是计算密集型的,因为NAS被视为离散域中的黑盒优化问题,产生了大量的架构评估,并且因此运行速度非常慢,即使在最先进的GPU机器上也是如此。
[0003]为了缓解这一瓶颈,H.Liu、K.Simonyan和Y.Yang在“DARTS:Differentiable Architecture Search,”CoR本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.用于执行神经网络架构搜索的计算机实现方法,包括:为已经过预训练的超网的一组层中的每层赋予一组初始运算符,进行迭代直至达到停止条件,所述迭代包括:对于所述超网的一组层中的每层:为所述超网的一组层中的每层保留的每个运算符确定相似度分数;以及去除所述超网的一组层中的每层中具有最小相似度分数的运算符;形成新模型,所述新模型的每层包括从所述超网的一组层中的对应层保留的运算符中选择的一组运算符;使用训练数据集来训练所述新模型,其中,作为所述训练的一部分,所述新模型中的至少一些权重被更新;以及对所述训练后的新模型使用验证数据集,为所述训练后的新模型的每层获取并记录在所述训练后的新模型的每层中所使用的运算符的相似度分数;以及响应于停止条件,输出最后一次迭代的所述训练后的新模型作为最终网络,所述最终网络包括用于所述最终网络的一组层中的每层的操作,其中所述停止条件包括:所述一组层中的每层中存在阈值等级个数的或低于预定等级个数的运算符。2.根据权利要求1所述的计算机实现方法,其中,所述相似度分数表示一层中的运算符的特征输出相对于所述一层中的多个运算符的组合特征输出的相似程度。3.根据权利要求2所述的计算机实现方法,其中,所述相似度分数是余弦相似度值或其它基于距离的相似度度量。4.根据权利要求1所述的计算机实现方法,其中,所述超网通过执行以下步骤来进行预训练:进行迭代直至达到停止条件,所述迭代包括:为所述超网的一组层中的每层中的一组运算符中的每个运算符确定比较相似度分数;对于所述一组层中的每层,计算所述每个运算符的影响值;对于所述一组层中的每层,基于所述每个运算符的影响值对所述运算符进行采样,以选择出形成模型的运算符子集;以及使用训练数据集训练具有所述选择出的运算符子集的所述模型;以及响应于已经达到所述停止条件,输出所述超网,所述超网的一组层中的每层中的一组运算符中的至少一些被预训练。5.根据权利要求4所述的计算机实现方法,其中,所述超网的一层中的运算符的比较相似度分数表示所述一层中的运算符的特征输出相对于所述一层中的单个其它运算符的特征输出或相对于所述一层中的多个运算符的特征输出的相似度度量。6.根据权利要求5所述的计算机实现方法,其中,计算所述每个运算符的影响值的步骤包括:通过组合一层中的运算符和每个其它运算符之间的比较相似度分数来确定所述一层中的每个运算符的影响值。7.根据权利要求6所述的计算机实现方法,其中,基于所述每个运算符的影响值对一层中的所述运算符进行采样包括:基于比例来确定采样,所述比例包括所述运算符的每次影响的总迭代除以所述层的所
述运算符的影响的倒数之和。8.根据权利要求1所述的计算机实现方法,其中,采样可以通过以下确定:对于至少一个层,通过去除在功能上与所述一组初始运算符中的另一运算符相似的一个或多个运算符来减少所述一组初始运算符。9.系统,包括:一个或多个处理器;以及包括一组或多组指令的非暂时性计算机可读介质或媒介,所述一组或多组指令在由所述一个或多个处理器中的至少一个执行时使得执行以下步骤:为已经过预训练的超网的一组层中的每层赋予一组初始运算符,进行迭代直至达到停止条件,所述迭代包括:对于所述超网的一组层中的每层:为所述超网的一组层中的每层保留的每个运算符确定相似度分数;以及去除所述超网的一组层中的每层中具有最小相似度分数的运算符;形成新模型,所述新模型的每层包括从所述超网的一组层中的对应层保留的运算符中选择的一组运算符;使用训练数据集来训练所述新模型,其中,作为所述训练的一部分,所述新模型中的至少一些权重被更新;以及对所述训练后的新模型使用验证数据集,为所述训练后的新模型的每层获取并记录在所述训练后的新模型的每层中所使用的运算符的相似度分数;以及响应于停止条件,输出最后一次迭代的所述训练后的新模型作为最终网络,所述最终网络包括用于所述最终网络的一组层中的每层的操作,其中所述停止条件包括:所述一组层中的每层中存在阈值等级个数的或低于预定等级个数的运算符。10.根据权利要求9所述的系统,其中,所述相似度分数表示一层中的运算符...

【专利技术属性】
技术研发人员:李抱朴范彦文潘志宏希滕张刚
申请(专利权)人:百度美国有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1