一种基于泰勒展开的神经网络架构搜索方法及系统技术方案

技术编号:38756893 阅读:9 留言:0更新日期:2023-09-10 09:42
本发明专利技术提出了一种基于泰勒展开的神经网络架构搜索方法及系统,涉及神经网络领域。一种基于泰勒展开的神经网络架构搜索方法,其包括如下步骤,将DARTS

【技术实现步骤摘要】
一种基于泰勒展开的神经网络架构搜索方法及系统


[0001]本专利技术涉及神经网络领域,具体而言,涉及一种基于泰勒展开的神经网络架构搜索方法及系统。

技术介绍

[0002]随着深度学习技术的发展,较多的人工智能技术被应用到了日常生活当中,比如,疫情期间的人脸检测技术,手机助手的语音识别。这些人工智能技术虽然在很大程度上方便了人们的生活,但是在人脸检测模型的构建过程中,花费了算法工程师较多的时间。为进一步缩短算法工程师在模型构建方面所花费的时间,较多的学者开始研究基于泰勒展开的神经网络架构搜索,旨在通过设定搜索空间(定义网络所有可选架构和操作),搜索策略(通过策略来引导模型找到最优的网络结构)以及性能评估方式来实现高性能网络结构的自动化搜索。
[0003]目前在基于泰勒展开的神经网络架构搜索方法,较为常用的方法是可微分架构搜索方法Darts,Darts搜索空间的定义如图1所示,Darts定义整个网络由几个cell组合而来,其中如图1(a)所示,cell中由6条边组成,其中每条边的可选的op有8个,如图1(b)所示。8个op主要有3
×
3和5
×
5的可分离卷积(dil_sepc_3x3、dil_sepc_5x5),3
×
3和5
×
5的扩张可分离卷积(dua_sepc_3x3、dua_sepc_5x5),3
×
3最大池化(max_pool_3x3),3
×
3平均池化(avg_pool_3x3)、跳过连接(skip

connection)和zero操作。为衡量op的重要性,Darts引入了op重要性因子来代表op的重要性,比如代表dil_sepc_3x3的重要性,代表dil_sepc_5x5的重要性等。Op重要性因子将会加入到模型的训练过程,随着迭代进行更新。当Darts训练结束时,选择最大的对应的op。
[0004]虽然Darts的方法在很大程度上减小了搜索所需的时间,但研究发现,随着迭代的进行,根据值来选择最优的结果会产生较差的结果。DARTS

pt的方法提出了逐步离散op的方法,基本思想即基于一个训练好的超网,先随机选择其中一条边,再分别mask掉其中的一个op
i
,计算此时的验证集准确率(acc_mask(op
i
)),此op的重要性即用超网的准确率(acc_super)减去mask第i个op得到的准确率。具体计算公式如等式一所示。当选定的这条边确定好最优的op后,会对此时的网络再进行一定的funtune,再进行下一条边的离散,直到所有边的离散完成,得到最后的网络。
[0005][0006]虽然Darts

pt在一定程度上缓解了原本Darts性能崩溃的问题,但在Darts

pt中边离散的顺序对性能有较大的影响,根据以往的研究,最优的边离散顺序相比于最差的边离散顺序,在nas

bench

201上性能相差将近20%。此外,Darts

pt在评估每条边op的重要性时,需在验证集上计算准确率,推理时间较长。为解决Darts

pt以上两个问题,目前需要提出性能更强以及搜索时间更短的基于泰勒展开的神经网络架构搜索方法。

技术实现思路

[0007]本专利技术的目的在于提供一种基于泰勒展开的神经网络架构搜索方法,其能够进一步提高Darts

pt在基于泰勒展开的神经网络架构搜索方面的性能,解决了Darts在进行架构搜索时,当训练到完全收敛,易出现性能崩溃的问题。
[0008]本专利技术的另一目的在于提供一种基于泰勒展开的神经网络架构搜索系统,其能够进一步提高Darts

pt在基于泰勒展开的神经网络架构搜索方面的性能,解决了Darts在进行架构搜索时,当训练到完全收敛,易出现性能崩溃的问题。
[0009]本专利技术的实施例是这样实现的:
[0010]第一方面,本申请实施例提供一种基于泰勒展开的神经网络架构搜索方法,其包括如下步骤,S1:将DARTS

PT随机选择一条边开始进行离散,替换成根据的泰勒展开,来计算边的重要性,如下列等式二所示,
[0011][0012]等式二;其中表示选择第i条边进行离散时对应的值,值,表示第i条边进行离散前对应的值,表示超网中值为值为的一阶导,表示超网中值为的二阶导;S2:确定从哪条边开始进行离散后,衡量op重要性,选择最重要的op。
[0013]在本专利技术的一些实施例中,上述步骤S1中,假设Darts

pt对一个cell只有三条边,三个op的空间开始进行离散时,对应的离散前的值如等式三所示,等式三;分别计算等式三;分别计算的值,选择abs[最大值对应的边,确定从哪条边开始进行离散,的示例分别如等式四至等式六所示,等式三;等式四;等式五;等式六。
[0014]在本专利技术的一些实施例中,上述步骤S2中,采用泰勒展开衡量计算op重要性。
[0015]在本专利技术的一些实施例中,上述步骤S2中,计算公式如等式七所示,在本专利技术的一些实施例中,上述步骤S2中,计算公式如等式七所示,等式七;其中表示离散前对应的值。
[0016]在本专利技术的一些实施例中,上述步骤S2中,若当前整个超网还未开始进行离散,则对应的如等式三所示。
[0017]在本专利技术的一些实施例中,上述步骤S2中,若当前确定离散的边为0,则分别根据
等式八到等式九的)计算边0上op的重要性选择最小对应的op;等式八;等式九;等式十。
[0018]第二方面,本申请实施例提供一种基于泰勒展开的神经网络架构搜索系统,其基于第一方面任一项所述的基于泰勒展开的神经网络架构搜索方法实现。
[0019]相对于现有技术,本专利技术的实施例至少具有如下优点或有益效果:
[0020]第一方面,本申请实施例提供一种基于泰勒展开的神经网络架构搜索方法,其包括如下步骤,S1:将DARTS

PT随机选择一条边开始进行离散,替换成根据的泰勒展开,来计算边的重要性,如下列等式二所示,
[0021]等式二;其中表示选择第i条边进行离散时对应的值,表示第i条边进行离散前对应的值,表示超网中值为的一阶导,表示超网中值为的二阶导;S2:确定从哪条边开始进行离散后,衡量op重要性,选择最重要的op。
[0022]第二方面,本申请实施例提供一种基于泰勒展开的神经网络架构搜索系统,其基于第一方面任一项所述的基于泰勒展开的神经网络架构搜索方法实现。
[0023]针对第一方面~第二方面:本申请实施例提出了一种基于泰勒展开的神经网络架构搜索方法,泰勒展开主要使用低次到高次的多项式累加来拟合函数在某一点领域上的函数值,在原本的DARTS

pt中即可采用泰勒展开来近似计算当某条边进行离散时,对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于泰勒展开的神经网络架构搜索方法,其特征在于,包括如下步骤,S1:将DARTS

PT随机选择一条边开始进行离散,替换成根据的泰勒展开,来计算边的重要性,如下列等式二所示,重要性,如下列等式二所示,重要性,如下列等式二所示,重要性,如下列等式二所示,表示选择第i条边进行离散时对应的值,表示第i条边进行离散前对应的值,表示超网中值为的一阶导,表示超网中值为的二阶导;S2:确定从哪条边开始进行离散后,衡量op重要性,选择最重要的op。2.如权利要求1所述的一种基于泰勒展开的神经网络架构搜索方法,其特征在于,步骤S1中,假设Darts

pt对一个cell只有三条边,三个op的空间开始进行离散时,对应的离散前的值如等式三所示,分别计算的值,选择abs[最大值对应的边,确定从哪条边开始进行离散,的示例分别如等式四至等式六所示,的示例分别如等式四至等式六所示,的示例分别如...

【专利技术属性】
技术研发人员:请求不公布姓名
申请(专利权)人:天翼电子商务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1