用于减少可微分架构搜索的计算的方法技术

技术编号:36598142 阅读:39 留言:0更新日期:2023-02-04 18:09
公开了一种用于减少可微分架构搜索的计算的方法。通过对神经网络架构的标准单元的中间节点的通道输出进行平均,形成具有标准单元的通道维度的四分之一的通道维度的输出节点。使用1x1卷积对输出节点进行预处理,以形成神经网络架构中的单元的下一层的输入节点的通道。形成输出节点包括通过将中间节点的通道输出除以划分参数s来形成中间节点的通道输出的s个组。形成每组通道输出的平均通道输出,并且通过将每组通道的平均通道输出与标准单元的中间节点的通道输出进行拼接来形成输出节点。中间节点的通道输出进行拼接来形成输出节点。中间节点的通道输出进行拼接来形成输出节点。

【技术实现步骤摘要】
用于减少可微分架构搜索的计算的方法


[0001]本文公开的主题涉及神经网络。更具体地,本文公开的主题涉及用于减少与可微分架构搜索标准单元(normal cell)架构相关联的计算和参数的技术。

技术介绍

[0002]图1A示出已经在CIFAR

10数据库上学习的可微分架构搜索(Differentiable ARchiTecture Search,DARTS)标准单元架构100。如本文所使用的,术语“标准单元”是指已经在CIFAR

10数据集上学习的标准DARTS单元。DARTS标准单元架构100包括两(2)个经预处理的输入节点c_{k

2}和c_{k

1}、四(4)个中间节点(节点0

3)、中间节点0

3之间的八(8)个连接(或操作)101a

101h。八个操作可以包括但不限于分离卷积(sep_conv)、跳跃连接(skip_connect)和空洞卷积(dil_conv)。尽管3
×
3内核被指示为卷积的标记的一部分,但是5
×
5和7
×
7内核也是可能的。来自四个中间节点的输出在102处被拼接(concatenate)以形成输出节点c_{k}。
[0003]图1B示出在103处使用1
×
1卷积来预处理输出节点c_{k}在计算上并不便宜。从输出节点c_{k}提取的用于形成输入通道c_in的固有信息导致四个通道的特征图被添加到单元,如图1B所示。也就是说,从四个中间节点0

3的每一个输出的特征图具有H
×
W
×
C的维度,其中H是特征图的高度维度,W是特征图的宽度维度,并且C是特征图的通道维度。四个中间节点0

3的输出被拼接以形成具有维度H
×
W
×
4C的输出节点c_{k}。参数数量也增加为2x(1 x 1x C_in x C_out)=8 x C x C,并且计算数量增加为2x(H x W x C_out x 1x1x C_in)=8 x H x W x C x C。除了基于通道数量的增加而引起的计算数量的增加之外,还有与标准单元相关联的八个其他操作101a

101h:C_in=C_out=C;sep_conv_3x3:3x3深度方向+1x1点方向的两个应用;以及参数的1x1点方向支配和浮点运算(flop)。因此,参数总数≈8x2x(1x1x C_in x C_out)=16 x C x C,并且计算总数≈8x2x(H x W x C_out x 1x1x C_out)=16x H x W x C x C。相应地,预处理可以贡献约8/(8+16)=1/3的总参数和总计算。

技术实现思路

[0004]示例实施例提供了一种用于减少可微分架构搜索的计算的方法,其中该方法可以包括:通过对标准单元的中间节点的通道输出进行平均,为神经网络架构中的单元的第一层形成具有标准单元的通道维度的四分之一的通道维度的输出节点;以及使用1x1卷积对具有标准单元的通道维度的四分之一的通道维度的输出节点进行预处理,以形成神经网络架构中的单元的第二层的输入节点的通道,其中第二层可以紧随第一层。在一个实施例中,为神经网络架构中的单元的第一层形成具有标准单元的单个通道的输出节点可以包括:形成中间节点的通道输出的s个组,其中每组可以包括数量为中间节点的通道输出的总数除以划分参数s的通道输出;通过对每组通道输出进行平均来形成每组通道输出的平均通道输出;以及通过将每组通道的平均通道输出与标准单元的中间节点的通道输出进行拼接来
形成输出节点。在一个实施例中,该方法还可以包括相对于第一层的输入通道的数量来改变神经网络架构中的单元的第一层的输出通道的数量。在另一个实施例中,改变神经网络架构中的单元的第一层的输出通道的数量可以包括相对于第一层的输入通道的数量增加神经网络架构中的单元的第一层的输出通道的数量。在又一实施例中,形成具有标准单元的通道维度的四分之一的通道维度的输出节点可以包括通过对标准单元的中间节点的通道输出进行平均或者通过从标准单元的中间节点选择最大输出来形成输出节点。在又一实施例中,形成具有标准单元的通道维度的四分之一的通道维度的输出节点还可以包括通过对标准单元的中间节点的通道输出进行平均或者通过执行标准单元的中间节点的通道输出的加权平均来形成输出节点。在一个实施例中,可以对中间节点的通道输出执行加权平均,并且该方法还可以包括对神经网络架构中的单元的第一层的输出节点进行批量标准化。另一个实施例还可以包括为神经网络架构中的单元的第一层生成第一预定数量的固有特征图,其中第一预定数量可以小于第二预定数量,第二预定数量可以等于第一层的输出节点的总数;以及使用一个或多个线性变换算子来为第一层生成第三预定数量的相关或冗余输出节点,其中第一预定数量加上第三预定数量可以等于第二预定数量。
[0005]示例实施例提供了一种用于减少可微分架构搜索的计算的方法,其中该方法可以包括:通过从标准单元的中间节点选择最大通道输出,为神经网络架构中的单元的第一层形成具有标准单元的通道维度的四分之一的通道维度的输出节点;以及使用1x1卷积对具有标准单元的通道维度的四分之一的通道维度的输出节点进行预处理,以形成神经网络架构中的单元的第二层的输入节点的通道,其中第二层可以紧随第一层。在一个实施例中,形成具有标准单元的通道维度的四分之一的通道维度的输出节点可以包括:形成中间节点的通道输出的s个组,其中每组包括数量为中间节点的通道输出的总数除以划分参数s的通道输出;为每组通道输出选择最大通道输出;以及通过将每组通道的最大通道输出与标准单元的中间节点的通道输出进行拼接来形成输出节点。在另一个实施例中,该方法还可以包括相对于第一层的输入通道的数量来改变架构的第一层的输出通道的数量。在一个实施例中,改变神经网络架构中的单元的第一层的输出通道的数量可以包括相对于第一层的输入通道的数量增加神经网络架构中的单元的第一层的输出通道的数量。在另一个实施例中,形成具有标准单元的通道维度的四分之一的通道维度的输出节点可以包括通过从标准单元的中间节点选择最大输出或者通过对标准单元的中间节点的通道输出进行平均来形成输出节点。在又一实施例中,形成具有标准单元的通道维度的四分之一的通道维度的输出节点还可以包括通过从标准单元的中间节点选择最大输出或者通过执行标准单元的中间节点的通道输出的加权平均来形成输出节点。在又一实施例中,对中间节点的通道输出执行加权平均,并且该方法还可以包括对神经网络架构中的单元的第一层的输出节点进行批量标准化。在一个实施例中,该方法还可以包括为神经网络架构中的单元的第一层生成第一预定数量的固有特征图,其中第一预定数量可以小于第二预定数量,第二预定数量可以等于第一层的输出节点的总数;以及使用一个或多个线性变换算子来为第一层生成第三预定数量的相关或冗余输出节点,其本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于减少可微分架构搜索的计算的方法,所述方法包括:通过对标准单元的中间节点的通道输出进行平均,为神经网络架构中的单元的第一层形成具有所述标准单元的通道维度的四分之一的通道维度的输出节点;以及使用1x1卷积对具有标准单元的通道维度的四分之一的通道维度的所述输出节点进行预处理,以形成所述神经网络架构中的单元的第二层的输入节点的通道,所述第二层紧随所述第一层。2.根据权利要求1所述的方法,其中,为所述神经网络架构中的单元的第一层形成具有标准单元的通道维度的四分之一的通道维度的输出节点包括:形成所述中间节点的通道输出的s个组,其中每组包括数量为所述中间节点的通道输出的总数除以划分参数s的通道输出;通过对每组通道输出进行平均来形成每组通道输出的平均通道输出;以及通过将每组通道的平均通道输出与所述标准单元的中间节点的通道输出进行拼接来形成所述输出节点。3.根据权利要求1所述的方法,还包括相对于所述第一层的输入通道的数量来改变所述神经网络架构中的单元的第一层的输出通道的数量。4.根据权利要求3所述的方法,其中,改变所述神经网络架构中的单元的第一层的输出通道的数量包括相对于所述第一层的输入通道的数量增加所述神经网络架构中的单元的第一层的输出通道的数量。5.根据权利要求1所述的方法,其中,形成具有标准单元的通道维度的四分之一的通道维度的输出节点包括通过对所述标准单元的中间节点的通道输出进行平均或者通过从所述标准单元的中间节点选择最大输出来形成所述输出节点。6.根据权利要求1所述的方法,其中,形成具有标准单元的通道维度的四分之一的通道维度的输出节点还包括通过对所述标准单元的中间节点的通道输出进行平均或者通过执行所述标准单元的中间节点的通道输出的加权平均来形成所述输出节点。7.根据权利要求6所述的方法,其中,对中间节点的通道输出执行加权平均,所述方法还包括对所述神经网络架构中的单元的第一层的输出节点进行批量标准化。8.根据权利要求1所述的方法,还包括为所述神经网络架构中的单元的所述第一层生成第一预定数量的固有特征图,所述第一预定数量小于第二预定数量,所述第二预定数量等于所述第一层的输出节点的总数;以及使用一个或多个线性变换算子来为所述第一层生成第三预定数量的相关或冗余输出节点,所述第一预定数量加上所述第三预定数量等于所述第二预定数量。9.一种用于减少可微分架构搜索的计算的方法,所述方法包括:通过从标准单元的中间节点选择最大通道输出,为神经网络架构中的单元的第一层形成具有所述标准单元的通道维度的四分之一的通道维度的输出节点;以及使用1x1卷积对具有标准单元的通道维度的四分之一的通道维度的所述输出节点进行预处理,以形成所述神经网络架构中的单元的第二层的输入节点的通道,所述第二层紧随所述第一层。10.根据权利要求9所述的方法,其中,形成具有标准单元的通道维度的四分之一的通道维度的所述输出节点包括:
形成所述中间节点的通道输出的s个组,其中每组包括数量为所述中间节点的通道输出的总数除以划分参数s的通道输...

【专利技术属性】
技术研发人员:方俊沈程杳DPL索斯利J哈苏恩
申请(专利权)人:三星电子株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1