用于训练神经网络的方法技术

技术编号:36610575 阅读:15 留言:0更新日期:2023-02-08 09:58
本发明专利技术涉及用于训练人工神经网络的一种方法,其包括:提供待训练的神经网络,所述神经网络在训练后待基于第一激活函数进行操作;基于第二激活函数执行神经网络的初始训练,第二激活函数不同于第一激活函数,第二激活函数是包括至少一个待改变的参数的参数化的激活函数,第二激活函数的至少一参数被选择为使得第二激活函数等于或基本上等于第一激活函数,初始训练使用起始参数设置来执行,起始参数设置被选择为使得第二激活函数不同于第一激活函数;在过渡阶段,执行进一步的训练步骤,在前后连续的训练步骤中,改变第二激活函数的至少一个参数,以使第二激活函数接近第一激活函数;以及基于第一激活函数执行最后的训练步骤。以及基于第一激活函数执行最后的训练步骤。以及基于第一激活函数执行最后的训练步骤。

【技术实现步骤摘要】
用于训练神经网络的方法


[0001]本专利技术大体涉及人工神经网络领域。更具体地说,本专利技术涉及使用多个不同激活函数训练卷积神经网络的一种方法。

技术介绍

[0002]深度学习和神经网络是目前最先进的机器学习解决方案,用于许多不同输入领域的各项任务,包括视觉、音频和时间序列数据的处理。激活函数通常用于将非线性引入神经网络。
[0003]目前,最流行的激活函数是ReLU(修正线性单元)激活,它被定义为y=max(0、x),即把输入负值剪切为零。还有其他的ReLU(修正线性单元)演变形式,例如ReLU6将数值最大限度地剪切为6。
[0004]大多数现代GPU(图形处理单元)/TPU(张量处理单元)/CPU(中央处理单元)芯片都提供硬件支持,以有效计算不同的流行激活函数。然而,在嵌入式系统中,支持激活函数的数量非常有限(通常只支持ReLU(修正线性单元)或其演变形式)。另一方面,与使用最近提出的最先进激活函数(如GELU(高斯误差线性单元)激活函数、ELU(指数线性单元)激活函数、Swish激活函数(搜索激活函数)、Mish激活函数(一种自正则化的非单调激活函数)等)的网络相比,这些激活函数通常性能较差。可惜,这些最先进激活函数的硬件支持是非常有限的,嵌入式芯片中是完全缺失的。
[0005]因此,使用最先进激活函数的神经网络在大多数嵌入式系统上不能有效执行,因为这些激活函数不被硬件支持,因为在大多数情况下,只有一些ReLU(修正线性单元)演变形式得到支持。

技术实现思路

[0006]本专利技术实施方式的一项任务是公布训练神经网络的一种方法,即使在目标硬件仅为有限数量的激活函数提供硬件支持的情况下,所述方法作为训练结果也能提供高效的神经网络。
[0007]该任务通过独立权利要求的特征解决。优选实施方式在从属权利要求中给出。如果没有其他的明确指出,本专利技术实施方式可彼此自由组合。
[0008]根据一观点,本专利技术涉及的是用于训练人工神经网络的一种方法。所述方法包括以下步骤:
[0009]首先,提供待训练的神经网络。训练后,该神经网络待基于第一激活函数进行操作。换句话说,在生产阶段神经网络使用第一激活函数,将非线性引入神经网络。神经网络在生产阶段基于下文中被称为目标硬件的嵌入式硬件运行,目标硬件为所述第一激活函数提供硬件支持。
[0010]基于第二激活函数执行神经网络的初始训练。第二激活函数不同于第一激活函数。第二激活函数是参数化的激活函数,它包括至少一个需改变的参数,其中,第二激活函
数的至少一个参数可以选择为,使得第二激活函数等于或基本等于第一激活函数。然而,初始训练是利用起始参数设置来实施的。起始参数设置选择为使得第二激活函数不同于第一激活函数。
[0011]执行初始训练后,在过渡阶段执行进一步的训练。在所述过渡阶段,执行进一步的训练步骤,其中,在前后连续的训练步骤中,第二激活函数的至少一个参数被改变,使得第二激活函数接近第一激活函数。换句话说,在过渡阶段,第二激活函数的参数设置被调整以使得第二激活函数逐渐朝向第一激活函数发展。
[0012]最后,基于第一激活函数执行最后的训练步骤。
[0013]所提出的训练方法是有益的,因为在开始时使用最先进的激活函数进行神经网络训练,并将激活函数更改为另一可通过目标硬件提供硬件支持的激活函数,以获得更好的训练结果,从而提高训练后神经网络的效率。值得一提的是,从目标硬件的角度看,这类性能改进是免费的,因为只涉及模型训练,但网络架构保持不变。
[0014]所提出的方法优选可用于训练汽车应用领域中致力于图像处理任务的神经网络。除了目标识别、车道识别和语义分割等最常见的深度学习任务外,所提出的方法也可用于训练致力于例如基于单目摄像装置的深度估计、表面法线估计、用于例如人的姿势估计的关键点检测等其他二维图像处理任务的神经网络。
[0015]根据一示例性实施方式,在过渡阶段,将至少一参数从起始参数设置调整适配成结束参数设置。起始参数设置可被选择为使得第二激活函数明显不同于第一激活函数。起始参数设置例如可以是通常用于第二激活函数的标准参数。在Swish激活函数(搜索激活函数)情况下,起始参数设置例如可以是β=1。结束参数设置可被选择为使得第二激活函数基本上满足第一激活函数。在Swish激活函数(搜索激活函数)中,结束参数设置例如可以是β=30或更高。
[0016]根据一示例性实施方式,至少一个参数从起始参数设置被非线性地调整适配到结束参数设置。例如,在过渡阶段开始时,改变的参数的或步长可比过渡阶段结束时小。由此,可提高训练效率。
[0017]根据一示例性实施方式,调度器动态地调整适配至少一个参数,使得第二激活函数调整适配于第一激活函数。调度器可以是一配置为自动地实施至少一个需改变的参数的调整适配的实体。调度器可包括一个用于输出参数的接口。接口可与实施神经网络训练的训练环境耦合。以此方式,可获得对第二激活函数参数设置的自动调整适配。
[0018]根据一示例性实施方式,调度器根据其对第二激活函数的至少一个参数进行调整适配的动态调整函数是基于超参数搜索方法确定的。实验表明,调整函数,即第二激活函数的至少一个参数的调整适配方式对训练后神经网络的效率有重大影响。基于超参数搜索方法,可确定导致最佳或基本最佳训练结果的调整适配过程。
[0019]根据一示例性实施方式,第一激活函数是RELU(修正线性单元)激活函数,它通过下列公式描述:
[0020]y(x)=max(0、x)。
[0021]作为替代选择,第一激活函数可以是RELU(修正线性单元)激活函数的演变形式,例如具有特定量化的RELU(修正线性单元)激活函数(例如RELU6、RELU8等)或leaky RELU(带遗漏单元的修正线性单元)激活函数/参数化RELU(修正线性单元)激活函数。
[0022]根据一示例性实施方式,第二激活函数从以下激活函数列表中选择:Swish激活函数(搜索激活函数)、Mish激活函数(一种自正则化的非单调激活函数)、GELU(高斯误差线性单元)激活函数、ELU(指数线性单元)激活函数。所述激活函数可被参数化,以通过适当选择第二激活函数的参数,使第二激活函数接近第一激活函数。
[0023]根据一示例性实施方式,第二激活函数是Swish激活函数(搜索激活函数),它通过下列公式描述:
[0024]y(x)=x
·
sigmoid(β
·
x)
[0025]其中,β是可改变以使Swish激活函数(搜索激活函数)接近RELU(修正线性单元)激活函数的参数。
[0026]根据一示例性实施方式,第二激活函数是Mish激活函数(一种自正则化的非单调激活函数),它通过下列公式描述:
[0027]y(x)=x
·
tanh(softplus(β
·
x));
[0028]其中,softpius(x)=ln(1+e本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.用于训练人工神经网络(1)的方法,其中,所述方法包括以下步骤:

提供待训练的神经网络(1),在训练后该神经网络(1)待基于第一激活函数进行操作(S10);

基于第二激活函数执行神经网络(1)的初始训练,其中,第二激活函数不同于第一激活函数,其中,第二激活函数是包括至少一个待改变的参数的参数化的激活函数,其中,所述第二激活函数的至少一参数能够被选择为使得第二激活函数等于或基本上等于第一激活函数,其中,初始训练使用起始参数设置来执行,其中,起始参数设置被选择为使得第二激活函数不同于第一激活函数(S11);

在过渡阶段,执行进一步的训练步骤,其中,在前后连续的训练步骤中,改变第二激活函数的至少一个参数,以使第二激活函数接近第一激活函数(S12);以及

基于第一激活函数执行最后的训练步骤(S13)。2.根据权利要求1所述的方法,其中,在过渡阶段中,将至少一个参数从起始参数设置调整适配为结束参数设置。3.根据权利要求2所述的方法,其中,将至少一个参数非线性地从起始参数设置调整适配为结束参数设置。4.根据上述权利要求中任一权利要求所述的方法,其中,调度器(2)动态地调整适配至少一个参数,以使第二激活函数朝向第一激活函数调整适配。5.根据权利要求4所述的方法,其中,调度器(2)如何对第二激活函数的至少一个参数进行调整适配的动态调整适配功能是基于超参数搜索方法来确定的。6.根据上述权利要求中任一权利要求所述的方法,其中,第一激活函数是一RELU激活函数,它通过下列公式描述:y(x)=max(0、x)。7.根据上述权利要求中任一权利要求所述的方法,其中,第二激活函数从以下激活函数的列表中选择:Swish激活函数、Mish激活函数、GELU激活函数、ELU激活函数。8.根据上述权利要求中任一权利要求所述的方法,其中,第二激活函数是Swish激活函数,它通过下列公式描述:y(x)=x
·
sigmoid(β
·
x...

【专利技术属性】
技术研发人员:A
申请(专利权)人:大陆智行德国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1