用于训练神经网络的方法技术

技术编号：36610575 阅读：15 留言：0更新日期：2023-02-08 09:58

本发明专利技术涉及用于训练人工神经网络的一种方法，其包括：提供待训练的神经网络，所述神经网络在训练后待基于第一激活函数进行操作；基于第二激活函数执行神经网络的初始训练，第二激活函数不同于第一激活函数，第二激活函数是包括至少一个待改变的参数的参数化的激活函数，第二激活函数的至少一参数被选择为使得第二激活函数等于或基本上等于第一激活函数，初始训练使用起始参数设置来执行，起始参数设置被选择为使得第二激活函数不同于第一激活函数；在过渡阶段，执行进一步的训练步骤，在前后连续的训练步骤中，改变第二激活函数的至少一个参数，以使第二激活函数接近第一激活函数；以及基于第一激活函数执行最后的训练步骤。以及基于第一激活函数执行最后的训练步骤。以及基于第一激活函数执行最后的训练步骤。

全部详细技术资料下载

【技术实现步骤摘要】
用于训练神经网络的方法

[0001]本专利技术大体涉及人工神经网络领域。更具体地说，本专利技术涉及使用多个不同激活函数训练卷积神经网络的一种方法。

技术介绍

[0002]深度学习和神经网络是目前最先进的机器学习解决方案，用于许多不同输入领域的各项任务，包括视觉、音频和时间序列数据的处理。激活函数通常用于将非线性引入神经网络。
[0003]目前，最流行的激活函数是ReLU(修正线性单元)激活，它被定义为y＝max(0、x)，即把输入负值剪切为零。还有其他的ReLU(修正线性单元)演变形式，例如ReLU6将数值最大限度地剪切为6。
[0004]大多数现代GPU(图形处理单元)/TPU(张量处理单元)/CPU(中央处理单元)芯片都提供硬件支持，以有效计算不同的流行激活函数。然而，在嵌入式系统中，支持激活函数的数量非常有限(通常只支持ReLU(修正线性单元)或其演变形式)。另一方面，与使用最近提出的最先进激活函数(如GELU(高斯误差线性单元)激活函数、ELU(指数线性单元)激活函数、Swish激活函数(搜索激活函数)、Mish激活函数(一种自正则化的非单调激活函数)等)的网络相比，这些激活函数通常性能较差。可惜，这些最先进激活函数的硬件支持是非常有限的，嵌入式芯片中是完全缺失的。
[0005]因此，使用最先进激活函数的神经网络在大多数嵌入式系统上不能有效执行，因为这些激活函数不被硬件支持，因为在大多数情况下，只有一些ReLU(修正线性单元)演变形式得到支持。

技术实现思路

[0006...

【技术保护点】

【技术特征摘要】
1.用于训练人工神经网络(1)的方法，其中，所述方法包括以下步骤：
‑
提供待训练的神经网络(1)，在训练后该神经网络(1)待基于第一激活函数进行操作(S10)；
‑
基于第二激活函数执行神经网络(1)的初始训练，其中，第二激活函数不同于第一激活函数，其中，第二激活函数是包括至少一个待改变的参数的参数化的激活函数，其中，所述第二激活函数的至少一参数能够被选择为使得第二激活函数等于或基本上等于第一激活函数，其中，初始训练使用起始参数设置来执行，其中，起始参数设置被选择为使得第二激活函数不同于第一激活函数(S11)；
‑
在过渡阶段，执行进一步的训练步骤，其中，在前后连续的训练步骤中，改变第二激活函数的至少一个参数，以使第二激活函数接近第一激活函数(S12)；以及
‑
基于第一激活函数执行最后的训练步骤(S13)。2.根据权利要求1所述的方法，其中，在过渡阶段中，将至少一个参数从起始参数设置调整适配为结束参数设置。3.根据权利要求2所述的方法，其中，将至少一个参数非线性地从起始参数设置调整适配为结束参数设置。4.根据上述权利要求中任一权利要求所述的方法，其中，调度器(2)动态地调整适配至少一个参数，以使第二激活函数朝向第一激活函数调整适配。5.根据权利要求4所述的方法，其中，调度器(2)如何对第二激活函数的至少一个参数进行调整适配的动态调整适配功能是基于超参数搜索方法来确定的。6.根据上述权利要求中任一权利要求所述的方法，其中，第一激活函数是一RELU激活函数，它通过下列公式描述：y(x)＝max(0、x)。7.根据上述权利要求中任一权利要求所述的方法，其中，第二激活函数从以下激活函数的列表中选择：Swish激活函数、Mish激活函数、GELU激活函数、ELU激活函数。8.根据上述权利要求中任一权利要求所述的方法，其中，第二激活函数是Swish激活函数，它通过下列公式描述：y(x)＝x
·
sigmoid(β
·
x...

【专利技术属性】
技术研发人员：A，
申请(专利权)人：大陆智行德国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人