用于数据处理的方法、装置和非暂时性计算机可读介质制造方法及图纸

技术编号:18204941 阅读:52 留言:0更新日期:2018-06-13 06:37
本发明专利技术实施例提供了用于数据处理的方法和装置。该方法包括:从上层神经网络接收输入数据;利用ELU激活函数对输入数据进行处理,以获得输出结果,其中,在输入数据小于0的情况下,ELU激活函数被拟合为三段式分段线性函数;将输出结果传输给下层神经网络。在本发明专利技术实施例中,在利用ELU激活函数对来自上层神经网络的输入数据进行处理时,如果输入数据小于0,使用对ELU激活函数拟合得到的三段式分段线性函数进行近似处理,不仅能够减轻运算量,而且能够避免对大量存储器资源的需求,从而能够高效且低成本地实现ELU激活函数。

【技术实现步骤摘要】
用于数据处理的方法、装置和非暂时性计算机可读介质
本专利技术涉及数据处理
,具体地,涉及用于数据处理的方法、装置和非暂时性计算机可读介质。
技术介绍
近年来,深度学习成为人工智能领域的研究热点之一。针对深度学习算法的神经网络一般具有多层结构,每层神经网络可以是全连接函数。每层神经网络在计算完毕之后,会紧接着进行基于被称为激活函数的运算。目前提出了多种激活函数。例如,最早期的激活函数采用的是sigmoid或者tanh函数,因为它们的数学特性与早期在人脑神经节的生物研究中发现的生物电特性最相近。随着深度神经网络学科的不断发展,不断提出了其它新的激活函数,以实现比sigmoid和tanh更高的计算性能。然而,由于激活函数的复杂性,目前在神经网络中的实现效率并不理想。
技术实现思路
本专利技术实施例提供了用于数据处理的方法、装置和非暂时性计算机可读介质,能够高效且低成本地实现ELU激活函数。第一方面,提供了一种用于数据处理的方法,包括:从上层神经网络接收输入数据;利用ELU激活函数对所述输入数据进行处理,以获得输出结果,其中,在所述输入数据小于0的情况下,所述ELU激活函数被拟合为三段式分段线性函数;将所述输出结果传输给下层神经网络。在一种可能的实现方式中,所述三段式分段线性函数是基于与所述ELU激活函数之间的均方误差最小原则来确定的。在一种可能的实现方式中,所述ELU激活函数被表示为:其中,z表示所述输入数据,α为1;在z<0的情况下的ELU1=exp(z)-1被拟合为如下表示的所述三段式分段线性函数:其中,k=(B-(-1))/(B-A)。在一种可能的实现方式中,A的取值在范围-10至0内,B的取值在范围-1至0内。在一种可能的实现方式中,A的取值和B的取值使得所述三段式分段线性函数的第一输出值与所述ELU激活函数的第二输出值之间的均方误差最小,其中,所述第一输出值=(z-A)*k+(-1),所述第二输出值=exp(z)-1,其中,A≤z<B。在一种可能的实现方式中,A的取值为-2.65±C,B的取值为-0.5±D,其中,0≤C≤0.1,0≤D≤0.1。在一种可能的实现方式中,所述三段式分段线性函数是使用比较器、乘法器、减法器和选择器来实现的。第二方面,提供了一种用于数据处理的装置,包括:输入端,用于从上层神经网络接收输入数据;处理模块,用于利用ELU激活函数对所述输入数据进行处理,以获得输出结果,其中,在所述输入数据小于0的情况下,所述ELU激活函数被拟合为三段式分段线性函数;输出端,用于将所述输出结果传输给下层神经网络。在一种可能的实现方式中,所述处理模块使用的所述三段式分段线性函数是基于与所述ELU激活函数之间的均方误差最小原则来确定的。在一种可能的实现方式中,所述ELU激活函数被表示为:其中,z表示所述输入数据,α为1;在z<0的情况下的ELU1=exp(z)-1被拟合为如下表示的所述三段式分段线性函数:其中,k=(B-(-1))/(B-A)。在一种可能的实现方式中,A的取值在范围-10至0内,B的取值在范围-1至0内。在一种可能的实现方式中,A的取值和B的取值使得所述三段式分段线性函数的第一输出值与所述ELU激活函数的第二输出值之间的均方误差最小,其中,所述第一输出值=(z-A)*k+(-1),所述第二输出值=exp(z)-1,其中,A≤z<B。在一种可能的实现方式中,A为-2.65±C,B为-0.5±D,其中,0≤C≤0.1,0≤D≤0.1。在一种可能的实现方式中,所述处理模块包括第一比较器、第二比较器、选择器、乘法器和减法器;所述输入端包括所述第一比较器的输入端、所述第二比较器的输入端、所述乘法器的输入端以及所述选择器的第一输入端;所述输出端包括所述选择器的输出端;所述第一比较器的输出端和所述第二比较器的输出端分别连接到所述选择器的第一控制端和第二控制端;所述乘法器的输出端连接到所述减法器的输入端;所述减法器的输出端连接到所述选择器的第二输入端;其中,所述第一比较器用于从所述上层神经网络接收z,执行z是否小于A的比较操作,以及向所述选择器输出第一比较结果;所述第二比较器用于从所述上层神经网络接收z,执行z是否小于B的比较操作,以及向所述选择器输出第二比较结果;所述乘法器用于从所述上层神经网络接收z,并且所述乘法器和所述减法器一起用于计算第二输入值,所述第二输入值为(z-A)*k+(-1);所述选择器的所述第一输入端用于从所述上层神经网络接收z;所述选择器的所述第二输入端用于从所述减法器接收所述第二输入值;所述选择器的第三输入端用于接收第三输入值,所述第三输入值为-1;所述选择器用于基于所述第一比较结果和所述第二比较结果,从所述选择器的输出端输出z、所述第二输入值和所述第三输入值之一。第三方面,提供了一种非暂时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现结合第一方面的任一种可能的实现方式所述的方法。在本专利技术实施例中,在利用ELU激活函数对来自上层神经网络的输入数据进行处理时,如果输入数据小于0,使用对ELU激活函数拟合得到的三段式分段线性函数进行近似处理。可见,与通过泰勒多项式展开的计算方式相比,本专利技术实施例无需进行多项式展开,这能够极大地减轻运算量。而与硬件查表方式相比,本专利技术实施例也无需存储相应的函数表,从而能够避免对大量存储器资源的需求。因此,本专利技术实施例能够高效且低成本地实现ELU激活函数。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图,其中:图1示出了在α=1的情况下的ELU激活函数的曲线图。图2是根据本专利技术实施例的用于数据处理的方法的示意流程图。图3示出了在z<0时,ELU激活函数的曲线以及相应的三段式分段线性函数的曲线。图4示出通过Matlab得到的表示A和B的取值与均方误差之间的关系的曲面图。图5示出了根据本专利技术实施例的用于数据处理的装置的示意框图。图6示出了根据本专利技术实施例的用于数据处理的装置的示意框图。图7是根据本专利技术另一实施例的用于数据处理的装置的示意框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例,都属于本专利技术保护的范围。目前,用于深度学习的深度神经网络成为研究热点之一。深度神经网络可以具有多层,例如,每一层神经网络可以是全连接层(FullyConnectLayer),可以是卷积神经网络(ConvolutionalNeuralNetwork,CNN)、循环神经网络(RecurrentNeuralNetwork,RNN)等。每层神经网络处理之后的输出需要经过激活函数进一步处理,目的在于使得神经网络的输出中的负数值得到弱化甚至消失,而正数值予以保留。目前常用的激活函数主要有Sigmoid激活函数、tanh激活函数、ReLU激活函数、Leak本文档来自技高网...
用于数据处理的方法、装置和非暂时性计算机可读介质

【技术保护点】
一种用于数据处理的方法,其特征在于,包括:从上层神经网络接收输入数据;利用ELU激活函数对所述输入数据进行处理,以获得输出结果,其中,在所述输入数据小于0的情况下,所述ELU激活函数被拟合为三段式分段线性函数;将所述输出结果传输给下层神经网络。

【技术特征摘要】
1.一种用于数据处理的方法,其特征在于,包括:从上层神经网络接收输入数据;利用ELU激活函数对所述输入数据进行处理,以获得输出结果,其中,在所述输入数据小于0的情况下,所述ELU激活函数被拟合为三段式分段线性函数;将所述输出结果传输给下层神经网络。2.根据权利要求1所述的方法,其特征在于,所述三段式分段线性函数是基于与所述ELU激活函数之间的均方误差最小原则来确定的。3.根据权利要求2所述的方法,其特征在于,所述ELU激活函数被表示为:其中,z表示所述输入数据,α为1;在z<0的情况下的ELU1=exp(z)-1被拟合为如下表示的所述三段式分段线性函数:其中,k=(B-(-1))/(B-A)。4.根据权利要求3所述的方法,其特征在于,A的取值在范围-10至0内,B的取值在范围-1至0内。5.根据权利要求4所述的方法,其特征在于,A的取值和B的取值使得所述三段式分段线性函数的第一输出值与所述ELU激活函数的第二输出值之间的均方误差最小,其中,所述第一输出值=(z-A)*k+(-1),所述第二输出值=exp(z)-1,其中,A≤z<B。6.根据权利要求5所述的方法,其特征在于,A的取值为-2.65±C,B的取值为-0.5±D,其中,0≤C≤0.1,0≤D≤0.1。7.根据权利要求3至6中任一项所述的方法,其特征在于,所述三段式分段线性函数是使用比较器、乘法器、减法器和选择器来实现的。8.一种用于数据处理的装置,其特征在于,包括:输入端,用于从上层神经网络接收输入数据;处理模块,用于利用ELU激活函数对所述输入数据进行处理,以获得输出结果,其中,在所述输入数据小于0的情况下,所述ELU激活函数被拟合为三段式分段线性函数;输出端,用于将所述输出结果传输给下层神经网络。9.根据权利要求8所述的装置,其特征在于,所述处理模块使用的所述三段式分段线性函数是基于与所述ELU激活函数之间的均方误差最小原则来确定的。10.根据权利要求9所述的装置,其特征在于,所述ELU激活函数被表示为:其中,z表示所述输入数据,α为1;在z<0的情况下的ELU1=exp(z...

【专利技术属性】
技术研发人员:黎明夏昌盛张韵东邱嵩
申请(专利权)人:北京中星微电子有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1