一种单隐层ReLU神经网络鞍点的求解方法技术

技术编号:38934149 阅读:27 留言:0更新日期:2023-09-25 09:37
一种单隐层ReLU神经网络鞍点的求解方法属于深度学习理论领域,用于解决ReLU神经网络优化的不确定性的问题。包括构建单隐层ReLU神经网络,利用输入样本数据和ReLU激活函数的特性进行权值空间子区域划分,并计算每个区域权值参数和每个样本的数据点积是否大于0;根据每个区域的权值和样本点积的情况计算每个区域的鞍点;根据鞍点的解的情况判断鞍点的真实性,对于唯一解的情况可以直接判断是否与初始化定义区域内的任何点都在每个输入样本的同一侧,对于连续的解的情况可判断这个连续的解是否在它所定义的区间内,判定的方法是在高维度空间里求半空间的交集是否为空集,对于半空间求交集的问题,将其转换为线性规划问题方便求解。求解。求解。

【技术实现步骤摘要】
一种单隐层ReLU神经网络鞍点的求解方法


[0001]本专利技术属于深度学习领域,具体来说是一种单隐层ReLU神经网络鞍点的求解方法。

技术介绍

[0002]深度神经网络在机器学习众多领域取得了优异的成果,虽然有很多理论来解释深度学习技术,但是在很大程度上还是一个未解之谜,特别是深度神经网络经验损失函数具有高维度的非凸性的情况下,在实践中基于局部搜索的优化方法如梯度下降法仍然能够取得成功。这说明深层神经网络的经验损失函数的曲面形状存在某些有利于梯度下降的特征。因此,了解经验损失函数是否在某区域存在鞍点,从而探究深度神经网络的经验损失函数的曲面形状,将有助于我们发现这些特征。
[0003]基于梯度下降的反向传播算法是现在最常用的训练深度神经网络模型的算法,但是在训练模型的过程中,常常会遇到神经网络模型已经收敛到经验损失函数的值和模型预测的准确率却根本不符合期望,这种情况说明梯度下降算法遇到了驻点即梯度为零的点,在驻点上梯度下降算法是无法继续运行的,这样的话,模型也就会在这个驻点处收敛,而驻点有可能是全局极小值点、鞍点或者是次优局部极小值点,若模型收敛的点为次优局部极小值点或者鞍点,会达不到最优训练的效果,一般遇到这种情况都会选择调整参数然后重新训练,这样的做法有两大缺点,第一,重新进行训练同样具有不确定性,还是有可能收敛于鞍点,第二,重新进行训练会极大的浪费时间和资源。
[0004]为了解决这个问题,本专利研究了一种单隐层ReLU神经网络鞍点的求解方法。我们借鉴了计算几何的思想成功的实现了有效的权值空间区域划分,然后提出一种有效的计算每个区域的鞍点的算法,并且实现了鞍点是否真实存在的判定。在训练过程中,如果遇到了模型收敛了但模型的效果不符合预期的情况,可以使用本方法对当前权值所在的区域的鞍点进行计算并验证是否为真实鞍点,然后更改某些权值跳出当前区域,就能成功的逃逸鞍点,从而得到全局最优解。甚至对于不存在鞍点的模型,可以直接通过本算法计算出鞍点的位置和大小,这个鞍点也就是全局极小值点,可以直接得到最优的模型,因此,本专利技术提出的算法可以极大的提高深度神经网络模型训练的确定性和效率,并且为新的优化方向提供了思路,对深度神经网络模型的优化具有重要的意义。

技术实现思路

[0005]本专利技术提出了一种单隐层ReLU神经网络鞍点的求解方法,本专利技术通过输入样本和ReLU函数的特性对权值空间进行区域划分,然后对每个区域的鞍点进行计算并验证此鞍点是否真实存在,通过求解每个区域的鞍点来直接获取最优的解和最优模型的参数。
[0006]本专利技术提出的方法具体技术方案如下:
[0007]1、网络的构建:构建的网络模型是单隐层ReLU神经网络,存在K个具有ReLU激活函数的隐藏神经元,d+1个输入神经元和一个输出神经元,我们单隐层ReLU神经网络的经验损
失函数为:
[0008][0009]其中L为经验损失函数,损失函数l为均方误差函数,f为ReLU激活函数。
[0010]我们用N表示样本数的集合{1,2,......,N},指代输入样本的个数,输入样本数据表示为(x
i
,y
i
),(i∈[N]),用[K]表示集合{1,2,......,10},K为隐藏层神经元个数,y
i
∈{0,1}表示第x
i
个样本的标签值,将连接输入层的神经元和隐藏层的神经元之间的权值向量表示为w
j
,(j∈[K]),将隐藏层的神经元与输出层神经元之间的权值向量表示为z
j
,(j∈[K])。
[0011]2、权值空间子区域划分:根据输入的样本数据和ReLU函数的特性,可将权值空间划分为若干个凸的子区域G
p
,并且引入变量I
ij

[0012]定义为(i∈[N],j∈[K])。在每个子区域G
p
中I
ij
的值都是恒定的(I
ij
的值由w
j
·
x
i
决定,若w
j
·
x
i
>0则I
ij
=1,否则I
ij
=0),不会随着w
j
在本区域内的移动而改变,因此经验损失函数在每个子区域内是可微的。但是当w
j
从本区域移动到另一个相邻的子区域内时,I
ij
的值将不再是恒定的,因此在这两个子区域的边界上经验损失函数是不可微的,不可微的鞍点是没有意义的,有很多论文对此有过证明。由于每个子区域G
p
都是凸的,所以经验损失函数在每个子区域内的鞍点就是在这个子区域内的驻点。我们可以随机选取某个子区域内的w
j
的值用来计算I
ij
的值,这个值即可代表此子区域的I
ij
的值。
[0013]3、鞍点位置的计算:对于神经网路的经验损失函数
[0014]来说,我们采用的损失函数l是均方误差损失函数,定义新变量R
j
=w
j
·
z
j
,(j∈[K]),令K=10,并且在K个隐藏神经元中取其中S个神经元(S={1,2,......,k'|1≤k'<10})和其中D个神经元(D={k'+1,k'+2,......,10|k'+1≤10}),对于D个神经元的情况是令其满足并且满足z
j
=0,j∈[D]或者w
j
=0,j∈[D],因此令w
j*
=0,(j∈[D]),即为存在于D个隐藏层神经元中的鞍点位置,w
j*
=0,(j∈[D])是一个权值参数空间中的超平面。对于S个隐藏层神经元的情况是令其满足并求解经过展开移项后等同于求解
[0015][0016]其中R
j
=w
j
·
z
j
,(j∈[S])。
[0017]可以重写为:BR=b,其中
[0018][0019][0020]该问题的一般解可以用B矩阵的Moore

Penrose逆表示:
[0021]R
*
=B
+
b+(I

B
+
B)c
[0022]其中B
+
表示B矩阵的Moore

Penrose逆,在此公式中I为单位矩阵I,c是一个S*(d+1)x1的向量,满足这两种S个和D个隐藏神经元的情况求解得到的点联合后即为理论鞍点的位置。根据B矩阵的不同情况,鞍点解R
*
可能是唯一的解,也有可能是一段连续的无限解,对于这两种情况在步骤4中都将给出验证是否为真实鞍点的方法,。
[0023]4、鞍点真实性的验证:由于ReLU激活函数的特性,导致第3步计算出来的鞍点有可能不会落在初始化的子本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种单隐层ReLU神经网络鞍点求解方法,其特征在于,包括以下步骤:步骤1:网络构建,构建的网络是单隐层ReLU神经网络,存在K个具有ReLU激活的隐藏神经元,d+1个输入神经元和一个输出神经元,损失函数采用的是均方损失函数,用N表示样本数的集合{1,2,......,N}指代输入样本的个数,输入样本数据表示为(x
i
,y
i
),(i∈[N]),用[K]表示集合{1,2,......,10},K为隐藏层神经元个数,y
i
∈{0,1},表示第x
i
个样本的标签值,将连接输入层的神经元和隐藏层的神经元之间的权值向量表示为w
j
,(j∈[K]),将隐藏层的神经元与输出层神经元之间的权值向量表示为z
j
,(j∈[K]);步骤2:权值空间子区域划分,根据输入的样本和ReLU激活函数的特性,使用一些算法将权值空间划分为若干个可微分的区域G
p
,引入变量I
ij
,定义为I是一个NxK的矩阵不是常用单位矩阵符号,计算出每个区域I
ij
的值;I
ij
的值由w
j
·
x
i
的值来决定,若w
j
·
x
i
的值大于0,则I
ij
取1,否则I
ij
取0);步骤3:鞍点的计算,根据步骤2计算得到的I
ij
的值计算每个区域的鞍点的位置和大小;步骤4:鞍点真实性的验证,由于ReLU激活函数的特性,导致第3步计算出来的鞍点有可能不会落在初始的子区域内,这种鞍点是不真实的鞍点,没有实际意义,因此需要验证步骤3所求得的鞍点是否为真实鞍点;步骤5:使用线性规划法验证无限解的鞍点的真实性,鞍点解的情况可能是唯一的也有可能有无限解,对于无限解的情况,采用半平面的交转线性规划的方法来进行实验。2.根据权利要求1所述的一种单隐层ReLU神经网络鞍点求解方法其特征在于步骤2中所述的权值空间子区域的凸性质:选择的损失函数为凸函数,随机选取区域内的w
j
来进行计算每个区域的I
ij
的值。3.根据权利要求1所述的一种单隐层ReLU神经网络鞍点求解方法其特征在于步骤3中采用的鞍点计算方法:采用的经验损失函数为:l为均方误差损失函数,令R
j
=w
j
·
z
j
,(j∈[K]),并且在k个隐藏神经元中取其中S个隐藏神经元(S={1,2,......,k'|1≤k'<10}),则每个子区域的理论鞍点R
*
的解为:的解为:重写为:BR=b,其中
所以根据伪逆矩阵的性质,鞍点的一般解为:R
*
=B
...

【专利技术属性】
技术研发人员:刘波覃阳
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1