面向图像识别的神经网络训练方法及系统技术方案

技术编号:33124747 阅读:16 留言:0更新日期:2022-04-17 00:32
本发明专利技术提供一种面向图像识别的神经网络训练方法及系统。该方法包括:S1:获取训练图像数据集;S2:构建神经网络模型,设定损失函数为其中J(θ;X,y)为预设损失函数,g(w)为正则化项;S3:将训练图像数据集中的训练数据输入所述神经网络模型进行前向传播,获得图像特征向量;S4:计算损失函数值,判断神经网络模型是否收敛;若是,则训练结束,否则执行步骤S5;S5:根据损失函数计算梯度对神经网络模型进行反向传播,更新神经网络模型各层的权重,各层权重按照降低损失函数值的梯度方向更新;S6:将迭代次数递增,返回步骤S3。本方法可以得到结构更为优化、鲁棒泛化性更强的神经网络。性更强的神经网络。性更强的神经网络。

【技术实现步骤摘要】
面向图像识别的神经网络训练方法及系统


[0001]本专利技术涉及计算机软件
,具体涉及一种面向图像识别的神经网络训练方法及系统。

技术介绍

[0002]深度神经网络已经在许多应用中取得了巨大的成功,但是为什么有些模型能够在有限大小数据集训练之下对广泛的应用场景具有良好的泛化能力仍然是一个谜。为了解决该问题,我们需要更好地理解深度学习模型泛化的原因,这种深入的理解也可以带来很多好处,比如为安全攸关的应用场景(如自动驾驶/金融行业)提供安全性保证,用来设计更好的深度神经网络模型,进一步提升网络的泛化鲁棒性等。
[0003]对于神经网络泛化的研究领域目前存在两方面的问题:
[0004]1、现有的工作大多数聚焦于提升神经网络在测试集上的准确率降低泛化误差,但是对于泛化中涉及到的关键概念complexity measure对于提升网络泛化鲁棒性的影响关注度较低。然而后者也是对网络安全性的一个至关重要的因素。
[0005]2、现有泛化领域的对complexity measure的发掘与应用还有很大的发展空间,之前的工作大量集中于对网络训练目标函数的研究提升准确率,但事实上,包括对网络本身的性质(如拓扑结构)、优化器乃至数据集本身的研究都会为提升并理解网络的泛化能力作出贡献。
[0006]基于上述问题,导致目前的神经网络的泛化误差仍然较大,网络泛化鲁棒性较差,当其应用于如自动驾驶、智能医疗等安全攸关领域时,存在较大的风险隐患,很有可能导致巨大的人员与经济损失。

技术实现思路

[0007]基于此,有必要提供一种能够减少神经网络的泛化误差、提升网络泛化鲁棒性的面向图像识别的神经网络训练方法及系统。
[0008]本专利技术实施例一方面提供一种面向图像识别的神经网络训练方法,其包括如下步骤:
[0009]S1:获取训练图像数据集;
[0010]S2:构建神经网络模型,设定损失函数为其中J(θ;X,y)为预设损失函数,X是输入数据向量,y是对应的标签,θ是对应的参数,α∈[0,∞)是预设的超参数,g(w)为正则化项,
[0011]g(w)=∑g(w
l
);
[0012]g(w
l
)=

(N
l

1)N
l
‑1ln(1

ρ(w
l
))

N
l
‑1ln(1+(N
l

1)ρ(w
l
));
[0013]w
l
为第l层神经网络的神经网络权重参数矩阵,N
l
为第l层神经网络的神经元的个数,ρ(w
l
)表示第l层神经网络的权重关联性,也即第l层神经网络中权重向量的平均余弦相似度或者表示第l层中filter之间的余弦相似度;
[0014]S3:将训练图像数据集中的训练数据输入所述神经网络模型进行前向传播,获得图像特征向量;
[0015]S4:根据步骤S3获得的图像特征向量和当前网络的边权值计算损失函数值,判断损失函数值是否收敛于局部最优点或者是否出现泛化误差增大的情况,若是,则训练结束,否则执行步骤S5;
[0016]S5:根据损失函数计算梯度对神经网络模型进行反向传播,更新神经网络模型各层的权重,各层权重按照降低损失函数值的梯度方向更新,通过如下方式计算损失函数值的梯度:
[0017][0018][0019]S6:将迭代次数递增,返回步骤S3。
[0020]作为上述实施例的进一步改进,在步骤S2中,当第l层神经网络为全连接神经网络时,
[0021][0022]其中,w
li
和w
lj
分别表示第l层的神经网络权重参数矩阵中的第i个和第j个,ρ(w1)表示第l层神经网络中权重向量的平均余弦相似度;
[0023]当第l层神经网络为卷积神经网络时,
[0024][0025]其中,第l层的神经网络权重参数矩阵的filter为f
×
f是
[0026]卷积核的大小,与分别表示w
l
的第i个和第j个filter,将w
li
和w
lj
做变换,对应为与ρ(w
l
)表示第l层中filter之间的余弦相似度。
[0027]作为上述实施例的进一步改进,在步骤S5中,
[0028][0029]其中,w
l,(,j)
和w
l,(,q)
分别表示wl的第j列和第q列。
[0030]作为上述实施例的进一步改进,在步骤S2中,J(θ;X,y)为交叉熵损失函数:f为对应的神经网络。
[0031]本专利技术实施例另一方面提供一种面向图像识别的神经网络训练系统,其包括:
[0032]数据获取模块:获取训练图像数据集;
[0033]模型构建模块:构建神经网络模型,设定损失函数为模型构建模块:构建神经网络模型,设定损失函数为其中J(θ;X,y)为预设损失函数,X是输入数据向量,y是对应的标签,θ是对应的参数,α∈[0,∞)是预设的超参数,g(w)为正则化项,
[0034]g(w)=∑g(w
l
);
[0035]g(w
l
)=

(N
l

1)N
l
‑1ln(1

ρ(w
l
))

N
l
‑1ln(1+(N
l

1)ρ(w
l
));
[0036]w
l
为第l层神经网络的神经网络权重参数矩阵,N
l
为第l层神经网络的神经元的个数,ρ(w
l
)表示第l层神经网络的权重关联性,也即第l层神经网络中权重向量的平均余弦相似度或者表示第l层中filter之间的余弦相似度;
[0037]图像特征向量获取模块:将训练图像数据集中的训练数据输入所述神经网络模型进行前向传播,获得图像特征向量;
[0038]损失函数值计算模块:根据图像特征向量获取模块获得的图像特征向量和当前网络的边权值计算损失函数值,判断损失函数值是否收敛于局部最优点或者是否出现泛化误差增大的情况,若是,则训练结束,否则进入权重更新模块;
[0039]权重更新模块:根据损失函数计算梯度对神经网络模型进行反向传播,更新神经网络模型各层的权重,各层权重按照降低损失函数值的梯度方向更新,通过如下方式计算损失函数值的梯度:
[0040][0041][0042]迭代模块:将迭代次数递增,进入图像特征向量获取模块。
[0043]作为上述实施例的进一步改进,在模型构建模块中,当第l层神经网络为全连接神经网络时,
[0044]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向图像识别的神经网络训练方法,其特征在于,包括如下步骤:S1:获取训练图像数据集;S2:构建神经网络模型,设定损失函数为其中J(θ;X,y)为预设损失函数,X是输入数据向量,y是对应的标签,θ是对应的参数,α∈[0,∞)是预设的超参数,g(w)为正则化项,的超参数,g(w)为正则化项,的超参数,g(w)为正则化项,为第l层神经网络的神经网络权重参数矩阵,为第l层神经网络的神经元的个数,ρ(w
l
)表示第l层神经网络的权重关联性,也即第l层神经网络中权重向量的平均余弦相似度或者表示第l层中filter之间的余弦相似度;S3:将训练图像数据集中的训练数据输入所述神经网络模型进行前向传播,获得图像特征向量;S4:根据步骤S3获得的图像特征向量和当前网络的边权值计算损失函数值,判断损失函数值是否收敛于局部最优点或者是否出现泛化误差增大的情况,若是,则训练结束,否则执行步骤S5;S5:根据损失函数计算梯度对神经网络模型进行反向传播,更新神经网络模型各层的权重,各层权重按照降低损失函数值的梯度方向更新,通过如下方式计算损失函数值的梯度:度:S6:将迭代次数递增,返回步骤S3。2.根据权利要求1所述的面向图像识别的神经网络训练方法,其特征在于,在步骤S2中,当第l层神经网络为全连接神经网络时,其中,w
li
和w
lj
分别表示第l层的神经网络权重参数矩阵中的第i个和第j个,ρ(w
l
)表示第l层神经网络中权重向量的平均余弦相似度;当第l层神经网络为卷积神经网络时,其中,第l层的神经网络权重参数矩阵的filter为f
×
f是卷积核的大小,与分别表示wl的第i个和第j个filter,将w
li
和w
lj
做变换,对应为与ρ(w1)表示第l层中filter之间的余弦相似度。
3.根据权利要求1所述的面向图像识别的神经网络训练方法,其特征在于,在步骤S5中,其中,w
l,(,j)
和w
l,(,q)
分别表示wl的第j列和第q列。4.根据权利要求1所述的面向图像识别的神经网络训练方法,其特征在于,在步骤S2中,J(θ;X,y)为交叉熵损失函数:f为对应的神经网络。5.一种面向图像识别的神经网络训练系统,其特征在于,包括:数据获取模块:获取训练图像数据集;模型构建模块:...

【专利技术属性】
技术研发人员:张亮张立军
申请(专利权)人:广州市智能软件产业研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1