一种神经网络训练方法及装置、设备、介质制造方法及图纸

技术编号:20222346 阅读:40 留言:0更新日期:2019-01-28 20:40
本申请公开了一种神经网络训练方法及装置、设备、介质。本申请的神经网络训练方法至少包括:获取待训练的神经网络及其多个训练样本;利用多个训练样本和指定的损失函数,对神经网络进行训练;其中,损失函数包含用于对多个训练样本在神经网络的输出向量各维度的损失进行归一化的归一化参数,损失和归一化参数根据调节因子,以及训练样本在其真实所属类别对应的输出向量维度的不同取值区间确定,调节因子用于调节各类别之间的差异程度。本申请的方案通过改进的损失函数,能够在神经网络训练过程中计算损失时,针对相对容易分类的训练样本和相对难分类的训练样本进行区别化处理,有助于更充分地利用相对难分类的训练样本训练神经网络。

【技术实现步骤摘要】
一种神经网络训练方法及装置、设备、介质
本申请涉及人工智能
,尤其涉及一种神经网络训练方法及装置、设备、介质。
技术介绍
神经网络是人工智能
不可或缺的模型之一,其通常以样本的特征向量作为输入数据,经过多层神经节点的处理,输出同样是向量形式的分类结果,分类结果中的每个维度可以分别表示一个预定的类别,维度的值则可以表示神经网络判定的该样本属于该维度所表示类别的概率。神经网络在模型构建后,需要利用大量训练样本进行训练才可能取得较好的分类效果,训练过程是利用损失函数度量分类结果与真实结果之间的差距,作为损失,进而根据损失对神经网络的模型参数进行修正的过程,真实结果用标签向量表示。在现有技术中,常利用交叉熵(CrossEntropy,CE)的计算公式作为损失函数,这种交叉熵损失函数平等地对待不同类别的样本。但是,交叉商损失函数会导致样本多的类别容易训练,样本少的类别难以训练,从而给训练出的神经网络的分类效果带来不利影响。
技术实现思路
本申请实施例提供神经网络训练方法及装置、设备、介质,用以解决现有技术中的如下技术问题:交叉商损失函数会导致样本多的类别容易训练,样本少的类别难以训练,本文档来自技高网...

【技术保护点】
1.一种神经网络训练方法,其特征在于,包括:获取待训练的神经网络及其多个训练样本;利用所述多个训练样本和指定的损失函数,对所述神经网络进行训练;其中,所述损失函数包含用于对所述多个训练样本在所述神经网络的输出向量各维度的损失进行归一化的归一化参数,所述损失和所述归一化参数根据调节因子,以及所述训练样本在其真实所属类别对应的输出向量维度的不同取值区间确定,所述调节因子用于调节各类别之间的差异程度。

【技术特征摘要】
1.一种神经网络训练方法,其特征在于,包括:获取待训练的神经网络及其多个训练样本;利用所述多个训练样本和指定的损失函数,对所述神经网络进行训练;其中,所述损失函数包含用于对所述多个训练样本在所述神经网络的输出向量各维度的损失进行归一化的归一化参数,所述损失和所述归一化参数根据调节因子,以及所述训练样本在其真实所属类别对应的输出向量维度的不同取值区间确定,所述调节因子用于调节各类别之间的差异程度。2.如权利要求1所述的方法,其特征在于,所述损失函数还包含所述各类别的权重因子。3.如权利要求1所述的方法,其特征在于,所述调节因子根据所述训练样本在其真实所属类别对应的输出向量维度的值确定;所述调节因子进一步地用于减少所述多个训练样本中相对容易分类的训练样本在所述神经网络的输出向量维度的相对的损失,所述相对的损失是针对未使用所述调节因子的情况比较确定的。4.如权利要求1所述的方法,其特征在于,所述不同取值区间之间不重叠,根据下限值越小的取值区间确定出的所述损失越小。5.如权利要求4所述的方法,其特征在于,根据下限值最小的取值区间确定出的所述损失为0。6.如权利要求1所述的方法,其特征在于,所述多个训练样本属于同一样本批次;所述对所述神经网络进行训练,具体包括:以样本批次为单位,对所述神经网络进行迭代训练。7.如权利要求2所述的方法,其特征在于,所述不同取值区间包括以预定的η分隔出的两个取值区间,η>0,所述损失函数记作L(y,y'),具体包括:其中,y表示训练标签向量,y'表示所述神经网络的输出向量,Z表示所述归一化参数,B表示一个样本批次,C表示y'的全部维度,yji表示B中的第j个训练样本对应的训练标签向量第i个维度的值,yji'表示B中的第j个训练样本在所述神经网络的输出向量第i个维度的值,loss(yji,y'ji)表示B中的第j个训练样本在所述神经网络的输出向量第i个...

【专利技术属性】
技术研发人员:高三元冯汉平
申请(专利权)人:宽凳北京科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1