一种深度学习神经网络的优化方法、装置及系统制造方法及图纸

技术编号:22057967 阅读:18 留言:0更新日期:2019-09-07 16:13
本发明专利技术涉及深度学习技术领域,公开了一种深度学习神经网络的优化方法、装置及系统。其中,所述深度学习神经网络的优化方法包括:获取深度学习神经网络的输出信息,样本的原始类别标注信息以及亲近类别损失函数;将所述深度学习神经网络的输出信息和所述样本的原始类别标注信息,通过所述亲近类别损失函数进行梯度分析,获取所述样本的梯度分析结果;将所述样本的梯度分析结果发送给所述深度学习神经网络进行参数调整,实现深度学习神经网络的优化,使得深度学习神经网络的精度不受实际场景的影响而有明显的波动,并且降低严重识别错误的发生概率。

An Optimal Method, Device and System of Deep Learning Neural Network

【技术实现步骤摘要】
一种深度学习神经网络的优化方法、装置及系统
本专利技术涉及深度学习
,特别涉及一种深度学习神经网络的优化方法、装置及系统。
技术介绍
近年来,以卷积神经网络为代表的深度学习技术被广泛应用于各类人工智能任务,例如物体分类、人脸识别、行人身份再识别等。卷积神经网络在这些问题上取得的突破性进展源于其层次化的学习结构所带来的强大表达能力。然而,随着所处理问题规模和复杂度的提高,为获得更大的模型表达能力,卷积神经网络的深度在不断加深,这种网络加深的趋势使得神经网络“过学习”的风险逐渐暴露。“过学习”是指人工智能模型在处理实际场景数据集时的精度明显低于在训练期数据集上精度的现象,也称为泛化能力不足。为了调和模型表达能力和泛化能力之间的矛盾,现有的研究包括以下三个方向:第一,改进网络结构,例如“残差神经网络”;第二,改进模型训练过程,例如进行数据的多样化,或引入Dropout等随机训练环节;第三,对神经网络的损失函数进行改造。随着深度学习问题规模的增大和数据复杂度的提高,通过改进网络结构和训练过程来提高模型泛化能力的研究所带来的成效逐渐趋于饱和。相应地,卷积神经网络作为一种监督学习方法,样本数据的标注信息须通过损失函数才能作用于神经网络的训练过程。而深度学习兴起以来,大量神经网络都沿用了经典的损失函数Softmax,因此通过改进SoftMax使其提供更有区分能力的信息是近两年神经网络优化的重要方向。在实现深度学习神经网络的优化过程中,专利技术人发现,神经网络的训练难度增大、泛化能力降低的一个重要原因是由于问题规模和数据复杂度提高后,训练数据集与实际场景的数据之间、以及不同的实际场景的数据之间的一致性变差,多样性提高。为了解决原始SoftMax无视类别间相对距离的矛盾,将问题转化为了样本真实类别分布的参数估计问题。但使用训练数据集进行类别分布估计,事实上是假设训练集上的类别分布等同于各实际场景中的真实类别分布,并假设每个类别的训练样本数量及多样性足够丰富。而这就是基于上述优化问题的出发点训练数据集与实际场景数据之间的差异性相矛盾,即这个假设在实际中很难成立。此外,不同实际场景中的类别分布之间也不可能一致,使用一个固定的分布来拟合,与原始SoftMax采用固定的0-1分布相比,并没有本质的差别。然而,现有的神经网络广泛使用了经典的Softmax损失函数,且通过改进损失函数SoftMax来提高网络在实际场景中泛化能力的方法。专利技术人发现现有方法共同的缺点在于:第一,现有方法假设训练数据集中各个类别的样本数据足够丰富并与实际场景中的数据分布相一致,因此或利用训练数据集中类别间的数据分布关系来增加分类安全边际,或利用训练数据集来估计样本特征相对于各类别的先验分布。但随着问题复杂度的提高,深度学习分类/识别问题中的类别数已急剧增加,许多问题的分类类别数在数千(如物体分类)、数万(如车型识别)乃至数百万(如身份验证)不等。庞大的类别总数,使的训练数据集的总体样本数量虽大,但具体到每一个类别的样本数量则并不高,且分布不均,因此不可避免地会有相当一部分类别的训练样本处于稀缺的状态,从而形成样本总量巨大的“小样本“训练现象。在这种背景下,利用稀少的训练样本来估计类别的真实分布,显然无法有效提高模型的泛化能力。第二,现有损失函数方法均假设样本存在一个唯一正确的类别标签,并假设训练数据的标注没有错误。这种假设在类别数较低、数据集规模较小时是合理的,但随着深度学习被应用于越来越复杂的问题,问题中的类别之间不再是非黑即白的单纯排他性关系——例如一个30岁的年龄分类样本,既可能被标注为“青年“,也可能被标注为”中年“,再以人脸识别或行人身份再识别为例,作为一种外在判断机制,在标注时将两个外貌相似的人标注为同一个人,是经常会出现的现象。也就是说,如果假设训练集的数据是充分且完全精确的,则这样的改进只适用于训练集,而并不能真正改善模型在实际中问题的精度。在上述背景下产生的深度学习神经网络与人类判断相比,尽管在错误的总体数量上可能接近,甚至低于人类;例如在人脸识别的绝对精度上,机器已超过人。但人类的判断可以做到“小错不断,大错不犯”;例如人类几乎不可能将两个外貌差异很大的人认为是同一个人,或将一个30岁的中年人识别为婴儿,而深度学习神经网络的精度则受实际场景的影响而有明显的波动,并且难以控制严重识别错误的发生。
技术实现思路
本专利技术的目的在于提供一种深度学习神经网络的优化方法、装置及系统,以克服现有技术中针对目前分类/识别问题类别数量庞大,类别样本的平均数量仍偏低、类别间关系复杂、标注精度难以保证的情况下,深度学习神经网络的精度受实际场景的影响而有明显的波动,并且难以控制严重识别错误的发生数量。为解决上述技术问题,本专利技术的实施方式提供了一种深度学习神经网络的优化方法,包括:获取深度学习神经网络的输出信息,样本的原始类别标注信息以及亲近类别损失函数;将所述深度学习神经网络的输出信息和所述样本的原始类别标注信息,通过所述亲近类别损失函数进行梯度分析,获取所述样本的梯度分析结果;将所述样本的梯度分析结果发送给所述深度学习神经网络进行参数调整,实现深度学习神经网络的优化。本专利技术的实施方式还提供了一种深度学习神经网络的优化装置,包括。信息获取单元,用于获取深度学习神经网络的输出信息,样本的原始类别标注信息以及亲近类别损失函数;信息分析单元,用于将所述深度学习神经网络的输出信息和所述样本的原始类别标注信息,通过所述亲近类别损失函数进行梯度分析,获取所述样本的梯度分析结果;参数调整单元,用于将所述样本的梯度分析结果发送给所述深度学习神经网络进行参数调整,实现深度学习神经网络的优化。本专利技术的实施方式还提供了一种深度学习神经网络的优化系统,该系统包括:如上所述深度学习神经网络的优化装置。本专利技术提供的一种深度学习神经网络的优化方法、装置及系统,通过获取深度学习神经网络的输出信息,样本的原始类别标注信息以及亲近类别损失函数;将所述深度学习神经网络的输出信息和所述样本的原始类别标注信息,通过所述亲近类别损失函数进行梯度分析,获取所述样本的梯度分析结果;将所述样本的梯度分析结果发送给所述深度学习神经网络进行参数调整,实现深度学习神经网络的优化,使得深度学习神经网络的精度不受实际场景的影响而有明显的波动,并且降低严重识别错误的发生概率。附图说明图1是本专利技术实施例提供的一种深度学习神经网络的优化方法流程图;图2是本专利技术实施例提供的一种深度学习神经网络的优化方法流程图;图3是本专利技术实施例提供的一种深度学习神经网络的优化装置结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本专利技术各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请各权利要求所要求保护的技术方案。本专利技术的第一实施方式涉及一种深度学习神经网络的优化方法。具体流程如图1所示。该方法包括:101:获取深度学习神经网络的输出信息,样本的原始类别标注信息以及亲近类别损失函数;102:将所述深度学习神经网络的输出信息和所述样本的原始类本文档来自技高网
...

【技术保护点】
1.一种深度学习神经网络的优化方法,其特征在于,包括:获取深度学习神经网络的输出信息,样本的原始类别标注信息以及亲近类别损失函数;将所述深度学习神经网络的输出信息和所述样本的原始类别标注信息,通过所述亲近类别损失函数进行梯度分析,获取所述样本的梯度分析结果;将所述样本的梯度分析结果发送给所述深度学习神经网络进行参数调整,实现深度学习神经网络的优化。

【技术特征摘要】
1.一种深度学习神经网络的优化方法,其特征在于,包括:获取深度学习神经网络的输出信息,样本的原始类别标注信息以及亲近类别损失函数;将所述深度学习神经网络的输出信息和所述样本的原始类别标注信息,通过所述亲近类别损失函数进行梯度分析,获取所述样本的梯度分析结果;将所述样本的梯度分析结果发送给所述深度学习神经网络进行参数调整,实现深度学习神经网络的优化。2.根据权利要求1所述的深度学习神经网络的优化方法,其特征在于,所述样本的原始类别标注信息包括:标准类别标注信息和亲近类别标注信息;该方法还包括:预设所述亲近类别个数;所述亲近类别个数至少为1;接收所述样本的原始类别标注信息,对每一个原始类别获取其相应的亲近类别集合;其中,所述亲近类别集合包括标准类别信息和至少一个亲近类别的信息。3.根据权利要求2所述的深度学习神经网络的优化方法,其特征在于,所述亲近类别损失函数包括:损失函数Softmax和亲近类别损失项;所述将所述深度学习神经网络的输出信息和所述样本的原始类别标注信息,通过所述亲近类别损失函数进行梯度分析,获取所述样本的梯度分析结果的步骤,具体包括:将所述深度学习神经网络的输出信息和所述原始类别标注信息,通过所述亲近类别损失函数获取所述样本集的亲近类别损失函数取值;其中,所述样本集的亲近类别损失函数取值包括:损失函数Softmax取值和亲近类别损失项取值;根据所述样本集的亲近类别损失函数的损失函数Softmax取值进行梯度分析,获取本批次样本的梯度分析结果一;根据所述样本集的亲近类别损失函数的亲近类别损失项取值进行梯度分析,获取本批次样本的梯度分析结果二;根据所述梯度分析结果一和所述梯度分析结果二,获取所述样本的梯度分析结果。4.据权利要求3所述的深度学习神经网络的优化方法,其特征在于,所述损失函数Softmax至少包括:所述亲近类别损失项L′至少包括:所述亲近类别损失函数L至少包括:其中,α为取值大于等于0,小于等于1区间内的数值。5.据权利要求4所述的深度学习神经网络的优化方法,其特征在于,所述亲近类别损失函数L对样本i的梯度优化具体如下:其中,设分类/识别问题中有样本i∈[1,N],N表示参与训练的样本的数量,样本i所对应的类别标签记为yi,一般通过人工标注获得。类别j∈[1,K],K表示分类问题或识别问题所涉及的类别或身份的数量,f是神经网络输出的类别得分向量,其中fj为其第j个分量,表示神经网络认为样本属于第j个类别的可能性高低。6...

【专利技术属性】
技术研发人员:林宇陶海
申请(专利权)人:北京文安智能技术股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1