深度学习训练方法及装置制造方法及图纸

技术编号:18784543 阅读:34 留言:0更新日期:2018-08-29 07:14
本发明专利技术公开了一种深度学习训练方法及装置,用以解现有深度学习领域中深度学习模型收敛较慢的问题。所述方法包括:在每次迭代训练中,根据各训练数据实例的损失值,从批量训练数据实例中确定出所有困难实例;放弃学习非困难实例的特征,学习所述所有困难实例的特征。本发明专利技术中训练方法及装置通过计算训练迭代中训练数据实例的损失值,获得对该次迭代具有较大作用数据实例,并用于对模型进行训练;也就是说集中训练困难实例,加快了模型的收敛速度。

【技术实现步骤摘要】
深度学习训练方法及装置
本专利技术涉及智能学习领域,特别是涉及一种深度学习训练方法及装置。
技术介绍
随着网络信息技术的发展,信息数据的存储和传播越来越便捷,人们可以方便地获得大量的信息数据用于学习、工作和生活。目前已进入大数据时代,数以亿计的数据,加之不断提高的计算能力,使得一度进入冰河期的神经网络领域开始再度复苏,深度学习(多层神经网络)掀起新一轮的热潮。目前,深度学习是人工智能领域中研究重点,大量的学者和研究人员投身其中,推动着其迅速发展。尽管深度学习取得了极大的成就,但其依旧面临着很多难题。相比传统方法,更多的数据和更深的网络结构是深度学习最大的特色,也是其取得成功的关键。但这也意味着深度学习往往需要更大的训练存储空间和时间;训练一个深度学习的模型往往需要数天乃至数个月的时间,因而加速训练过程,节约时间成本是当下的一个重要研究方向。对于加速训练,现有技术中一般采用在硬件方面采用GPU加速和集群计算,在算法上采用数据并行和模型并行方案。现有方案虽然加快了深度网络的训练迭代速度,但仍然面临着模型收敛较慢的问题。
技术实现思路
为了克服上述现有技术的缺陷,本专利技术要解决的技术问题是提供一种深度学习训练方法及装置,用以解现有深度学习领域中深度学习模型收敛较慢的问题。为解决上述技术问题,本专利技术中的一种深度学习训练方法,包括:在每次迭代训练中,根据各训练数据实例的损失值,从批量训练数据实例中确定出所有困难实例;放弃学习非困难实例的特征,学习所述所有困难实例的特征。可选地,所述根据各训练数据实例的损失值,从批量训练数据实例中确定出所有困难实例,包括:针对任一训练数据实例,对比该训练数据实例的损失值和预设阈值θ1的大小关系;若该损失值不小于所述预设阈值θ1,则该训练数据实例为困难实例;遍历所述批量训练数据实例,对比出所有困难实例。可选地,所述在每次迭代训练中,根据各训练数据实例的损失值,从批量训练数据实例中确定出所有困难实例之前,还包括:在每次迭代训练的前向传播过程中,确定所述批量训练数据实例中每个训练数据实例的损失值。可选地,所述根据各训练数据实例的损失值,从批量训练数据实例中确定出所有困难实例之后,还包括:确定所述批量训练数据实例的损失平均值;对比所述损失平均值和预设阈值θ2的大小关系;若所述损失平均值超过所述预设阈值θ2,则放弃学习非困难实例的特征,学习所述所有困难实例的特征;若所述损失平均值未超过所述预设阈值θ2,则放弃学习所述批量训练数据实例的特征。具体地,所述预设阈值θ2小于所述预设阈值θ1。具体地,所述方法还包括:针对任一训练数据实例,根据该训练数据实例的类别概率,确定该训练数据实例的预设阈值θ1;根据任一训练数据实例预设阈值θ1,确定所述预设阈值θ2。具体地,所述学习所述所有困难实例的特征,还包括:在学习时,将各困难实例的损失值反向传播;根据各损失值调整用于训练的网络参数。为解决上述技术问题,本专利技术中的一种深度学习训练装置,包括:实例选择模块,用于在每次迭代训练中,根据各训练数据实例的损失值,从批量训练数据实例中确定出所有困难实例;学习模块,用于放弃学习非困难实例的特征,学习所述所有困难实例的特征。可选地,所述实例选择模块,具体用于针对任一训练数据实例,对比该训练数据实例的损失值和预设阈值θ1的大小关系;若该损失值不小于所述预设阈值θ1,则该训练数据实例为困难实例;遍历所述批量训练数据实例,对比出所有困难实例。可选地,所述装置还包括:损失确定模块,用于在每次迭代训练的前向传播过程中,确定所述批量训练数据实例中每个训练数据实例的损失值可选地,所述装置还包括:判断模块,用于确定所述批量训练数据实例的损失平均值;对比所述损失平均值和预设阈值θ2的大小关系;若所述损失平均值超过所述预设阈值θ2,则触发所述学习模块放弃学习非困难实例的特征,学习所述所有困难实例的特征;若所述损失平均值不小于所述预设阈值θ2,则放弃学习所述批量训练数据实例的特征。具体地,所述预设阈值θ2小于所述预设阈值θ1。具体地,所述装置还包括:阈值设置模块,用于针对任一训练数据实例,根据该训练数据实例的类别概率,确定该训练数据实例的预设阈值θ1;根据任一训练数据实例预设阈值θ1,确定所述预设阈值θ2。具体地,所述装置还包括:参数调整模块,用于在学习时,将各困难实例的损失值反向传播;根据各损失值调整用于训练的网络参数。本专利技术有益效果如下:本专利技术中训练方法及装置通过计算训练迭代中训练数据实例的损失值,获得对该次迭代具有较大作用数据实例,并用于对模型进行训练;也就是说集中训练困难实例,加快了模型的收敛速度;同时,学习训练过程忽略了无用数据实例,有效地改善了实际问题中训练数据不平衡的问题。本专利技术实施例通过对模型训练数据的分析,对现有的训练学习方法进行改进,可结合现有各种优化求解方法使用,并可以融合进当前的各个深度学习框架中。附图说明图1是本专利技术实施例中一种深度学习训练方法的主流程图;图2是本专利技术实施例中一种深度学习训练方法的详细流程图;图3是本专利技术实施例中一种深度学习训练装置的结构示意图。具体实施方式对于深度学习的网络训练而言,加快网络收敛相较于单纯加速更为重要。因此基于训练数据考虑,为了解决现有深度学习领域中深度学习模型收敛较慢的问题,本专利技术提供了一种深度学习训练方法及装置,以下结合附图以及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不限定本专利技术。本专利技术实施例中一种深度学习训练方法,包括:S101,在每次迭代训练的前向传播过程中,确定批量训练数据实例中每个训练数据实例的损失值。详细说,本步骤可以包括:步骤1011,根据任务要求,获取足量训练样本(即训练数据实例或数据实例),并对所获取的训练样本进行筛选、处理、增强、均衡、标记标签等操作,构建训练样本集。步骤1012,选定深度网络模型结构,设定相应的训练参数,初始化深度网络模型。步骤1013,将一定数量的训练样本组成一个batch(批量训练数据实例)送入深度网络进行计算,得到此batch中每个样本数据的分类计算值Xc。步骤1014,对比每个样本的真实标签XT,计算每个样本的Loss(损失)值L。其中,计算Loss值L的方法为:L=-log[softmax(ak)]k为该实例的真实类别(1)其中,a为类别概率,softmax(ak)为交叉损失函数。S102,根据各训练数据实例的损失值,从所述批量训练数据实例中确定出所有困难实例;S103,放弃学习非困难实例的特征,学习所述所有困难实例的特征。本专利技术实施例通过计算训练迭代中训练数据实例的损失(数据实例实际输出与理想输出的差距)值,获得对该次迭代具有较大作用数据实例(即困难实例),并用于对模型进行训练;也就是说集中训练困难实例,加快了模型的收敛速度;同时,学习训练过程忽略了无用数据实例(即非困难实例),有效地改善了实际问题中训练数据不平衡的问题。本专利技术实施例通过对模型训练数据的分析,对现有的训练学习方法进行改进,可结合现有各种优化求解方法使用,并可以融合进当前的各个深度学习框架中。在上述实施例的基础上,进一步提出上述实施例的变型实施例,在此需要说明的是,为了使描述简要,在各变型实施例中仅描述与上述实施例本文档来自技高网...

【技术保护点】
1.一种深度学习训练方法,其特征在于,所述方法包括:在每次迭代训练中,根据各训练数据实例的损失值,从批量训练数据实例中确定出所有困难实例;放弃学习非困难实例的特征,学习所述所有困难实例的特征。

【技术特征摘要】
1.一种深度学习训练方法,其特征在于,所述方法包括:在每次迭代训练中,根据各训练数据实例的损失值,从批量训练数据实例中确定出所有困难实例;放弃学习非困难实例的特征,学习所述所有困难实例的特征。2.如权利要求1所述的方法,其特征在于,所述根据各训练数据实例的损失值,从批量训练数据实例中确定出所有困难实例,包括:针对任一训练数据实例,对比该训练数据实例的损失值和预设阈值θ1的大小关系;若该损失值不小于所述预设阈值θ1,则该训练数据实例为困难实例;遍历所述批量训练数据实例,对比出所有困难实例。3.如权利要求1所述的方法,其特征在于,所述在每次迭代训练中,根据各训练数据实例的损失值,从批量训练数据实例中确定出所有困难实例之前,还包括:在每次迭代训练的前向传播过程中,确定所述批量训练数据实例中每个训练数据实例的损失值。4.如权利要求1-3中任意一项所述的方法,其特征在于,所述根据各训练数据实例的损失值,从批量训练数据实例中确定出所有困难实例之后,还包括:确定所述批量训练数据实例的损失平均值;对比所述损失平均值和预设阈值θ2的大小关系;若所述损失平均值超过所述预设阈值θ2,则放弃学习非困难实例的特征,学习所述所有困难实例的特征;若所述损失平均值未超过所述预设阈值θ2,则放弃学习所述批量训练数据实例的特征。5.如权利要求4所述的方法,其特征在于,所述预设阈值θ2小于所述预设阈值θ1。6.如权利要求4所述的方法,其特征在于,所述方法还包括:针对任一训练数据实例,根据该训练数据实例的类别概率,确定该训练数据实例的预设阈值θ1;根据任一训练数据实例预设阈值θ1,确定所述预设阈值θ2。7.如权利要求4所述的方法,其特征在于,所述学习所述所有困难实例的特征,还包括:在学习时,将各困难实例的损失...

【专利技术属性】
技术研发人员:高燕吕达罗圣美李伟华
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1