深度学习训练方法及装置制造方法及图纸

技术编号：18784543 阅读：34 留言：0更新日期：2018-08-29 07:14

本发明专利技术公开了一种深度学习训练方法及装置，用以解现有深度学习领域中深度学习模型收敛较慢的问题。所述方法包括：在每次迭代训练中，根据各训练数据实例的损失值，从批量训练数据实例中确定出所有困难实例；放弃学习非困难实例的特征，学习所述所有困难实例的特征。本发明专利技术中训练方法及装置通过计算训练迭代中训练数据实例的损失值，获得对该次迭代具有较大作用数据实例，并用于对模型进行训练；也就是说集中训练困难实例，加快了模型的收敛速度。

全部详细技术资料下载

【技术实现步骤摘要】
深度学习训练方法及装置
本专利技术涉及智能学习领域，特别是涉及一种深度学习训练方法及装置。
技术介绍
随着网络信息技术的发展，信息数据的存储和传播越来越便捷，人们可以方便地获得大量的信息数据用于学习、工作和生活。目前已进入大数据时代，数以亿计的数据，加之不断提高的计算能力，使得一度进入冰河期的神经网络领域开始再度复苏，深度学习(多层神经网络)掀起新一轮的热潮。目前，深度学习是人工智能领域中研究重点，大量的学者和研究人员投身其中，推动着其迅速发展。尽管深度学习取得了极大的成就，但其依旧面临着很多难题。相比传统方法，更多的数据和更深的网络结构是深度学习最大的特色，也是其取得成功的关键。但这也意味着深度学习往往需要更大的训练存储空间和时间；训练一个深度学习的模型往往需要数天乃至数个月的时间，因而加速训练过程，节约时间成本是当下的一个重要研究方向。对于加速训练，现有技术中一般采用在硬件方面采用GPU加速和集群计算，在算法上采用数据并行和模型并行方案。现有方案虽然加快了深度网络的训练迭代速度，但仍然面临着模型收敛较慢的问题。
技术实现思路
为了克服上述现有技术的缺陷，本专利技术要解决的技术问题是提供一种深度学习训练方法及装置，用以解现有深度学习领域中深度学习模型收敛较慢的问题。为解决上述技术问题，本专利技术中的一种深度学习训练方法，包括：在每次迭代训练中，根据各训练数据实例的损失值，从批量训练数据实例中确定出所有困难实例；放弃学习非困难实例的特征，学习所述所有困难实例的特征。可选地，所述根据各训练数据实例的损失值，从批量训练数据实例中确定出所有困难实例，包括：针对任一训...

【技术保护点】
1.一种深度学习训练方法，其特征在于，所述方法包括：在每次迭代训练中，根据各训练数据实例的损失值，从批量训练数据实例中确定出所有困难实例；放弃学习非困难实例的特征，学习所述所有困难实例的特征。

【技术特征摘要】
1.一种深度学习训练方法，其特征在于，所述方法包括：在每次迭代训练中，根据各训练数据实例的损失值，从批量训练数据实例中确定出所有困难实例；放弃学习非困难实例的特征，学习所述所有困难实例的特征。2.如权利要求1所述的方法，其特征在于，所述根据各训练数据实例的损失值，从批量训练数据实例中确定出所有困难实例，包括：针对任一训练数据实例，对比该训练数据实例的损失值和预设阈值θ1的大小关系；若该损失值不小于所述预设阈值θ1，则该训练数据实例为困难实例；遍历所述批量训练数据实例，对比出所有困难实例。3.如权利要求1所述的方法，其特征在于，所述在每次迭代训练中，根据各训练数据实例的损失值，从批量训练数据实例中确定出所有困难实例之前，还包括：在每次迭代训练的前向传播过程中，确定所述批量训练数据实例中每个训练数据实例的损失值。4.如权利要求1-3中任意一项所述的方法，其特征在于，所述根据各训练数据实例的损失值，从批量训练数据实例中确定出所有困难实例之后，还包括：确定所述批量训练数据实例的损失平均值；对比所述损失平均值和预设阈值θ2的大小关系；若所述损失平均值超过所述预设阈值θ2，则放弃学习非困难实例的特征，学习所述所有困难实例的特征；若所述损失平均值未超过所述预设阈值θ2，则放弃学习所述批量训练数据实例的特征。5.如权利要求4所述的方法，其特征在于，所述预设阈值θ2小于所述预设阈值θ1。6.如权利要求4所述的方法，其特征在于，所述方法还包括：针对任一训练数据实例，根据该训练数据实例的类别概率，确定该训练数据实例的预设阈值θ1；根据任一训练数据实例预设阈值θ1，确定所述预设阈值θ2。7.如权利要求4所述的方法，其特征在于，所述学习所述所有困难实例的特征，还包括：在学习时，将各困难实例的损失...

【专利技术属性】
技术研发人员：高燕，吕达，罗圣美，李伟华，
申请(专利权)人：中兴通讯股份有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人