训练神经网络的方法、数据处理方法和相关装置制造方法及图纸

技术编号:28038519 阅读:31 留言:0更新日期:2021-04-09 23:21
本申请中的技术方案应用于人工智能领域。本申请提供一种训练神经网络的方法,一种使用该方法训练得到的神经网络进行数据处理的方法以及相关装置。本申请的训练方法,通过对抗方式对目标神经网络进行训练,使得策略搜索模块可以不断发现目标神经网络的弱点,并根据该弱点生成更高质量的策略,以及根据该策略进行数据增强,以得到更高质量的数据,根据该数据可以训练出更高质量的目标神经网络。本申请的数据处理方法使用前述目标神经网络进行数据处理,可以得到更为准确的处理结果。

【技术实现步骤摘要】
训练神经网络的方法、数据处理方法和相关装置
本申请涉及人工智能领域,并且更具体地,涉及训练神经网络的方法、数据处理方法和相关装置。
技术介绍
人工智能(artificialintelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人,自然语言处理,计算机视觉,决策与推理,人机交互,推荐与搜索,AI基础理论等。随着人工智能技术的快速发展,神经网络,例如深度神经网络,近年来在图像、视频以及语音等多种媒体信号的处理与分析中取得了很大的成就。一个性能优良的神经网络一般都需要大量的训练数据才能获得比较理想的结果。在数据量有限的情况下,可以通过数据增强(dataaugmentation)来增加训练样本的多样性,本文档来自技高网...

【技术保护点】
1.一种神经网络的训练方法,其特征在于,包括:/n根据第i-1组损失值生成第i批策略,所述第i-1组损失值为目标神经网络经过第i-1批增强训练集的训练后的损失函数输出的值,i依次从2取到N,N为预设的正整数;/n根据所述第i批策略对所述目标神经网络的原始训练集进行数据增强,以得到第i批增强训练集;/n根据所述第i批增强训练集对所述目标神经网络进行训练,以得到第i组损失值;/n输出根据第N批增强训练集对所述目标神经网络进行训练所得到的神经网络。/n

【技术特征摘要】
1.一种神经网络的训练方法,其特征在于,包括:
根据第i-1组损失值生成第i批策略,所述第i-1组损失值为目标神经网络经过第i-1批增强训练集的训练后的损失函数输出的值,i依次从2取到N,N为预设的正整数;
根据所述第i批策略对所述目标神经网络的原始训练集进行数据增强,以得到第i批增强训练集;
根据所述第i批增强训练集对所述目标神经网络进行训练,以得到第i组损失值;
输出根据第N批增强训练集对所述目标神经网络进行训练所得到的神经网络。


2.如权利要求1所述的方法,其特征在于,所述根据第i-1组损失值生成第i批策略,包括:
根据增强策略神经网络和所述第i-1组损失值生成所述第i批策略,其中,所述i-1组损失值用于指导所述增强策略神经网络基于机器学习法更新参数,所述增强策略神经网络包括长短时间记忆单元、归一化模块和采样模块,所述长短时间记忆单元用于:根据所述采样模块在前一个时间步输出的操作信息映射得到M维向量,M为所述采样模块在当前时间步将输出的操作信息所属的信息集合的长度,所述归一化模块用于根据所述长短时间记忆单元输出的M维向量生成所述信息集合中的M个操作信息的概率分布,所述信息集合为操作类型集合、操作概率集合或操作幅度集合,所述采样模块用于根据所述概率分布采样输出所述M个操作信息中的一个。


3.如权利要求2所述的方法,其特征在于,所述采样模块在所述前一个时间步输出的是操作信息的一位有效编码;
其中,所述增强策略神经网络还包括词向量嵌入模块,所述词向量嵌入模块用于:将所述采样模块在所述前一个时间步内输出的操作信息的一位有效编码向量映射为实数域上的向量;
所述长短时间记忆单元具体用于:根据所述词向量嵌入模块输出的向量映射得到所述M维向量。


4.如权利要求1所述的方法,其特征在于,所述方法还包括:
利用经过所述第i-1批增强训练集训练的所述目标神经网络,对所述原始训练集进行推理,以得到所述原始训练集中的数据在所述目标神经网络中的第i批特征;
其中,所述根据第i-1组损失值生成第i批策略,包括:
根据所述第i-1组损失值和所述第i批特征生成所述第i批策略。


5.如权利要求4所述的方法,其特征在于,所述根据所述第i-1组损失值和所述第i批特征生成所述第i批策略,包括:
根据增强策略神经网络、所述第i批特征和所述第i-1组损失值生成所述第i批策略,其中,所述i-1组损失值和所述第i批特征用于指导所述增强策略神经网络基于机器学习法更新参数,所述增强策略神经网络包括长短时间记忆单元、归一化模块、采样模块和拼接模块,所述拼接模块用于将所述第i批特征和所述采样模块在前一个时间内输出的操作信息拼接为一个向量,所述长短时间记忆单元用于根据所述拼接模块输出的向量映射得到M维向量,M为所述采样模块在当前时间步将输出的操作信息所属的信息集合的长度,所述归一化模块用于根据所述长短时间记忆单元输出的M维向量生成所述信息集合内的M个操作信息的概率分布,所述信息集合为操作类型集合、操作概率集合或操作幅度集合,所述采样模块用于根据所述概率分布采样输出所述M个操作信息中的一个。


6.如权利要求5所述的方法,其特征在于,所述采样模块在所述前一个时间步输出的是操作信息的一位有效编码;
其中,所述增强策略神经网络还包括词向量嵌入模块,所述词向量嵌入模块用于将所述采样模块在所述前一个时间步内输出的操作信息的一位有效编码向量映射为实数域上的向量;
所述长短时间记忆单元具体用于:将所述词向量嵌入模块输出的向量映射成所述M维向量。


7.一种数据处理方法,其特征在于,包括:
获取待处理数据;
根据目标神经网络对所述待处理数据进行处理,所述目标神经网络通过N次训练得到,在所述N次训练中的第i次训练中,通过第i批增强训练集对所述目标神经网络进行训练,所述第i批增强训练集为原始训练集经过第i批策略的增...

【专利技术属性】
技术研发人员:张新雨袁鹏钟钊
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1