【技术实现步骤摘要】
训练样本生成方法、装置以及电子设备
本申请涉及一种神经网络领域,尤其涉及一种训练样本领域。
技术介绍
深度神经元网络的训练过程中样本的选取对于模型的收敛速度及精度至关重要。对于类别数多的训练任务,由于各类样本并不均衡,不满足样本均衡条件,导致类别不均衡的训练样本会让模型的训练速度慢几十倍甚至上百倍,同时模型很难收敛到非常高的精度。
技术实现思路
本申请实施例提供一种训练样本生成方法、装置以及电子设备,以解决现有技术中的一个或多个技术问题。第一方面,本申请实施例提供了一种训练样本生成方法,包括:获取初始样本编码序列及其对应的多个均衡属性的标签;将初始样本编码序列、编码序列长度、多个均衡属性的标签输入至自适应均衡生成模型中,得到预测样本编码序列;根据预测样本编码序列计算均衡值,并利用均衡值对自适应均衡生成模型进行更新;在自适应均衡生成模型收敛的情况下,得到均衡样本编码序列,对均衡样本编码序列进行解码,得到均衡样本集合。本实施方式中,利用训练样本生成方法得到的均衡 ...
【技术保护点】
1.一种训练样本生成方法,其特征在于,包括:/n获取初始样本编码序列及其对应的多个均衡属性的标签;/n将所述初始样本编码序列、编码序列长度、所述多个均衡属性的标签输入至自适应均衡生成模型中,得到预测样本编码序列;/n根据所述预测样本编码序列计算均衡值,并利用所述均衡值对所述自适应均衡生成模型进行更新;/n在所述自适应均衡生成模型收敛的情况下,得到均衡样本编码序列,对所述均衡样本编码序列进行解码,得到均衡样本集合。/n
【技术特征摘要】
1.一种训练样本生成方法,其特征在于,包括:
获取初始样本编码序列及其对应的多个均衡属性的标签;
将所述初始样本编码序列、编码序列长度、所述多个均衡属性的标签输入至自适应均衡生成模型中,得到预测样本编码序列;
根据所述预测样本编码序列计算均衡值,并利用所述均衡值对所述自适应均衡生成模型进行更新;
在所述自适应均衡生成模型收敛的情况下,得到均衡样本编码序列,对所述均衡样本编码序列进行解码,得到均衡样本集合。
2.根据权利要求1所述的方法,其特征在于,获取初始样本编码序列及其对应的多个均衡属性的标签,包括:
按照均衡属性获取初始样本集合,所述初始样本集合包括多个均衡属性的标签;
根据所述多个均衡属性的标签对所述初始样本集合中的样本进行编码,得到所述初始样本编码序列。
3.根据权利要求1所述的方法,其特征在于,根据所述预测样本编码序列计算均衡值,包括:
对所述预测样本编码序列进行解码,得到预测样本集合;
计算所述预测样本集合中全部样本数的方差,以及最大样本数和最小样本数的差值,得到所述均衡值。
4.根据权利要求1所述的方法,其特征在于,所述均衡属性包括类别均衡、尺度均衡以及难易均衡。
5.根据权利要求1所述的方法,其特征在于,所述自适应均衡生成模型包括基于强化学习的自适应均衡生成模型和基于进化算法的自适应均衡生成模型中的一种。
6.一种训练样本生成装置,其特征在于,包括:
初始样本获取模块,用于获取初始样本编码序列及其对应的多个均衡属性的标签;
预测样本生成模块,用于将所述初始样本编码序列、编码序列长度、所述多个均衡属性的标签输入至自适应均衡生成模型中,得到预测样本编码序列;
模...
【专利技术属性】
技术研发人员:希滕,张刚,温圣召,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。