训练样本的选取方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:23559931 阅读:24 留言:0更新日期:2020-03-25 05:05
本申请涉及一种训练样本的选取方法、装置、计算机设备和存储介质。所述方法包括:根据初始训练样本集进行模型训练,得到第一识别模型;所述初始训练样本集中包括多个初始训练样本和各所述初始训练样本对应的标注;基于所述第一识别模型构造至少一个第二识别模型,并将所述第一识别模型和至少一个所述第二识别模型组成识别模型集合;根据所述识别模型集合从多个不具有标注的候选训练样本中选取出目标训练样本,所述目标训练样本为富含信息的训练样本。通过本发明专利技术实施例,由识别模型集合从多个候选训练样本中选取目标训练样本,不仅节省时间,而且节省人力成本。

Selection method, device, computer equipment and storage medium of training samples

【技术实现步骤摘要】
训练样本的选取方法、装置、计算机设备和存储介质
本申请涉及模型训练
,特别是涉及一种训练样本的选取方法、装置、计算机设备和存储介质。
技术介绍
随着科技的发展,语音识别技术取得了显著进步,其应用在工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。相关技术中,将待识别的语音数据输入到训练好的语音识别模型中,即可得到语音识别结果。在训练语音识别模型之前,通常需要选取出一定数量的无标注语音数据,并对这些无标注语音数据进行人工标注得到带标注语音数据。但是,目前选取出一定数量的无标注语音数据为人工选取,不仅耗费时间和人力成本,而且选取出的语音数据也可能不适用于模型训练。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够节省时间和人力成本的训练样本的选取方法、装置、计算机设备和存储介质。第一方面,本专利技术实施例提供了一种训练样本的选取方法,该方法包括:根据初始训练样本集进行模型训练,得到第一识别模型;初始训练样本集中包括多个初始训练样本和各初始训练样本对应的标注本文档来自技高网...

【技术保护点】
1.一种训练样本的选取方法,其特征在于,所述方法包括:/n根据初始训练样本集进行模型训练,得到第一识别模型;所述初始训练样本集中包括多个初始训练样本和各所述初始训练样本对应的标注;/n基于所述第一识别模型构造至少一个第二识别模型,并将所述第一识别模型和至少一个所述第二识别模型组成识别模型集合;/n根据所述识别模型集合从多个不具有标注的候选训练样本中选取出目标训练样本,所述目标训练样本为富含信息的训练样本。/n

【技术特征摘要】
1.一种训练样本的选取方法,其特征在于,所述方法包括:
根据初始训练样本集进行模型训练,得到第一识别模型;所述初始训练样本集中包括多个初始训练样本和各所述初始训练样本对应的标注;
基于所述第一识别模型构造至少一个第二识别模型,并将所述第一识别模型和至少一个所述第二识别模型组成识别模型集合;
根据所述识别模型集合从多个不具有标注的候选训练样本中选取出目标训练样本,所述目标训练样本为富含信息的训练样本。


2.根据权利要求1所述的方法,其特征在于,所述基于所述第一识别模型构造至少一个第二识别模型,包括:
对所述第一识别模型中的网络单元进行随机舍弃,得到舍弃网络单元后的至少一个所述第二识别模型。


3.根据权利要求1所述的方法,其特征在于,所述根据所述识别模型集合从多个不具有标注的候选训练样本中选取出目标训练样本,包括:
针对每个所述候选训练样本,将所述候选训练样本分别输入到所述第一识别模型和所述第二识别模型中,得到所述第一识别模型输出的第一标注和所述第二识别模型输出的第二标注;
计算所述第一标注和所述第二标注之间的差异度;
若所述差异度在预先设置的差异度范围内,则将所述候选训练样本确定为所述目标训练样本。


4.根据权利要求3所述的方法,其特征在于,所述计算所述第一标注和所述第二标注之间的差异度,包括:
计算所述第一标注与多个所述第二标注的差异度的均值;
或,计算所述第一标注与多个所述第二标注中的差异度的最低值。


5.根据权利要求3所述的方法,其特征在于,在所述计算所述第一标注和所述第二标注之间的差异度之后,还包括:
若所述差异度在所述差异度范围内...

【专利技术属性】
技术研发人员:付嘉懿茹旷潘晟锋刘峰刘云峰
申请(专利权)人:深圳追一科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1