机器学习模型训练方法、介质、装置和计算设备制造方法及图纸

技术编号:22755143 阅读:35 留言:0更新日期:2019-12-07 04:00
本发明专利技术的实施方式提供了一种机器学习模型训练方法、介质、机器学习模型训练装置和计算设备。该机器学习模型训练方法包括:获取原始数据,以得到由所述原始数据组成的原始数据集;获取通过数据增强得到的扩展数据,以得到由所述扩展数据组成的扩展数据集;以第一抽样比例从所述原始数据集中抽取原始数据样本,并以第二抽样比例从所述扩展数据集中抽取扩展数据样本;利用所述原始数据样本和所述扩展数据样本组成的训练样本集对机器学习模型进行迭代训练,并在训练过程中动态调整所述第一抽样比例和所述第二抽样比例以更新所述训练样本集。该方法具有训练效率高、训练效果好等优点。

Machine learning model training methods, media, devices and computing equipment

The embodiment of the invention provides a machine learning model training method, a medium, a machine learning model training device and a computing device. The machine learning model training method includes: acquiring the original data to obtain the original data set composed of the original data; acquiring the extended data obtained through data enhancement to obtain the extended data set composed of the extended data; extracting the original data samples from the original data set with the first sampling ratio and the extended data set with the second sampling ratio In the training process, the first sampling proportion and the second sampling proportion are dynamically adjusted to update the training sample set. This method has the advantages of high training efficiency and good training effect.

【技术实现步骤摘要】
机器学习模型训练方法、介质、装置和计算设备
本专利技术的实施方式涉及通信及计算机
,更具体地,本专利技术的实施方式涉及机器学习模型训练方法、介质、机器学习模型训练装置和计算设备。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。机器学习是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习模型的训练过程依赖于大量的训练数据作为学习样本,当训练数据不足时,模型的训练效果也将大打折扣。为了应对训练数据不足的问题,通常可以通过对训练数据做一些变换来扩充样本数量,这种技术也被称为数据增强。例如,在翻译模型的训练数据中,除了人工标注的真实语料以外,还可以增加一部分通过数据增强得到的伪语料,以便提高模型训练效果。然而,由于并非真实数据,经过数据增强得到的训练数据一般会引入噪声,因此会对机器学习模型的训练过程产生干扰,也会对机器学习模型的训练效果产生不良影响。
技术实现思路
本专利技术的目的在于提供一种机器学习模型训练方法、介质、机器学习模型训练装置和计算设备,以期至少在一定程度上克服由于相关技术的缺陷和限制而导致的机器学习模型训练效率低、训练效果差等技术问题。根据本专利技术的第一方面,提供一种机器学习模型训练方法,包括:获取原始数据,以得到由所述原始数据组成的原始数据集;获取通过数据增强得到的扩展数据,以得到由所述扩展数据组成的扩展数据集;以第一抽样比例从所述原始数据集中抽取原始数据样本,并以第二抽样比例从所述扩展数据集中抽取扩展数据样本;利用所述原始数据样本和所述扩展数据样本组成的训练样本集对机器学习模型进行迭代训练,并在训练过程中动态调整所述第一抽样比例和所述第二抽样比例以更新所述训练样本集。在本专利技术的一些示例性实施方式中,基于以上技术方案,所述在训练过程中动态调整所述第一抽样比例和所述第二抽样比例以更新所述训练样本集,包括:获取所述机器学习模型的预估迭代次数,并根据所述预估迭代次数将所述机器学习模型的训练过程划分为多个训练轮次;确定与各个所述训练轮次相对应的样本调整节点和调整幅值;当所述机器学习模型的迭代训练次数达到所述样本调整节点时,按照所述调整幅值调整所述第一抽样比例和所述第二抽样比例以更新所述训练样本集。在本专利技术的一些示例性实施方式中,基于以上技术方案,所述按照所述调整幅值调整所述第一抽样比例和所述第二抽样比例以更新所述训练样本集,包括:按照第一调整幅值增大所述第一抽样比例,以利用增大后的所述第一抽样比例从所述原始数据集中抽取原始数据样本;按照第二调整幅值减小所述第二抽样比例,以利用减小后的所述第二抽样比例从所述扩展数据集中抽取扩展数据样本;将抽取得到的所述原始数据样本和所述扩展数据样本组成更新后的训练样本集。在本专利技术的一些示例性实施方式中,基于以上技术方案,在所述训练过程的第一个训练轮次中,所述第一抽样比例为0%,所述第二抽样比例为100%;在所述训练过程的最后一个训练轮次中,所述第一抽样比例为100%,所述第二抽样比例为0%。在本专利技术的一些示例性实施方式中,基于以上技术方案,所述调整幅值为5%~15%。在本专利技术的一些示例性实施方式中,基于以上技术方案,所述机器学习模型是用于将源语言翻译为目标语言的翻译模型。在本专利技术的一些示例性实施方式中,基于以上技术方案,所述获取原始数据,包括:获取基于所述源语言的源端语料以及与所述源端语料相对应的基于所述目标语言的目标端语料;将所述源端语料和所述目标端语料进行语料对齐后组成原始平行语料,并将所述原始平行语料作为原始数据。在本专利技术的一些示例性实施方式中,基于以上技术方案,所述获取通过数据增强得到的扩展数据,包括:获取基于所述源语言或者所述目标语言的单端语料;对所述单端语料进行数据增强以得到与所述单端语料相对应的对端语料;将所述单端语料和所述对端语料组成扩展平行语料,并将所述扩展平行语料作为扩展数据。在本专利技术的一些示例性实施方式中,基于以上技术方案,所述对所述单端语料进行数据增强以得到与所述单端语料相对应的对端语料,包括:确定用于将所述目标语言翻译为所述源语言的回译翻译模型;将基于所述目标语言的单端语料输入所述回译翻译模型以得到与所述单端语料相对应的基于所述源语言的对端语料。在本专利技术的一些示例性实施方式中,基于以上技术方案,所述对所述单端语料进行数据增强以得到与所述单端语料相对应的对端语料,包括:确定用于将所述源语言翻译为所述目标语言的蒸馏翻译模型;将基于所述源语言的单端语料输入所述蒸馏翻译模型以得到与所述单端语料相对应的基于所述目标语言的对端语料。在本专利技术的一些示例性实施方式中,基于以上技术方案,所述对所述单端语料进行数据增强以得到与所述单端语料相对应的对端语料,包括:获取与基于所述源语言的单端语料相对应的基于第三方语言的第三方语料;确定用于将所述第三方语言翻译为所述目标语言的第三方正向翻译模型;将所述第三方语料输入所述第三方正向翻译模型以得到与基于所述源语言的单端语料相对应的基于所述目标语言的对端语料。在本专利技术的一些示例性实施方式中,基于以上技术方案,所述对所述单端语料进行数据增强以得到与所述单端语料相对应的对端语料,包括:获取与基于所述目标语言的单端语料相对应的基于第三方语言的第三方语料;确定用于将所述第三方语言翻译为所述源语言的第三方反向翻译模型;将所述第三方语料输入所述第三方反向翻译模型以得到与基于所述目标语言的单端语料相对应的基于所述源语言的对端语料。根据本专利技术的第二方面,提供一种介质,其上存储有程序,该程序被处理器执行时实现如以上任一实施方式中的方法。根据本专利技术的第三方面,提供一种机器学习模型训练装置,包括:原始数据获取模块,被配置为获取原始数据,以得到由所述原始数据组成的原始数据集;扩展数据获取模块,被配置为获取通过数据增强得到的扩展数据,以得到由所述扩展数据组成的扩展数据集;样本抽取模块,被配置为以第一抽样比例从所述原始数据集中抽取原始数据样本,并以第二抽样比例从所述扩展数据集中抽取扩展数据样本;迭代训练模块,被配置为利用所述原始数据样本和所述扩展数据样本组成的训练样本集对机器学习模型进行迭代训练,并在训练过程中动态调整所述第一抽样比例和所述第二抽样比例以更新所述训练样本集。在本专利技术的一些示例性实施方式中,基于以上技术方案,所述迭代训练模块包括:轮次划分单元,被配置为获取所述机器学习模型的预估迭代次数,并根据所述预估迭代次数将所述机器学习模型的训练过程划分为多个训练轮次;幅值确定单元,被配置为确定与各个所述训练轮次相对应的样本调整节点和调整幅值;样本更新本文档来自技高网...

【技术保护点】
1.一种机器学习模型训练方法,包括:/n获取原始数据,以得到由所述原始数据组成的原始数据集;/n获取通过数据增强得到的扩展数据,以得到由所述扩展数据组成的扩展数据集;/n以第一抽样比例从所述原始数据集中抽取原始数据样本,并以第二抽样比例从所述扩展数据集中抽取扩展数据样本;/n利用所述原始数据样本和所述扩展数据样本组成的训练样本集对机器学习模型进行迭代训练,并在训练过程中动态调整所述第一抽样比例和所述第二抽样比例以更新所述训练样本集。/n

【技术特征摘要】
1.一种机器学习模型训练方法,包括:
获取原始数据,以得到由所述原始数据组成的原始数据集;
获取通过数据增强得到的扩展数据,以得到由所述扩展数据组成的扩展数据集;
以第一抽样比例从所述原始数据集中抽取原始数据样本,并以第二抽样比例从所述扩展数据集中抽取扩展数据样本;
利用所述原始数据样本和所述扩展数据样本组成的训练样本集对机器学习模型进行迭代训练,并在训练过程中动态调整所述第一抽样比例和所述第二抽样比例以更新所述训练样本集。


2.根据权利要求1所述的机器学习模型训练方法,所述在训练过程中动态调整所述第一抽样比例和所述第二抽样比例以更新所述训练样本集,包括:
获取所述机器学习模型的预估迭代次数,并根据所述预估迭代次数将所述机器学习模型的训练过程划分为多个训练轮次;
确定与各个所述训练轮次相对应的样本调整节点和调整幅值;
当所述机器学习模型的迭代训练次数达到所述样本调整节点时,按照所述调整幅值调整所述第一抽样比例和所述第二抽样比例以更新所述训练样本集。


3.根据权利要求2所述的机器学习模型训练方法,所述按照所述调整幅值调整所述第一抽样比例和所述第二抽样比例以更新所述训练样本集,包括:
按照第一调整幅值增大所述第一抽样比例,以利用增大后的所述第一抽样比例从所述原始数据集中抽取原始数据样本;
按照第二调整幅值减小所述第二抽样比例,以利用减小后的所述第二抽样比例从所述扩展数据集中抽取扩展数据样本;
将抽取得到的所述原始数据样本和所述扩展数据样本组成更新后的训练样本集。


4.根据权利要求2所述的机器学习模型训练方法,在所述训练过程的第一个训练轮次中,所述第一抽样比例为0...

【专利技术属性】
技术研发人员:程桥黄瑾段亦涛
申请(专利权)人:网易有道信息技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1