一种模型训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号:23316779 阅读:18 留言:0更新日期:2020-02-11 18:24
本申请公开了一种模型训练方法、装置、电子设备及存储介质,涉及模型训练领域。具体实现方案为:在第一阶段的微调训练中,将各个第一样本类型的训练样本输入至待训练模型的共享层模块中;基于各个第一样本类型的训练样本对共享层模块中的模型参数进行调整;通过共享层模块将各个第一样本类型的训练样本输入至待训练模型的各个任务类型对应的任务层模块中;通过各个任务层模块提取出自身匹配的训练数据;并基于各个任务层模块匹配的训练数据对各个任务层模块中的模型参数进行调整。本申请实施例不仅可以统一对共享层模块进行训练,而且还可以单独对各个任务层模块进行训练,在提升单任务性能的同时保留多任务训练的效果。

A model training method, device, electronic equipment and storage medium

【技术实现步骤摘要】
一种模型训练方法、装置、电子设备及存储介质
本申请涉及计算机
,进一步涉及模型训练领域,尤其是一种模型训练方法、装置、电子设备及存储介质。
技术介绍
在现有的基于预训练语言模型的语音合成前端模型的训练过程中,针对不同类型的输入数据,使用不同的语言训练模型,彼此之间相互独立。例如,将多音字类型的数据输入到多音字模型中,使用多音字类型的数据训练多音字模型;将韵律类型的数据输入到韵律模型中,使用韵律类型的数据训练韵律模型。采用现有的基于预训练语言模型的语音合成前端模型的训练方法,不仅时效性差,而且成本较高。
技术实现思路
有鉴于此,本申请提出实施例提供一种模型训练方法、装置、电子设备及存储介质,不仅可以统一对共享层模块进行训练,而且还可以单独对各个任务层模块进行训练,在提升单任务性能的同时保留多任务训练的效果。第一方面,本申请实施例提供了一种模型训练方法,所述方法包括:在第一阶段的微调训练中,将各个第一样本类型的训练样本输入至待训练模型的共享层模块中;基于各个第一样本类型的训练样本对所述共享层模块中的本文档来自技高网...

【技术保护点】
1.一种模型训练方法,其特征在于,所述方法包括:/n在第一阶段的微调训练中,将各个第一样本类型的训练样本输入至待训练模型的共享层模块中;/n基于各个第一样本类型的训练样本对所述共享层模块中的模型参数进行调整;/n通过所述共享层模块将各个第一样本类型的训练样本输入至所述待训练模型的各个任务类型对应的任务层模块中;/n通过各个任务层模块提取出自身匹配的训练数据;并基于各个任务层模块匹配的训练数据对各个任务层模块中的模型参数进行调整。/n

【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:
在第一阶段的微调训练中,将各个第一样本类型的训练样本输入至待训练模型的共享层模块中;
基于各个第一样本类型的训练样本对所述共享层模块中的模型参数进行调整;
通过所述共享层模块将各个第一样本类型的训练样本输入至所述待训练模型的各个任务类型对应的任务层模块中;
通过各个任务层模块提取出自身匹配的训练数据;并基于各个任务层模块匹配的训练数据对各个任务层模块中的模型参数进行调整。


2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在第二阶段的微调训练中,将各个第二样本类型的训练样本输入至所述共享层模块中;
通过所述共享层模块将各个第二样本类型的训练样本输入至各个任务层模块中;所述共享层模块中的模型参数在所述第二阶段的微调训练中保持不变;
通过各个任务层模块提取出自身匹配的训练数据;并基于各个任务层模块匹配的训练数据对各个任务层模块中的模型参数进行调整。


3.根据权利要求1所述的方法,其特征在于,所述共享层模块包括:嵌入层和N个多头注意力层;其中,N为大于等于1的自然数;所述任务层模块包括:M个多头注意力层和分类器;其中,M为大于等于1的自然数;所述分类器包括:2个全连接层和输出层。


4.根据权利要求1所述的方法,其特征在于,所述第一样本类型的训练样本包括:至少两个任务类型的训练数据;所述第二样本类型的训练样本包括:单一任务类型的训练数据。


5.一种模型训练的装置,其特征在于,包括:第一输入模块、第一训练模块、第二输入模块和第二训练模块;其中,
所述第一输入模块,用于在第一阶段的微调训练中,将各个第一样本类型的训练样本输入至待训练模型的共享层模块中;
所述第一训练模块,用于基于各个第一样本类型的训练样本对所述共享层模块中的模型参数进行...

【专利技术属性】
技术研发人员:潘政林聂志朋白洁
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1