模型训练方法、装置和计算机设备制造方法及图纸

技术编号:24996924 阅读:32 留言:0更新日期:2020-07-24 17:59
本申请揭示了模型训练方法,模型包括第一编码器和第二编码器组成的第一孪生网络,方法包括获取第一编码器处理第一数据后输出的第一高维向量,及第二编码器处理第二数据输出的第二高维向量;通过第一损失函数训练第一孪生网络,至第一损失函数达最小值时,第一孪生网络训练收敛;获取第一孪生网络训练收敛时,第一编码器对应的第一参数集合以及第二编码器对应的第二参数集合;将第一参数集合下的第一编码器和第一恢复网络组成第二孪生网络,将第二参数集合下的第二编码器和第二恢复网络组成第三孪生网络;通过第二损失函数分别训练第二孪生网络和第三孪生网络至收敛,得到执行对偶任务的网络模型系统。节省模型构建、训练成本,模型训练得到改善。

【技术实现步骤摘要】
模型训练方法、装置和计算机设备
本申请涉及到计算机领域,特别是涉及到模型训练方法、装置和计算机设备。
技术介绍
深度学习中有很多具有对偶关系的Sequence-2-Sequence的预测任务,比如语音识别和语音合成,机器翻译(中译英和英译中),文本转图像和看图说话,文本摘要和文本生成等。由于序列的多样性,一般需要较大的模型和大规模的训练数据才能达到满意的效果。而实际中上述任务模型的构建都是单向实现的,比如语音识别只能处理语音数据向文本的推理过程,语音合成只能处理文本数据向音频的推理过程;同样中译英模型只能将中文翻译成英文,英译中模型只能将英文翻译成中文等。单向模型的构建一般采用的是Encoder-Decoder的架构,Encoder端负责从原始数据投射到高维空间中,即提取高维特征;Decoder端则负责从高维特征中解码出目标对象,解码的思路是“由彼推己”,即将两个无直接关联的东西强制关联起来,解码即是建立这种关联关系,但单向构建模型,网络复杂且参数量大,需要的训练数据量较大,对于较少训练数据的领域,很难使模型训练达到较好的使用效果。
技术实现思路
本申请的主要目的为提供模型训练方法,旨在解决现有单向构建模型不能满足模型使用效果需求的技术问题。本申请提出一种模型训练方法,所述模型包括第一编码器和第二编码器组成的第一孪生网络,所述方法包括:获取所述第一编码器处理第一数据后输出的第一高维向量,以及所述第二编码器处理第二数据输出的第二高维向量;通过第一损失函数训练所述第一孪生网络,至所述第一损失函数达最小值时,所述第一孪生网络训练收敛,其中,所述第一损失函数为所述第一高维向量和第二高维向量的空间距离;获取所述第一孪生网络训练收敛时,所述第一编码器对应的第一参数集合以及所述第二编码器对应的第二参数集合;将所述第一参数集合下的所述第一编码器和第一恢复网络组成第二孪生网络,将所述第二参数集合下的所述第二编码器和第二恢复网络组成第三孪生网络;通过第二损失函数,分别训练所述第二孪生网络和所述第三孪生网络至收敛,将所述第一编码器与所述第二恢复网络组合,将所述第二编码器与所述第一恢复网络组合,得到执行对偶任务的网络模型系统。优选地,所述通过第一损失函数训练所述第一孪生网络,至所述第一损失函数达最小值时,所述第一孪生网络训练收敛,其中,所述第一损失函数为所述第一高维向量和第二高维向量的空间距离的步骤,包括:通过训练数据集最小化所述第一损失函数;判断所述第一损失函数的函数值是否不再继续下降;若是,则判定所述第一损失函数在训练数据集降到最低,网络收敛,判定找到所述第一数据和所述第二数据在高维空间的对齐向量;确定所述第一损失函数达最小值时,所述第一编码器对应的第一参数集合以及所述第二编码器对应的第二参数集合。优选地,通过第二损失函数,分别训练所述第二孪生网络和所述第三孪生网络至收敛,将所述第一编码器与所述第二恢复网络组合,将所述第二编码器与所述第一恢复网络组合,得到执行对偶任务的网络模型系统的步骤,包括:判断所述对齐向量经过所述第二损失函数约束的第二孪生网络,是否可得到所述第一数据,判断所述对齐向量经过所述第二损失函数约束的第三孪生网络,是否可得到所述第二数据;若是,则判定所述第二孪生网络和所述第三孪生网络完成训练;将所述第二孪生网络和所述第三孪生网络组合为执行对偶任务的网络模型系统。优选地,所述将所述第二孪生网络和所述第三孪生网络组合为执行对偶任务的网络模型系统的步骤,包括:获取待执行任务的任务属性;根据所述待执行任务的任务属性,通过组合所述第一编码器和所述第二恢复网络,或者通过组合所述第二编码器和所述第一恢复网络,形成执行所述待执行任务的任务模型;将所述待执行任务的输入数据,输入所述待执行任务的任务模型;接收所述任务模型运行所述输入数据后的输出结果。优选地,所述根据所述待执行任务的任务属性,通过组合所述第一编码器和所述第二恢复网络,或者通过组合所述第二编码器和所述第一恢复网络,形成执行所述待执行任务的任务模型的步骤之后,包括:获取组合所述第一编码器和所述第二恢复网络后的第一预训练网络,以执行第一任务,或者获取组合所述第二编码器和所述第一恢复网络后的第二预训练网络,以执行第二任务,其中,所述第一任务指输入所述第一数据,输出所述第二数据,所述第二任务指输入所述第二数据,输出所述第一数据;通过所述第一任务的训练数据,训练所述第一预训练网络,得到执行所述第一任务的任务模型,通过所述第二任务的训练数据,训练所述第二预训练网络,得到执行所述第二任务的任务模型;生成将所述待执行任务的输入数据输入所述待执行任务的任务模型的指令。优选地,所述执行对偶任务的网络模型系统包括数据处理网络,所述获取所述第一编码器处理第一数据后输出的第一高维向量,以及所述第二编码器处理第二数据输出的第二高维向量的步骤之前,包括:判断所述第一数据和所述第二数据的数据类型是否相同;若不同,则连接所述数据处理网络;通过所述数据处理网络将所述第一数据和所述第二数据,转化成数据类型相同的数据。优选地,所述通过所述数据处理网络将所述第一数据和所述第二数据,转化成数据类型相同的数据的步骤,包括:根据所述第一数据和所述第二数据的数据特征,识别所述第一数据和所述第二数据互为对偶任务数据的关联关系;根据所述关联关系确定待处理信息;通过所述待处理信息、所述第一数据和所述第二数据输入所述数据处理网络,将所述第一数据和所述第二数据修正为数据类型相同的对偶任务数据。本申请还提供了一种模型训练装置,所述模型包括第一编码器和第二编码器组成的第一孪生网络,所述装置包括:第一获取模块,用于获取所述第一编码器处理第一数据后输出的第一高维向量,以及所述第二编码器处理第二数据输出的第二高维向量;第一训练模块,用于通过第一损失函数训练所述第一孪生网络,至所述第一损失函数达最小值时,所述第一孪生网络训练收敛,其中,所述第一损失函数为所述第一高维向量和第二高维向量的空间距离;第二获取模块,用于获取所述第一孪生网络训练收敛时,所述第一编码器对应的第一参数集合以及所述第二编码器对应的第二参数集合;组成模块,用于将所述第一参数集合下的所述第一编码器和第一恢复网络组成第二孪生网络,将所述第二参数集合下的所述第二编码器和第二恢复网络组成第三孪生网络;第二训练模块,用于通过第二损失函数,分别训练所述第二孪生网络和所述第三孪生网络至收敛,将所述第一编码器与所述第二恢复网络组合,将所述第二编码器与所述第一恢复网络组合,得到执行对偶任务的网络模型系统。本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机本文档来自技高网...

【技术保护点】
1.一种模型训练方法,其特征在于,所述模型包括第一编码器和第二编码器组成的第一孪生网络,所述方法包括:/n获取所述第一编码器处理第一数据后输出的第一高维向量,以及所述第二编码器处理第二数据输出的第二高维向量;/n通过第一损失函数训练所述第一孪生网络,至所述第一损失函数达最小值时,所述第一孪生网络训练收敛,其中,所述第一损失函数为所述第一高维向量和第二高维向量的空间距离;/n获取所述第一孪生网络训练收敛时,所述第一编码器对应的第一参数集合以及所述第二编码器对应的第二参数集合;/n将所述第一参数集合下的所述第一编码器和第一恢复网络组成第二孪生网络,将所述第二参数集合下的所述第二编码器和第二恢复网络组成第三孪生网络;/n通过第二损失函数,分别训练所述第二孪生网络和所述第三孪生网络至收敛,将所述第一编码器与所述第二恢复网络组合,将所述第二编码器与所述第一恢复网络组合,得到执行对偶任务的网络模型系统。/n

【技术特征摘要】
1.一种模型训练方法,其特征在于,所述模型包括第一编码器和第二编码器组成的第一孪生网络,所述方法包括:
获取所述第一编码器处理第一数据后输出的第一高维向量,以及所述第二编码器处理第二数据输出的第二高维向量;
通过第一损失函数训练所述第一孪生网络,至所述第一损失函数达最小值时,所述第一孪生网络训练收敛,其中,所述第一损失函数为所述第一高维向量和第二高维向量的空间距离;
获取所述第一孪生网络训练收敛时,所述第一编码器对应的第一参数集合以及所述第二编码器对应的第二参数集合;
将所述第一参数集合下的所述第一编码器和第一恢复网络组成第二孪生网络,将所述第二参数集合下的所述第二编码器和第二恢复网络组成第三孪生网络;
通过第二损失函数,分别训练所述第二孪生网络和所述第三孪生网络至收敛,将所述第一编码器与所述第二恢复网络组合,将所述第二编码器与所述第一恢复网络组合,得到执行对偶任务的网络模型系统。


2.根据权利要求1所述的模型训练方法,其特征在于,所述通过第一损失函数训练所述第一孪生网络,至所述第一损失函数达最小值时,所述第一孪生网络训练收敛,其中,所述第一损失函数为所述第一高维向量和第二高维向量的空间距离的步骤,包括:
通过训练数据集最小化所述第一损失函数;
判断所述第一损失函数的函数值是否不再继续下降;
若是,则判定所述第一损失函数在训练数据集降到最低,网络收敛,判定找到所述第一数据和所述第二数据在高维空间的对齐向量;
确定所述第一损失函数达最小值时,所述第一编码器对应的第一参数集合以及所述第二编码器对应的第二参数集合。


3.根据权利要求2所述的模型训练方法,其特征在于,通过第二损失函数,分别训练所述第二孪生网络和所述第三孪生网络至收敛,将所述第一编码器与所述第二恢复网络组合,将所述第二编码器与所述第一恢复网络组合,得到执行对偶任务的网络模型系统的步骤,包括:
判断所述对齐向量经过所述第二损失函数约束的第二孪生网络,是否可得到所述第一数据,判断所述对齐向量经过所述第二损失函数约束的第三孪生网络,是否可得到所述第二数据;
若是,则判定所述第二孪生网络和所述第三孪生网络完成训练;
将所述第二孪生网络和所述第三孪生网络组合为执行对偶任务的网络模型系统。


4.根据权利要求3所述的模型训练方法,其特征在于,所述将所述第二孪生网络和所述第三孪生网络组合为执行对偶任务的网络模型系统的步骤,包括:
获取待执行任务的任务属性;
根据所述待执行任务的任务属性,通过组合所述第一编码器和所述第二恢复网络,或者通过组合所述第二编码器和所述第一恢复网络,形成执行所述待执行任务的任务模型;
将所述待执行任务的输入数据,输入所述待执行任务的任务模型;
接收所述任务模型运行所述输入数据后的输出结果。


5.根据权利要求4所述的模型训练方法,其特征在于,所述根据所述待执行任务的任务属性,通过组合所述第一编码器和所述第二恢复网络,或者通过组合所述第二编码器和所述第一恢复网络,形成执行所述待执行任务的任务模型...

【专利技术属性】
技术研发人员:徐泓洋太荣鹏温平
申请(专利权)人:深圳市友杰智新科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1