【技术实现步骤摘要】
模型训练方法、装置和计算机设备
本申请涉及到计算机领域,特别是涉及到模型训练方法、装置和计算机设备。
技术介绍
深度学习中有很多具有对偶关系的Sequence-2-Sequence的预测任务,比如语音识别和语音合成,机器翻译(中译英和英译中),文本转图像和看图说话,文本摘要和文本生成等。由于序列的多样性,一般需要较大的模型和大规模的训练数据才能达到满意的效果。而实际中上述任务模型的构建都是单向实现的,比如语音识别只能处理语音数据向文本的推理过程,语音合成只能处理文本数据向音频的推理过程;同样中译英模型只能将中文翻译成英文,英译中模型只能将英文翻译成中文等。单向模型的构建一般采用的是Encoder-Decoder的架构,Encoder端负责从原始数据投射到高维空间中,即提取高维特征;Decoder端则负责从高维特征中解码出目标对象,解码的思路是“由彼推己”,即将两个无直接关联的东西强制关联起来,解码即是建立这种关联关系,但单向构建模型,网络复杂且参数量大,需要的训练数据量较大,对于较少训练数据的领域,很难使模型训练达到较好的使用效果。
技术实现思路
本申请的主要目的为提供模型训练方法,旨在解决现有单向构建模型不能满足模型使用效果需求的技术问题。本申请提出一种模型训练方法,所述模型包括第一编码器和第二编码器组成的第一孪生网络,所述方法包括:获取所述第一编码器处理第一数据后输出的第一高维向量,以及所述第二编码器处理第二数据输出的第二高维向量;通过第一损失函数训练所述第一孪生网络, ...
【技术保护点】
1.一种模型训练方法,其特征在于,所述模型包括第一编码器和第二编码器组成的第一孪生网络,所述方法包括:/n获取所述第一编码器处理第一数据后输出的第一高维向量,以及所述第二编码器处理第二数据输出的第二高维向量;/n通过第一损失函数训练所述第一孪生网络,至所述第一损失函数达最小值时,所述第一孪生网络训练收敛,其中,所述第一损失函数为所述第一高维向量和第二高维向量的空间距离;/n获取所述第一孪生网络训练收敛时,所述第一编码器对应的第一参数集合以及所述第二编码器对应的第二参数集合;/n将所述第一参数集合下的所述第一编码器和第一恢复网络组成第二孪生网络,将所述第二参数集合下的所述第二编码器和第二恢复网络组成第三孪生网络;/n通过第二损失函数,分别训练所述第二孪生网络和所述第三孪生网络至收敛,将所述第一编码器与所述第二恢复网络组合,将所述第二编码器与所述第一恢复网络组合,得到执行对偶任务的网络模型系统。/n
【技术特征摘要】
1.一种模型训练方法,其特征在于,所述模型包括第一编码器和第二编码器组成的第一孪生网络,所述方法包括:
获取所述第一编码器处理第一数据后输出的第一高维向量,以及所述第二编码器处理第二数据输出的第二高维向量;
通过第一损失函数训练所述第一孪生网络,至所述第一损失函数达最小值时,所述第一孪生网络训练收敛,其中,所述第一损失函数为所述第一高维向量和第二高维向量的空间距离;
获取所述第一孪生网络训练收敛时,所述第一编码器对应的第一参数集合以及所述第二编码器对应的第二参数集合;
将所述第一参数集合下的所述第一编码器和第一恢复网络组成第二孪生网络,将所述第二参数集合下的所述第二编码器和第二恢复网络组成第三孪生网络;
通过第二损失函数,分别训练所述第二孪生网络和所述第三孪生网络至收敛,将所述第一编码器与所述第二恢复网络组合,将所述第二编码器与所述第一恢复网络组合,得到执行对偶任务的网络模型系统。
2.根据权利要求1所述的模型训练方法,其特征在于,所述通过第一损失函数训练所述第一孪生网络,至所述第一损失函数达最小值时,所述第一孪生网络训练收敛,其中,所述第一损失函数为所述第一高维向量和第二高维向量的空间距离的步骤,包括:
通过训练数据集最小化所述第一损失函数;
判断所述第一损失函数的函数值是否不再继续下降;
若是,则判定所述第一损失函数在训练数据集降到最低,网络收敛,判定找到所述第一数据和所述第二数据在高维空间的对齐向量;
确定所述第一损失函数达最小值时,所述第一编码器对应的第一参数集合以及所述第二编码器对应的第二参数集合。
3.根据权利要求2所述的模型训练方法,其特征在于,通过第二损失函数,分别训练所述第二孪生网络和所述第三孪生网络至收敛,将所述第一编码器与所述第二恢复网络组合,将所述第二编码器与所述第一恢复网络组合,得到执行对偶任务的网络模型系统的步骤,包括:
判断所述对齐向量经过所述第二损失函数约束的第二孪生网络,是否可得到所述第一数据,判断所述对齐向量经过所述第二损失函数约束的第三孪生网络,是否可得到所述第二数据;
若是,则判定所述第二孪生网络和所述第三孪生网络完成训练;
将所述第二孪生网络和所述第三孪生网络组合为执行对偶任务的网络模型系统。
4.根据权利要求3所述的模型训练方法,其特征在于,所述将所述第二孪生网络和所述第三孪生网络组合为执行对偶任务的网络模型系统的步骤,包括:
获取待执行任务的任务属性;
根据所述待执行任务的任务属性,通过组合所述第一编码器和所述第二恢复网络,或者通过组合所述第二编码器和所述第一恢复网络,形成执行所述待执行任务的任务模型;
将所述待执行任务的输入数据,输入所述待执行任务的任务模型;
接收所述任务模型运行所述输入数据后的输出结果。
5.根据权利要求4所述的模型训练方法,其特征在于,所述根据所述待执行任务的任务属性,通过组合所述第一编码器和所述第二恢复网络,或者通过组合所述第二编码器和所述第一恢复网络,形成执行所述待执行任务的任务模型...
【专利技术属性】
技术研发人员:徐泓洋,太荣鹏,温平,
申请(专利权)人:深圳市友杰智新科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。