多任务模型训练方法、多任务预测方法及相关产品技术

技术编号:32448659 阅读:18 留言:0更新日期:2022-02-26 08:16
本申请提供了一种多任务模型训练方法、多任务预测方法及相关产品。涉及人工智能领域,具体涉及计算机视觉领域。包括:通过每个门网络对训练数据进行处理,以获取与每个门网络对应的多个目标专家网络以及权重;通过多个目标专家网络分别对训练数据进行特征提取,以得到与每个门网络对应的多个第一特征;根据多个目标专家网络的权重,对多个第一特征进行加权,以得到与每个门网络对应的Tower网络的输入数据;通过每个门网络对应的Tower网络对输入数据进行任务预测,以得到每个门网络对应的Tower网络的任务预测结果;根据每个门网络对应的多个目标专家网络的权重以及多个Tower网络的任务预测结果,对多任务模型进行训练。对多任务模型进行训练。对多任务模型进行训练。

【技术实现步骤摘要】
多任务模型训练方法、多任务预测方法及相关产品


[0001]本专利技术涉及人工智能
,具体涉及一种多任务模型训练方法、多任务预测方法及相关产品。

技术介绍

[0002]随着人工智能技术的发展,人们发现很多任务之间会有一些共享的数据,但是,共享的同时又会有自己独特的数据。为了能够实现底层数据的共享,各种多任务模型应运而生。当前较为流行的多任务模型是多专家网络(Multi

gate Mixture Of Experts,MMOE)。MMOE网络包括多个门(gate)网络、多个专家(expert)网络以及多个Tower网络。多个expert网络统一对底层数据进行特征提取,然后基于gate网络输出的软分类概率确定每个expert网络的权重,基于每个expert网络的权重对多个expert网络提取到的特征进行加权,以得到每个Tower网络的输入数据,进而得到每个Tower网络的任务预测结果,实现多任务预测。
[0003]然而,MMOE网络在训练的过程中,训练数据中的每个样本选择expert网络的概率是随机的,导致训练出的M本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种多任务模型训练方法,其特征在于,所述多任务模型包括多个门网络、多个专家网络以及多个Tower网络,所述多个门网络与所述多个Tower网络一一对应;所述方法包括:通过所述多个门网络中的每个门网络对训练数据进行处理,以从所述多个专家网络中获取与每个所述门网络对应的多个目标专家网络,以及获取每个所述门网络对应的多个目标专家网络的权重;通过每个所述门网络对应的多个目标专家网络分别对所述训练数据进行特征提取,以得到与每个所述门网络对应的多个第一特征;根据每个所述门网络对应的多个目标专家网络的权重,对每个所述门网络对应的多个第一特征进行加权,以得到与每个所述门网络对应的Tower网络的输入数据;通过每个所述门网络对应的Tower网络,对每个所述门网络对应的Tower网络的输入数据进行任务预测,以得到每个所述门网络对应的Tower网络的任务预测结果;根据每个所述门网络对应的多个目标专家网络的权重,以及所述多个Tower网络的任务预测结果,对所述多任务模型进行训练。2.根据权利要求1所述的方法,其特征在于,所述通过所述多个门网络中的每个所述门网络对训练数据进行处理,以从所述多个专家网络中获取与每个所述门网络对应的多个目标专家网络,以及获取每个所述门网络对应的多个目标专家网络的权重,包括:对所述训练数据进行特征提取,以得到每个所述专家网络对应的概率;基于每个所述专家网络对应的概率,从所述多个专家网络中获取与每个所述门网络对应的多个目标专家网络;对每个所述门网络对应的多个目标专家网络的概率进行归一化,以得到每个所述门网络对应的多个目标专家网络的权重。3.根据权利要求2所述的方法,其特征在于,所述多任务模型还包括多个噪声网络,其中,所述多个噪声网络与所述多个门网络一一对应;所述对所述训练数据进行特征提取,以得到每个所述专家网络对应的概率,包括:通过每个所述门网络对所述训练数据进行特征提取,以得到第二特征;通过每个所述门网络对应的噪声网络对所述训练数据进行特征提取,以得到第三特征;通过每个所述门网络对应的噪声网络对所述第三特征添加噪声,以得到第四特征;对所述第二特征和所述第四特征进行融合,以得到第五特征;对所述第五特征进行处理,以得到每个所述专家网络对应的概率。4.根据权利要求1

3中任一项所述的方法,其特征在于,所述根据每个所述门网络对应的多个目标专家网络的权重,以及所述多个Tower网络的任务预测结果,对所述多任务模型进行训练,包括:根据所述多个Tower网络中每个所述Tower网络的任务预测结果,确定每个所述Tower网络对应的第一损失;根据每个所述门网络对应的多个目标专家网络的权重,以得到与每个所述门网络对应的信息熵;根据每个所述门网络对应的Tower网络的第一损失和每个所述门网络对应的信息熵,确定与所述训练数据对应的目标损失;
根据所述目标损失,对所述多任务模型进行训练。5.根据权利要求4所述的方法,其特征在于,根据每个门网络对应的Tower网络的第一损失和每个所述门网络对应的信息熵,确定与所述训练数据对应的目标损失之前,所述方法还包括:根据每个所述门网络对应的多个目标专家网络的权重,确定每个所述门网络分别选择所述多个专家网络的概率;根据每个所述门网络选择所述多个专家网络的概率,确定多个目标门网络中任意两个所述目标门网络选择所述多个专家网络的概率之间的分布差异,其中,所述多个目标门网络为所述多个门网络中的部分或全部;所述根据每个所述门网络对应的Tower网络的第一损失和每个所述门网络对应的信息熵,确定与所述训练数据对应的目标损失,包括:根据每个门网络对应的Tower网络的第一损失、每个所述门网络对应的信息熵、以及所述分布差异,确定与所述训练数据对应的目标损失。6.根据权利要求5所述的方法,其特征在于,任意两个所述目标门网络对应的两个Tower网络的任务预测之间的差异性大于阈值。7.根据权利要求5或6所述的方法,其特征在于,所述分布差异通过任意两个所述目标门网络选择所述多个专家网络的概率之间的KL散度、JS散度或者Wasserstein距离表征。8.根据权利要求1

7中任一项所述的方法,其特征在于,所述训练数据为多个第一时刻下的视频数据组成的二维特征图,每个所述Tower网络的任务预测结果为视频关键质量指标中的一种;或者,所述训练数据为多个第一用户特征数据,每个所述Tower网络的任务预测结果为用户行为中的一种。9.一种多任务预测方法,其特征在于,包括:获取待预测数据;将所述待预测数据输入到多任务模型,以得到每个Tower网络对应的任务预测结果;其中,所述多任务模型通过如权利要求1~8中任一项所述的方法进行训练得到;其中,当所述待预测数据为多个第二时刻下的视频数据组成的二维特征图时,每个所述Tower网络的任务预测结果为视频关键质量指标中的一种;当所述待预测数据为多个第二用户特征数据时,每个所述Tower网络的任务预测结果为用户行为中的一种。10.一种多任务模型训练装置,其特征在于,所述多任务模型包括多个门网络、多个专家网络以及多个Tower网络,所述多个门网络与所述多个Tower网络一一对应;所述装置包括:获取单元和处理单元;所述获取单元,用于获取训练数据;所述处理单元,用于通过所述多个门网络中的每个门网络对训练数据进行处理,以从所述多个专家网络中获取与每个所述门网络对应的多个目标专家网络,以及获取每个所述门网络对应的多个目标专家网络的权重;所述处理单元,还用于通过每个所述门网络对应的多个目标专家网络分别对所述训练

【专利技术属性】
技术研发人员:李温鹏邵云峰
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1