System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 多任务学习网络的训练方法、装置、电子设备和存储介质制造方法及图纸_技高网

多任务学习网络的训练方法、装置、电子设备和存储介质制造方法及图纸

技术编号:40967913 阅读:3 留言:0更新日期:2024-04-18 20:48
本申请涉及一种多任务学习网络的训练方法、装置、电子设备、存储介质和计算机程序产品。所述方法包括:通过多任务学习网络中的浅层共享网络结构对多媒体训练数据进行处理,并将处理得到的第一多媒体数据分别输入多个任务各自对应的任务分支中;多个任务分支中目标任务包括注意力机制和至少一个子分支;通过注意力机制确定第一多媒体数据在子分支中的偏好参数;基于各个子分支对应的偏好参数,通过各个子分支对第一多媒体数据进行处理;基于处理得到的第二多媒体数据对多任务学习网络进行迭代训练,得到训练完成的多任务学习网络。采用本方法能够提高对多任务学习网络进行训练的准确性。

【技术实现步骤摘要】

本申请涉及多媒体,特别是涉及一种多任务学习网络的训练方法、装置、电子设备和计算机可读存储介质。


技术介绍

1、传统的ml(machine learning,机器学习)方法主要是基于stl(single-tasklearning,单任务学习)的模式。对于复杂的学习任务,可将其分解为简单且相互独立的子问题来单独解决,然后再合并结果,得到最初复杂问题的结果。然而这样做看似合理,其实是不正确的,因为现实世界中很多问题并不能分解,即使可以,各个子问题之间也是相互关联的,例如通过一些共享因素或共享表示(shared representation)联系在一起。把现实问题当作一个个独立的单任务处理,会忽略问题之间所富含的关联信息。mtl(multi-tasklearning,多任务学习)就是为了解决这一问题而诞生的,把多个相关的任务放在一起学习,多个任务之间共享一些因素,在学习过程中共享所学到的信息,这是单任务学习所不具备的。多任务学习比单任务学习能取得更好的泛化(generalization)效果。

2、其中,多任务学习是一种推导迁移学习方法,主任务(main tasks)使用相关任务(related tasks)的训练信号(training signal;例如梯度)所拥有的领域相关信息(domain-specific information),作为归纳偏置(inductive bias)来提升主任务泛化效果。

3、传统的多任务学习网络,通常是采用隐层参数的硬共享机制或者软共享机制。然而,传统的多任务学习网络的训练方法,存在训练得到的多任务学习网络准确性较低的问题。


技术实现思路

1、本申请实施例提供了一种多任务学习网络的训练方法、装置、电子设备、计算机可读存储介质,可以提高对多任务学习网络进行训练的准确性,得到训练完成的更准确的多任务学习网络。

2、第一方面,本申请提供了一种多任务学习网络的训练方法。所述方法包括:

3、通过多任务学习网络中的浅层共享网络结构对多媒体训练数据进行处理,并将处理得到的第一多媒体数据分别输入所述多任务学习网络中多个任务各自对应的任务分支中;所述多个任务分支中目标任务包括注意力机制和至少一个子分支;

4、通过所述注意力机制确定所述第一多媒体数据在所述子分支中的偏好参数;所述偏好参数表征所述目标任务对所述第一多媒体数据在所属子分支的偏好程度;

5、基于各个子分支对应的偏好参数,通过各个子分支对所述第一多媒体数据进行处理,得到第二多媒体数据;

6、基于所述第二多媒体数据对所述多任务学习网络进行迭代训练,得到训练完成的多任务学习网络。

7、第二方面,本申请还提供了一种多任务学习网络的训练装置。所述装置包括:

8、第一处理单元,用于通过多任务学习网络中的浅层共享网络结构对多媒体训练数据进行处理,并将处理得到的第一多媒体数据分别输入所述多任务学习网络中多个任务各自对应的任务分支中;所述多个任务分支中目标任务包括注意力机制和至少一个子分支;

9、参数确定单元,用于通过所述注意力机制确定所述第一多媒体数据在所述子分支中的偏好参数;所述偏好参数表征所述目标任务对所述第一多媒体数据在所属子分支的偏好程度;

10、第二处理单元,用于基于各个子分支对应的偏好参数,通过各个子分支对所述第一多媒体数据进行处理,得到第二多媒体数据;

11、迭代训练单元,用于基于所述第二多媒体数据对所述多任务学习网络进行迭代训练,得到训练完成的多任务学习网络。

12、第三方面,本申请还提供了一种电子设备。所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

13、通过多任务学习网络中的浅层共享网络结构对多媒体训练数据进行处理,并将处理得到的第一多媒体数据分别输入所述多任务学习网络中多个任务各自对应的任务分支中;所述多个任务分支中目标任务包括注意力机制和至少一个子分支;

14、通过所述注意力机制确定所述第一多媒体数据在所述子分支中的偏好参数;所述偏好参数表征所述目标任务对所述第一多媒体数据在所属子分支的偏好程度;

15、基于各个子分支对应的偏好参数,通过各个子分支对所述第一多媒体数据进行处理,得到第二多媒体数据;

16、基于所述第二多媒体数据对所述多任务学习网络进行迭代训练,得到训练完成的多任务学习网络。

17、第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

18、通过多任务学习网络中的浅层共享网络结构对多媒体训练数据进行处理,并将处理得到的第一多媒体数据分别输入所述多任务学习网络中多个任务各自对应的任务分支中;所述多个任务分支中目标任务包括注意力机制和至少一个子分支;

19、通过所述注意力机制确定所述第一多媒体数据在所述子分支中的偏好参数;所述偏好参数表征所述目标任务对所述第一多媒体数据在所属子分支的偏好程度;

20、基于各个子分支对应的偏好参数,通过各个子分支对所述第一多媒体数据进行处理,得到第二多媒体数据;

21、基于所述第二多媒体数据对所述多任务学习网络进行迭代训练,得到训练完成的多任务学习网络。

22、第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:

23、通过多任务学习网络中的浅层共享网络结构对多媒体训练数据进行处理,并将处理得到的第一多媒体数据分别输入所述多任务学习网络中多个任务各自对应的任务分支中;所述多个任务分支中目标任务包括注意力机制和至少一个子分支;

24、通过所述注意力机制确定所述第一多媒体数据在所述子分支中的偏好参数;所述偏好参数表征所述目标任务对所述第一多媒体数据在所属子分支的偏好程度;

25、基于各个子分支对应的偏好参数,通过各个子分支对所述第一多媒体数据进行处理,得到第二多媒体数据;

26、基于所述第二多媒体数据对所述多任务学习网络进行迭代训练,得到训练完成的多任务学习网络。

27、上述多任务学习网络的训练方法、装置、电子设备、计算机可读存储介质,通过多任务学习网络中的浅层共享网络结构对多媒体训练数据进行处理,并将处理得到的第一多媒体数据分别输入多任务学习网络中多个任务各自对应的任务分支中,也即输入多个任务各自对应的任务分支的第一多媒体数据,均是采用浅层共享网络结构相同的网络参数处理得到的。多个任务分支中目标任务包括注意力机制和至少一个子分支,通过该注意力机制可以确定出目标任务对第一多媒体数据在各子分支中的偏好参数,再基于各个子分支对应的偏好参数,通过各个子分支对第一多媒体数据进行处理,得到第二多媒体数据,从而基于第二多媒体数据对多任务学习网络进行迭代训练,得到训练完成的本文档来自技高网...

【技术保护点】

1.一种多任务学习网络的训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述目标任务对应的网络结构中包括增强型多样化分支模块,所述增强型多样化分支模块包括注意力机制和至少一个子分支;所述增强型多样化分支模块用于替换所述目标任务对应的网络结构中原有的第一卷积层;

3.根据权利要求2所述的方法,其特征在于,所述模块参数包括各个子分支的第一卷积权重和第一偏置参数;所述基于所述模块参数将所述训练完成的增强型多样化分支模块等效为第二卷积层,包括:

4.根据权利要求1所述的方法,其特征在于,所述注意力机制在每个通道中输出所述目标任务的注意力向量,所述注意力向量包括所述目标任务的至少一个子分支对应的偏好参数;所述注意力机制的通道数量小于或等于所述目标任务的数量。

5.根据权利要求4所述的方法,其特征在于,若所述注意力机制的通道数量小于所述目标任务的数量,则至少两个目标任务共用同一个通道输出的注意力向量,或者多个任务中存在部分任务不需要所述注意力机制的加成。

6.根据权利要求4所述的方法,其特征在于,所述注意力向量包括预设数量的偏好参数,所述预设数量小于或等于子分支数量。

7.根据权利要求1至6任一项所述的方法,其特征在于,在至少两个不同的目标任务中,相同网络结构且相对应位置处的子分支共享相同的网络参数。

8.一种电子设备,包括存储器及处理器,所述存储器中储存有计算机程序,其特征在于,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述的多任务学习网络的训练方法的步骤。

9.一种多任务学习网络的训练装置,其特征在于,所述装置包括:

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种多任务学习网络的训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述目标任务对应的网络结构中包括增强型多样化分支模块,所述增强型多样化分支模块包括注意力机制和至少一个子分支;所述增强型多样化分支模块用于替换所述目标任务对应的网络结构中原有的第一卷积层;

3.根据权利要求2所述的方法,其特征在于,所述模块参数包括各个子分支的第一卷积权重和第一偏置参数;所述基于所述模块参数将所述训练完成的增强型多样化分支模块等效为第二卷积层,包括:

4.根据权利要求1所述的方法,其特征在于,所述注意力机制在每个通道中输出所述目标任务的注意力向量,所述注意力向量包括所述目标任务的至少一个子分支对应的偏好参数;所述注意力机制的通道数量小于或等于所述目标任务的数量。

5.根据权利要求4所述的方法,其特征在于,若所述注意力机制的通道数量小于所述目标任务...

【专利技术属性】
技术研发人员:李文进
申请(专利权)人:哲库科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1