一种多模态多任务训练系统及多模态多任务训练方法技术方案

技术编号:39756045 阅读:5 留言:0更新日期:2023-12-17 23:55
本发明专利技术涉及计算机领域,提供了一种多模态多任务训练系统及多模态多任务训练方法

【技术实现步骤摘要】
一种多模态多任务训练系统及多模态多任务训练方法


[0001]本专利技术涉及计算机领域,尤其涉及一种多模态多任务训练系统及多模态多任务训练方法


技术介绍

[0002]在全双工对话系统中涉及到很多不同的任务及模态,如无效对话拒识

意图理解

语义判不停

情绪识别等任务,以及语音模态

文本模态等模态

随着深度学习与预训练技术的发展,将单项任务的预训练模型或者单个模态的预训练模型得到的关联关系,应用到神经网络等深度学习模型上,使得深度学习模型的识别准确性更高,如来自变换器的双向编码器表征量
(Bidirectional Encoder Representations from Transformers

BERT)、
无监督语音预训练模型等

但是当模态数量

任务数量增加时,基于多个模态多个任务的预训练模型的方案往往都需要很大的模型参数量和计算量,使得整个对话系统的计算和存储成本大大增加


技术实现思路

[0003]为减少基于多模态多任务的预训练模型在构建过程中的参数量和计算量,本专利技术提出了一种多模态多任务训练系统及多模态多任务训练方法

[0004]第一方面,本专利技术提供了一种多模态多任务训练系统,系统包括:
[0005]至少一个预训练模型

至少一个第一适配器组和至少一个第二适配器组;第一适配器组中包括至少一个第一适配器,第二适配器组中包括至少一个第二适配器;一个预训练模型对应一种模态数据;一个目标任务对应至少一个第一适配器组

至少一个预训练模型和一个第二适配器组,对于同一目标任务,第一适配器组与预训练模型一一对应;
[0006]各模态数据分别对应的预训练模型用于获取模态数据,根据模态数据输出模态数据的第一中间层特征,第一中间层特征用于表征模态数据中的第一关联关系;
[0007]各目标任务分别对应的第一适配器组用于根据与第一适配器组连接的预训练模型输出的第一中间层特征,得到各目标任务分别对应的各模态数据的第二中间层特征,第二中间层特征用于表征模态数据中的第二关联关系;
[0008]各目标任务分别对应的第二适配器组用于根据第二适配器组对应的第一适配器组输出的第二中间层特征,得到各目标任务对应的各模态数据的第三中间层特征,第三中间层特征用于表征模态数据中的第三关联关系,模态数据中的关联关系用于训练预设模型,预设模型用于执行目标任务

[0009]考虑到在全双工对话系统中,基于多模态多任务的预训练任务过程中需要分别对多个模态数据的预训练模型

多个任务的预训练模型中的关联关系

数据特征进行训练计算,从而获取多个模态数据

多个任务的预训练模型,在该训练过程中,计算量较大,模型中的参数会出现重复计算的问题,通过上述系统,同一种模态数据对应同一预训练模型,不同种类的模态数据对应不同的预训练模型1,同一种模态数据对应的预训练模型1中参数相
同,不同的目标任务对应不同的第一适配器组,对于同一模态数据,预训练模型1的第一中间层特征在经过一次计算后保持不变,也就是说预训练模型中的参数固定,只需要根据不同的目标任务训练不同的第一适配器组2,无需整体重复训练预训练模型,同时通过第二适配器组3对同一目标任务的不同模态数据的第二中间层特征进行融合,得到每一个目标任务的多模态数据中的关联关系,相对于相关技术来说,预训练模型中的参数量

计算量以及存储成本均得到减少,避免同一模态数据对应的预训练模型中参数的重复计算,最终完成多模态多任务的预训练任务

[0010]在一种可选的实施方式中,预训练模型包括多层依次连接的
Transformer
网络层,第一适配器组中的第一适配器与第一适配器组对应的预训练模型中
Transformer
网络层对应连接,第二适配器组中的第二适配器与第二适配器组对应的第一适配器组中的第一适配器对应连接;
[0011]若
Transformer
网络层存在上层
Transformer
网络层,
Transformer
网络层用于根据上层
Transformer
网络层输出的第一中间层特征,得到
Transformer
网络层的第一中间层特征;
[0012]若
Transformer
网络层不存在上层
Transformer
网络层,
Transformer
网络层用于获取模态数据,根据模态数据得到
Transformer
网络层的第一中间层特征;
[0013]若第一适配器存在上一个第一适配器,第一适配器用于根据第一适配器对应的
Transformer
网络层输出的第一中间层特征,以及上一个第一适配器输出的第二中间层特征,得到第一适配器的第二中间层特征;
[0014]若第一适配器不存在上一个第一适配器,第一适配器用于根据第一适配器对应的
Transformer
网络层输出的第一中间层特征,得到第一适配器的第二中间层特征;
[0015]若第二适配器存在上一个第二适配器,第二适配器用于根据第二适配器对应的第一适配器输出的第二中间层特征,以及上一个第二适配器输出的第三中间层特征,得到第二适配器的第三中间层特征;
[0016]若第二适配器不存在上一个第二适配器,第二适配器用于根据第二适配器对应的第一适配器输出的第二中间层特征,得到第二适配器的第三中间层特征

[0017]在一种可选的实施方式中,
Transformer
网络层包括注意力模块,第一适配器中包括注意力层,注意力模块中神经元的权重与
Transformer
网络层对应的第一适配器的注意力层中的神经元的权重相同

[0018]在一种可选的实施方式中,第一适配器还包括第一下采样层

第一激活函数

第一上采样层

第一归一化层和第一残差模块,注意力层

第一下采样层

第一激活函数

第一上采样层

第一归一化层

第一残差模块依次连接;
[0019]将第一中间层特征输入至注意力层,依次经过第一下采样层

第一激活函数

第一上采样层

第一归一化层,得到第四中间层特征;
[0020]将第四中间层特征和第一中间层特征输入至第一残差模块,得到第二中间层特征

[0021本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种多模态多任务训练系统,其特征在于,所述系统包括:至少一个预训练模型

至少一个第一适配器组和至少一个第二适配器组;所述第一适配器组中包括至少一个第一适配器,所述第二适配器组中包括至少一个第二适配器;一个预训练模型对应一种模态数据;一个目标任务对应至少一个第一适配器组

至少一个预训练模型和一个第二适配器组,对于同一目标任务,所述第一适配器组与所述预训练模型一一对应;各模态数据分别对应的预训练模型用于获取模态数据,根据所述模态数据输出所述模态数据的第一中间层特征,所述第一中间层特征用于表征所述模态数据中的第一关联关系;各目标任务分别对应的第一适配器组用于根据与所述第一适配器组连接的预训练模型输出的第一中间层特征,得到各目标任务分别对应的各模态数据的第二中间层特征,所述第二中间层特征用于表征所述模态数据中的第二关联关系;各目标任务分别对应的第二适配器组用于根据所述第二适配器组对应的第一适配器组输出的第二中间层特征,得到各目标任务对应的各模态数据的第三中间层特征,所述第三中间层特征用于表征所述模态数据中的第三关联关系,所述模态数据中的关联关系用于训练预设模型,所述预设模型用于执行目标任务
。2.
根据权利要求1所述的系统,其特征在于,所述预训练模型包括多层依次连接的
Transformer
网络层,所述第一适配器组中的第一适配器与所述第一适配器组对应的预训练模型中
Transformer
网络层对应连接,所述第二适配器组中的第二适配器与所述第二适配器组对应的第一适配器组中的第一适配器对应连接;若所述
Transformer
网络层存在上层
Transformer
网络层,所述
Transformer
网络层用于根据上层
Transformer
网络层输出的第一中间层特征,得到所述
Transformer
网络层的第一中间层特征;若所述
Transformer
网络层不存在上层
Transformer
网络层,所述
Transformer
网络层用于获取所述模态数据,根据所述模态数据得到所述
Transformer
网络层的第一中间层特征;若所述第一适配器存在上一个第一适配器,所述第一适配器用于根据所述第一适配器对应的
Transformer
网络层输出的第一中间层特征,以及上一个第一适配器输出的第二中间层特征,得到所述第一适配器的第二中间层特征;若所述第一适配器不存在上一个第一适配器,所述第一适配器用于根据所述第一适配器对应的
Transformer
网络层输出的第一中间层特征,得到所述第一适配器的第二中间层特征;若所述第二适配器存在上一个第二适配器,所述第二适配器用于根据所述第二适配器对应的第一适配器输出的第二中间层特征,以及上一个第二适配器输出的第三中间层特征,得到所述第二适配器的第三中间层特征;若所述第二适配器不存在上一个第二适配器,所述第二适配器用于根据所述第二适配器对应的第一适配器输出的第二中间层特征,得到所述第二适配器的第三中间层特...

【专利技术属性】
技术研发人员:李蒙
申请(专利权)人:镁佳北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1