【技术实现步骤摘要】
一种多模态多任务训练系统及多模态多任务训练方法
[0001]本专利技术涉及计算机领域,尤其涉及一种多模态多任务训练系统及多模态多任务训练方法
。
技术介绍
[0002]在全双工对话系统中涉及到很多不同的任务及模态,如无效对话拒识
、
意图理解
、
语义判不停
、
情绪识别等任务,以及语音模态
、
文本模态等模态
。
随着深度学习与预训练技术的发展,将单项任务的预训练模型或者单个模态的预训练模型得到的关联关系,应用到神经网络等深度学习模型上,使得深度学习模型的识别准确性更高,如来自变换器的双向编码器表征量
(Bidirectional Encoder Representations from Transformers
,
BERT)、
无监督语音预训练模型等
。
但是当模态数量
、
任务数量增加时,基于多个模态多个任务的预训练模型的方案往往都需要很大的模型参数量和计算量,使得整个对话系统的计算和存储成本大大增加
。
技术实现思路
[0003]为减少基于多模态多任务的预训练模型在构建过程中的参数量和计算量,本专利技术提出了一种多模态多任务训练系统及多模态多任务训练方法
。
[0004]第一方面,本专利技术提供了一种多模态多任务训练系统,系统包括:
[0005]至少一个预训练模型
、
至少一个第一适配器组和至少 ...
【技术保护点】
【技术特征摘要】
1.
一种多模态多任务训练系统,其特征在于,所述系统包括:至少一个预训练模型
、
至少一个第一适配器组和至少一个第二适配器组;所述第一适配器组中包括至少一个第一适配器,所述第二适配器组中包括至少一个第二适配器;一个预训练模型对应一种模态数据;一个目标任务对应至少一个第一适配器组
、
至少一个预训练模型和一个第二适配器组,对于同一目标任务,所述第一适配器组与所述预训练模型一一对应;各模态数据分别对应的预训练模型用于获取模态数据,根据所述模态数据输出所述模态数据的第一中间层特征,所述第一中间层特征用于表征所述模态数据中的第一关联关系;各目标任务分别对应的第一适配器组用于根据与所述第一适配器组连接的预训练模型输出的第一中间层特征,得到各目标任务分别对应的各模态数据的第二中间层特征,所述第二中间层特征用于表征所述模态数据中的第二关联关系;各目标任务分别对应的第二适配器组用于根据所述第二适配器组对应的第一适配器组输出的第二中间层特征,得到各目标任务对应的各模态数据的第三中间层特征,所述第三中间层特征用于表征所述模态数据中的第三关联关系,所述模态数据中的关联关系用于训练预设模型,所述预设模型用于执行目标任务
。2.
根据权利要求1所述的系统,其特征在于,所述预训练模型包括多层依次连接的
Transformer
网络层,所述第一适配器组中的第一适配器与所述第一适配器组对应的预训练模型中
Transformer
网络层对应连接,所述第二适配器组中的第二适配器与所述第二适配器组对应的第一适配器组中的第一适配器对应连接;若所述
Transformer
网络层存在上层
Transformer
网络层,所述
Transformer
网络层用于根据上层
Transformer
网络层输出的第一中间层特征,得到所述
Transformer
网络层的第一中间层特征;若所述
Transformer
网络层不存在上层
Transformer
网络层,所述
Transformer
网络层用于获取所述模态数据,根据所述模态数据得到所述
Transformer
网络层的第一中间层特征;若所述第一适配器存在上一个第一适配器,所述第一适配器用于根据所述第一适配器对应的
Transformer
网络层输出的第一中间层特征,以及上一个第一适配器输出的第二中间层特征,得到所述第一适配器的第二中间层特征;若所述第一适配器不存在上一个第一适配器,所述第一适配器用于根据所述第一适配器对应的
Transformer
网络层输出的第一中间层特征,得到所述第一适配器的第二中间层特征;若所述第二适配器存在上一个第二适配器,所述第二适配器用于根据所述第二适配器对应的第一适配器输出的第二中间层特征,以及上一个第二适配器输出的第三中间层特征,得到所述第二适配器的第三中间层特征;若所述第二适配器不存在上一个第二适配器,所述第二适配器用于根据所述第二适配器对应的第一适配器输出的第二中间层特征,得到所述第二适配器的第三中间层特...
【专利技术属性】
技术研发人员:李蒙,
申请(专利权)人:镁佳北京科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。