【技术实现步骤摘要】
迁移学习架构、方法、电子设备及存储介质
[0001]本申请涉及深度学习
,特别涉及一种迁移学习架构、方法、电子设备及存储介质。
技术介绍
[0002]深度学习
在近些年间得到了突飞猛进的发展,有向大数据、大模型发展的趋势,其在各行各业的应用也越来越多并趋于成熟。其中,迁移学习是指将上游任务数据集上训练的深度模型迁移到新的下游任务数据集上进行训练,以使下游任务模型利用上游任务的知识提升性能。
[0003]现有的迁移学习方法通常要求上游任务比较通用,训练数据量大,模型特征表达好,性能强。然而,对数据集和模型大小的要求导致比较好的迁移学习上游任务数据集很少,很多小型数据集和在其上训练的简单模型无法得到有效利用。普通科研机构在小数据集、特定领域任务上训练的小模型却很难被迁移学习方式复用。例如,ImageNet甚至更大规模的数据集上预训练的大模型经常被拿来作为预训练模型提升下游任务性能。
[0004]专家融合方法(MixtureofExperts,MoE)经常被用来提高视觉、自然语言处理以及跨模态任务大模型 ...
【技术保护点】
【技术特征摘要】
1.一种迁移学习架构,其特征在于,包括:一个或多个上游任务模型,每个上游任务模型包括多头注意力机制层,且所述多头注意力机制层整层扩展为专家网络层;下游任务模型,所述下游任务模型包括与所述多头注意力机制层层数相同的专家融合层,所述专家融合层与所述多头注意力机制层的每层对应,每层专家融合层中专家网络通过迁移所有上游任务模型的多头注意力机制层的对应层得到。2.根据权利要求1所述的迁移学习架构,其特征在于,根据所有上游任务模型的多头注意力机制层构建下游任务模型的专家融合层,其中,所述专家融合层的层数与所述上游任务模型的数量相同。3.根据权利要求1所述的迁移学习架构,其特征在于,所述专家融合层包括:选择模块,用于选择一个或多个专家网络处理输入序列的令牌;专家模块,所述专家模块包括上游任务模型的专家网络和属于下游任务的专家网络,每个专家网路处理所述选择模型选择的对应令牌;融合模块,用于根据选择模块输出的概率值确定每个专家网络的权重,根据所述每个专家网络的权重对所有专家网络的输出结果进行加权求和。4.根据权利要求3所述的迁移学习架构,其特征在于,所述选择模块包括全连接网络和分类网络。5.根据权利要求3所述的迁移学习架构,其特征在于,所述下游任务模型的训练包括:获取下游任务数据集;固定所述下游任务模型中来自所述上游任务模型的专家网络的参数,并利用所述下游任务...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。