【技术实现步骤摘要】
一种模型结构的确定方法及相关装置
[0001]本申请涉及人工智能(ArtificialIntelligence,AI)
,尤其涉及一种模型结构的确定方法及相关装置。
技术介绍
[0002]目前,在人工智能
中,在基于预训练语言模型来解决自然语言处理(Natural Language Process,NLP)任务时,使用该NLP任务的训练样本对预训练语言模型进行全参微调是一种有效的方法。然而,随着预训练语言模型的模型参数量越来越大,在有许多NLP任务待解决的情况下,针对每个NLP任务都需要执行一次全参微调,且都需要保存一份完整的全参微调后的模型参数。
[0003]因此,模型参数高效调整(以下简称参数高效)的方法应运而生。在参数高效方法中,针对每个待解决的NLP任务,保持预训练语言模型的参数不变,只微调在预训练语言模型上增加的少量参数。这些参数高效方法,在NLP任务上取得了和全参微调相近的效果,并且在处理多个NLP任务时,实现了多个NLP任务共享预训练语言模型参数,且每个NLP任务只需要保存少量微调后的新增的 ...
【技术保护点】
【技术特征摘要】
1.一种模型结构的确定方法,其特征在于,包括:获取第一模型,所述第一模型是在预训练模型中增加多个候选网络结构得到的;基于性能约束条件,确定第一模型中每个候选网络结构的选择概率,其中所述第一模型的性能消耗增量满足所述性能约束条件,所述性能消耗增量与所述每个候选网络结构的选择概率以及所述每个候选网络结构的性能消耗量相关;根据所述每个候选网络结构的选择概率,从所述多个候选网络结构中选择至少一个候选网络结构;在所述预训练模型中增加所述至少一个候选网络结构,得到第二模型。2.根据权利要求1所述的方法,其特征在于,所述每个候选网络结构的性能消耗量与所述每个候选网络结构的目标参数相关,所述目标参数包括以下的一个或多个参数:网络结构参数量、网络结构计算量和网络结构计算耗时。3.根据权利要求1或2所述的方法,其特征在于,所述性能约束条件为所述第一模型的性能消耗增量不高于预设增量。4.根据权利要求1
‑
3任意一项所述的方法,其特征在于,所述根据所述每个候选网络结构的选择概率,从所述多个候选网络结构中选择至少一个候选网络结构,包括:按照选择概率从高到低的顺序,从所述多个候选网络结构中选择所述至少一个候选网络结构;其中,所述至少一个候选网络结构的性能消耗量之和不高于预设增量。5.根据权利要求1
‑
4任意一项所述的方法,其特征在于,所述多个候选网络结构中包括多种类型的网络结构,且每种类型的网络结构包括一个或多个候选网络结构。6.根据权利要求5所述的方法,其特征在于,所述多个候选网络结构中部分类型不同的候选网络结构部署于所述第一模型中的相同位置。7.根据权利要求1
‑
6任意一项所述的方法,其特征在于,在确定第一模型中每个候选网络结构的选择概率的过程中,所述多个候选网络结构的选择概率的调整方向之间具有竞争关系。8.根据权利要求1
‑
7任意一项所述的方法,其特征在于,所述基于性能约束条件,确定第一模型中每个候选网络结构的选择概率,包括:将训练数据输入所述第一模型,并基于所述第一模型的输出构建损失函数;基于所述损失函数和所述性能约束条件,更新所述第一模型中的所述多个候选网络结构的权重参数以及选择概率。9.根据权利要求1
‑
8任意一项所述的方法,其特征在于,所述方法还包括:基于训练数据集,对所述第二模型进行训练,得到训练后的第二模型。10.根据权利要求1
‑
9任意一项所述的方法,其特征在于,所述第二模型用于执行自然语言处理任务。11.一种模型结构的确定装置,其特征在于,包括:获取模块,用于获取第一模型,所述第一模型是在预训练模型中...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。