当前位置: 首页 > 专利查询>清华大学专利>正文

一种模型结构的确定方法及相关装置制造方法及图纸

技术编号:37983620 阅读:22 留言:0更新日期:2023-06-30 09:58
一种模型结构的确定方法,应用于人工智能技术领域。在该方法中,在预训练模型中增加多个候选网络结构来得到第一模型后,通过预先设定性能约束条件来约束第一模型的网络结构搜索过程,能够得到第一模型中每个候选网络结构的选择概率,且保证基于该选择概率所选出来的需新增的网络结构满足性能约束条件。这样一来,在基于各个候选网络结构的选择概率来选择在预训练模型中实际需要增加的网络结构时,则能够选择到性能消耗量合适的网络结构,使得通过增加网络结构所得到的第二模型所消耗的性能资源满足设备要求。能资源满足设备要求。能资源满足设备要求。

【技术实现步骤摘要】
一种模型结构的确定方法及相关装置


[0001]本申请涉及人工智能(ArtificialIntelligence,AI)
,尤其涉及一种模型结构的确定方法及相关装置。

技术介绍

[0002]目前,在人工智能
中,在基于预训练语言模型来解决自然语言处理(Natural Language Process,NLP)任务时,使用该NLP任务的训练样本对预训练语言模型进行全参微调是一种有效的方法。然而,随着预训练语言模型的模型参数量越来越大,在有许多NLP任务待解决的情况下,针对每个NLP任务都需要执行一次全参微调,且都需要保存一份完整的全参微调后的模型参数。
[0003]因此,模型参数高效调整(以下简称参数高效)的方法应运而生。在参数高效方法中,针对每个待解决的NLP任务,保持预训练语言模型的参数不变,只微调在预训练语言模型上增加的少量参数。这些参数高效方法,在NLP任务上取得了和全参微调相近的效果,并且在处理多个NLP任务时,实现了多个NLP任务共享预训练语言模型参数,且每个NLP任务只需要保存少量微调后的新增的参数。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型结构的确定方法,其特征在于,包括:获取第一模型,所述第一模型是在预训练模型中增加多个候选网络结构得到的;基于性能约束条件,确定第一模型中每个候选网络结构的选择概率,其中所述第一模型的性能消耗增量满足所述性能约束条件,所述性能消耗增量与所述每个候选网络结构的选择概率以及所述每个候选网络结构的性能消耗量相关;根据所述每个候选网络结构的选择概率,从所述多个候选网络结构中选择至少一个候选网络结构;在所述预训练模型中增加所述至少一个候选网络结构,得到第二模型。2.根据权利要求1所述的方法,其特征在于,所述每个候选网络结构的性能消耗量与所述每个候选网络结构的目标参数相关,所述目标参数包括以下的一个或多个参数:网络结构参数量、网络结构计算量和网络结构计算耗时。3.根据权利要求1或2所述的方法,其特征在于,所述性能约束条件为所述第一模型的性能消耗增量不高于预设增量。4.根据权利要求1

3任意一项所述的方法,其特征在于,所述根据所述每个候选网络结构的选择概率,从所述多个候选网络结构中选择至少一个候选网络结构,包括:按照选择概率从高到低的顺序,从所述多个候选网络结构中选择所述至少一个候选网络结构;其中,所述至少一个候选网络结构的性能消耗量之和不高于预设增量。5.根据权利要求1

4任意一项所述的方法,其特征在于,所述多个候选网络结构中包括多种类型的网络结构,且每种类型的网络结构包括一个或多个候选网络结构。6.根据权利要求5所述的方法,其特征在于,所述多个候选网络结构中部分类型不同的候选网络结构部署于所述第一模型中的相同位置。7.根据权利要求1

6任意一项所述的方法,其特征在于,在确定第一模型中每个候选网络结构的选择概率的过程中,所述多个候选网络结构的选择概率的调整方向之间具有竞争关系。8.根据权利要求1

7任意一项所述的方法,其特征在于,所述基于性能约束条件,确定第一模型中每个候选网络结构的选择概率,包括:将训练数据输入所述第一模型,并基于所述第一模型的输出构建损失函数;基于所述损失函数和所述性能约束条件,更新所述第一模型中的所述多个候选网络结构的权重参数以及选择概率。9.根据权利要求1

8任意一项所述的方法,其特征在于,所述方法还包括:基于训练数据集,对所述第二模型进行训练,得到训练后的第二模型。10.根据权利要求1

9任意一项所述的方法,其特征在于,所述第二模型用于执行自然语言处理任务。11.一种模型结构的确定装置,其特征在于,包括:获取模块,用于获取第一模型,所述第一模型是在预训练模型中...

【专利技术属性】
技术研发人员:王亚岛王雅圣张震刘知远
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1