模型构建方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:42036331 阅读:18 留言:0更新日期:2024-07-16 23:22
本申请公开了一种模型构建方法、装置、电子设备及可读存储介质,属于人工智能领域。该方法包括:获取待构建的MoE模型的模型参数,MoE模型包括N个子模型,模型参数包括N个子模型中每个子模型的模型功能信息,模型功能信息用于表征每个子模型可处理的数据类别;基于N个聚类中心和稠密模型中的前馈网络MLP层的矩阵向量,确定N个子模型对应的模型参数,N个聚类中心与N个子模型一一对应,每个聚类中心是基于对应子模型的模型功能信息确定的;基于N个子模型对应的模型参数,构建MoE模型;其中,稠密模型与MoE模型的模型功能相同,N为大于1的整数。

【技术实现步骤摘要】

本申请属于人工智能领域,具体涉及一种模型构建方法、装置、电子设备及可读存储介质


技术介绍

1、混合专家(mixure-of-experts,moe)模型是一种神经网络,但不同于一般的神经网络,该moe模型中包括多个子神经网络模型,其中,每个子神经网络模型可称为一个专家网络,每个专家网络可以分别处理数据集的不同部分。

2、然而,在moe模型规模增大的同时,通常通过大量的训练样本直接对一个空的moe模型进行训练,以构建最终的moe模型。由于moe模型规模太大,因此可能会通过大量的训练样本以及很长的时间来训练moe模型,以构建最终的moe模型。如此,导致在构建该moe模型的过程中消耗巨大的算力。


技术实现思路

1、本申请实施例的目的是提供一种模型构建方法、装置、电子设备及可读存储介质,能够更加快速的构建出moe模型,减少了构建moe模型的算力消耗。

2、第一方面,本申请实施例提供了一种模型构建方法,该模型构建方法包括:获取待构建的moe模型的模型参数,moe模型包括n个子模型,模型参数包括本文档来自技高网...

【技术保护点】

1.一种模型构建方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于N个聚类中心和稠密模型中的前馈网络MLP层的矩阵向量,确定所述N个子模型对应的模型参数,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述N个聚类中心,对所述稠密模型中的所述MLP层的M个矩阵向量聚类,得到N个聚类向量,包括:

4.根据权利要求3所述的方法,其特征在于,所述获取M个语义集合中的每个语义集合对应的嵌入向量之前,所述方法还包括:

5.根据权利要求3的方法,其特征在于,每个语义集合中包含至少一个文本样本;

6...

【技术特征摘要】

1.一种模型构建方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于n个聚类中心和稠密模型中的前馈网络mlp层的矩阵向量,确定所述n个子模型对应的模型参数,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述n个聚类中心,对所述稠密模型中的所述mlp层的m个矩阵向量聚类,得到n个聚类向量,包括:

4.根据权利要求3所述的方法,其特征在于,所述获取m个语义集合中的每个语义集合对应的嵌入向量之前,所述方法还包括:

5.根据权利要求3的方法,其特征在于,每个语义集合中包含至少一个文本样本;

6.根据权利要求2的方法,其特征在于,所述模型参数还包括每个子模型对应的初始模型参数;

7.根据权利要求6的方法,其特征在于,所述矩阵向量包括行向量和列向量;

8.一种模型构建装置,其特征在于,所述模型构建装置包括:获取模块、处理模块和构建模块;

9.根据权利要求8所述...

【专利技术属性】
技术研发人员:陈锦龙
申请(专利权)人:维沃移动通信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1