模型构建方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号：42036331 阅读：18 留言：0更新日期：2024-07-16 23:22

本申请公开了一种模型构建方法、装置、电子设备及可读存储介质，属于人工智能领域。该方法包括：获取待构建的MoE模型的模型参数，MoE模型包括N个子模型，模型参数包括N个子模型中每个子模型的模型功能信息，模型功能信息用于表征每个子模型可处理的数据类别；基于N个聚类中心和稠密模型中的前馈网络MLP层的矩阵向量，确定N个子模型对应的模型参数，N个聚类中心与N个子模型一一对应，每个聚类中心是基于对应子模型的模型功能信息确定的；基于N个子模型对应的模型参数，构建MoE模型；其中，稠密模型与MoE模型的模型功能相同，N为大于1的整数。

全部详细技术资料下载

【技术实现步骤摘要】

本申请属于人工智能领域，具体涉及一种模型构建方法、装置、电子设备及可读存储介质。

技术介绍

1、混合专家(mixure-of-experts，moe)模型是一种神经网络，但不同于一般的神经网络，该moe模型中包括多个子神经网络模型，其中，每个子神经网络模型可称为一个专家网络，每个专家网络可以分别处理数据集的不同部分。

2、然而，在moe模型规模增大的同时，通常通过大量的训练样本直接对一个空的moe模型进行训练，以构建最终的moe模型。由于moe模型规模太大，因此可能会通过大量的训练样本以及很长的时间来训练moe模型，以构建最终的moe模型。如此，导致在构建该moe模型的过程中消耗巨大的算力。

技术实现思路

1、本申请实施例的目的是提供一种模型构建方法、装置、电子设备及可读存储介质，能够更加快速的构建出moe模型，减少了构建moe模型的算力消耗。

2、第一方面，本申请实施例提供了一种模型构建方法，该模型构建方法包括：获取待构建的moe模型的模型参数，moe模型包括n个...

【技术保护点】

1.一种模型构建方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于N个聚类中心和稠密模型中的前馈网络MLP层的矩阵向量，确定所述N个子模型对应的模型参数，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述N个聚类中心，对所述稠密模型中的所述MLP层的M个矩阵向量聚类，得到N个聚类向量，包括：

4.根据权利要求3所述的方法，其特征在于，所述获取M个语义集合中的每个语义集合对应的嵌入向量之前，所述方法还包括：

5.根据权利要求3的方法，其特征在于，每个语义集合中包含至少一个文本样本；

6...

【技术特征摘要】

1.一种模型构建方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于n个聚类中心和稠密模型中的前馈网络mlp层的矩阵向量，确定所述n个子模型对应的模型参数，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述n个聚类中心，对所述稠密模型中的所述mlp层的m个矩阵向量聚类，得到n个聚类向量，包括：

4.根据权利要求3所述的方法，其特征在于，所述获取m个语义集合中的每个语义集合对应的嵌入向量之前，所述方法还包括：

5.根据权利要求3的方法，其特征在于，每个语义集合中包含至少一个文本样本；

6.根据权利要求2的方法，其特征在于，所述模型参数还包括每个子模型对应的初始模型参数；

7.根据权利要求6的方法，其特征在于，所述矩阵向量包括行向量和列向量；

8.一种模型构建装置，其特征在于，所述模型构建装置包括：获取模块、处理模块和构建模块；

9.根据权利要求8所述...

【专利技术属性】
技术研发人员：陈锦龙，
申请(专利权)人：维沃移动通信有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人