【技术实现步骤摘要】
本申请属于人工智能领域,具体涉及一种模型构建方法、装置、电子设备及可读存储介质。
技术介绍
1、混合专家(mixure-of-experts,moe)模型是一种神经网络,但不同于一般的神经网络,该moe模型中包括多个子神经网络模型,其中,每个子神经网络模型可称为一个专家网络,每个专家网络可以分别处理数据集的不同部分。
2、然而,在moe模型规模增大的同时,通常通过大量的训练样本直接对一个空的moe模型进行训练,以构建最终的moe模型。由于moe模型规模太大,因此可能会通过大量的训练样本以及很长的时间来训练moe模型,以构建最终的moe模型。如此,导致在构建该moe模型的过程中消耗巨大的算力。
技术实现思路
1、本申请实施例的目的是提供一种模型构建方法、装置、电子设备及可读存储介质,能够更加快速的构建出moe模型,减少了构建moe模型的算力消耗。
2、第一方面,本申请实施例提供了一种模型构建方法,该模型构建方法包括:获取待构建的moe模型的模型参数,moe模型包括n个
...【技术保护点】
1.一种模型构建方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于N个聚类中心和稠密模型中的前馈网络MLP层的矩阵向量,确定所述N个子模型对应的模型参数,包括:
3.根据权利要求2所述的方法,其特征在于,所述基于所述N个聚类中心,对所述稠密模型中的所述MLP层的M个矩阵向量聚类,得到N个聚类向量,包括:
4.根据权利要求3所述的方法,其特征在于,所述获取M个语义集合中的每个语义集合对应的嵌入向量之前,所述方法还包括:
5.根据权利要求3的方法,其特征在于,每个语义集合中包含至少一个文本样
6...
【技术特征摘要】
1.一种模型构建方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于n个聚类中心和稠密模型中的前馈网络mlp层的矩阵向量,确定所述n个子模型对应的模型参数,包括:
3.根据权利要求2所述的方法,其特征在于,所述基于所述n个聚类中心,对所述稠密模型中的所述mlp层的m个矩阵向量聚类,得到n个聚类向量,包括:
4.根据权利要求3所述的方法,其特征在于,所述获取m个语义集合中的每个语义集合对应的嵌入向量之前,所述方法还包括:
5.根据权利要求3的方法,其特征在于,每个语义集合中包含至少一个文本样本;
6.根据权利要求2的方法,其特征在于,所述模型参数还包括每个子模型对应的初始模型参数;
7.根据权利要求6的方法,其特征在于,所述矩阵向量包括行向量和列向量;
8.一种模型构建装置,其特征在于,所述模型构建装置包括:获取模块、处理模块和构建模块;
9.根据权利要求8所述...
【专利技术属性】
技术研发人员:陈锦龙,
申请(专利权)人:维沃移动通信有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。