基于混合专家模型的计算方法、装置、设备及存储介质制造方法及图纸

技术编号：41217641 阅读：2 留言：0更新日期：2024-05-09 23:38

本申请公开了一种基于混合专家模型的计算方法、装置、设备及存储介质，涉及人工智能技术领域，方法包括：根据混合专家模型各层的预估稀疏度计算出归一化的路由权值；根据各个归一化的路由权值确定混合专家模型各层的目标稀疏度；按照各个目标稀疏度和归一化的路由权值激活混合专家模型各层中对应的专家，得到稀疏化后的混合专家模型；利用稀疏化后的混合专家模型计算向量数据。本申请可有针对性地对混合专家模型各层分别确定一个稀疏度，进而可精准分配专家用于后续向量计算，相较于现有技术对混合专家模型每层都进行固定稀疏，本申请可将冗余的专家进行冻结，实现可变稀疏度的混合专家模型，降低了冗余计算量，避免冗余专家占用计算资源。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，尤其涉及一种基于混合专家模型的计算方法、装置、设备及存储介质。

技术介绍

1、以transformer为基础构建的大语言模型推动了各行各业的变革，随着大语言模型的蓬勃发展，模型规模不断的扩大，对存储空间和计算资源都提出了很大的挑战。为了解决大语言模型计算量需求大的问题，混合专家模型（mixture of experts，简称moe）被提出，在moe模型中包含了多个专家（每个专家为一个神经网络模型），使用moe模型时可以只激活部分专家实现稀疏计算，使得moe模型规模虽然很大，但实际的计算量相对较小。但现有技术对moe模型的稀疏化方案十分固定，导致moe模型在实际计算时仍包括了部分冗余的计算量，也占用了多余的计算资源。

技术实现思路

1、本申请实施例的主要目的在于提出一种基于混合专家模型的计算方法、装置、设备及存储介质，以针对性地稀疏化moe模型，降低冗余计算，提高计算资源利用率。

2、为实现上述目的，本申请实施例的一方面提出了一种基于混合专家模型的计算方法，所述方法包括：

3、根据混合专家模型各层的预估稀疏度计算出归一化的路由权值；

4、根据各个所述归一化的路由权值确定所述混合专家模型各层的目标稀疏度；

5、按照各个所述目标稀疏度和所述归一化的路由权值激活所述混合专家模型各层中对应的专家，得到稀疏化后的所述混合专家模型；

6、利用稀疏化后的所述混合专家模型计算向量数据。

7、在一些实施例中，所

8、利用softmax函数根据混合专家模型各层的预估稀疏度对各层路由权值进行归一化计算，获得各层所述路由权值对应的softmax向量作为所述归一化的路由权值。

9、在一些实施例中，所述根据各个所述归一化的路由权值确定所述混合专家模型各层的目标稀疏度，包括：

10、根据各个所述softmax向量中达到设定阈值的数值数量确定所述混合专家模型各层的所述目标稀疏度。

11、在一些实施例中，所述根据各个所述softmax向量中达到设定阈值的数值数量确定所述混合专家模型各层的所述目标稀疏度，包括：

12、利用权值系数计算式根据各个所述softmax向量中达到设定阈值的数值数量确定所述混合专家模型各层的所述目标稀疏度；

13、所述权值系数计算式为：

14、；

15、其中，表示第 i层第 m个专家的路由权值； w(.)为激活函数；h(.)为线性映射关系， k为超参数，(m-n)/m为所述目标稀疏度，normalize(.) 为归一化函数。

16、在一些实施例中，所述按照各个所述稀疏度激活所述混合专家模型各层中对应的专家，得到稀疏化后的所述混合专家模型，包括：

17、对所述混合专家模型中各层并联连接的多个专家，选取与各个所述稀疏度对应的专家进行激活，得到稀疏化后的所述混合专家模型。

18、在一些实施例中，所述利用稀疏化后的所述混合专家模型计算向量数据，包括：

19、利用稀疏化后的所述混合专家模型对文字数据或图像数据对应所述向量数据进行计算。

20、在一些实施例中，所述方法还包括：

21、若各个所述稀疏度大于内存的读端口数，则利用复用器通过时间共享的方式将各层所述专家所需的计算数据传输到所述内存进行计算。

22、为实现上述目的，本申请实施例的另一方面提出了一种基于混合专家模型的计算装置，所述装置包括：

23、权值归一化单元，用于根据混合专家模型各层的预估稀疏度计算出归一化的路由权值；

24、稀疏度确定单元，用于根据各个所述归一化的路由权值确定所述混合专家模型各层的目标稀疏度；

25、专家激活单元，用于按照各个所述目标稀疏度和所述归一化的路由权值激活所述混合专家模型各层中对应的专家，得到稀疏化后的所述混合专家模型；

26、向量计算单元，用于利用稀疏化后的所述混合专家模型计算向量数据。

27、为实现上述目的，本申请实施例的另一方面提出了一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的方法。

28、为实现上述目的，本申请实施例的另一方面提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法。

29、本申请实施例至少包括以下有益效果：

30、本申请根据混合专家模型各层的预估稀疏度计算出归一化的路由权值；根据各个归一化的路由权值确定混合专家模型各层的目标稀疏度；按照各个目标稀疏度和归一化的路由权值激活混合专家模型各层中对应的专家，得到稀疏化后的混合专家模型；利用稀疏化后的混合专家模型计算向量数据。本申请可有针对性地对混合专家模型各层分别确定一个稀疏度，进而可精准分配专家用于后续向量计算，相较于现有技术对混合专家模型每层都进行固定稀疏，本申请可将冗余的专家进行冻结，实现可变稀疏度的混合专家模型，降低了冗余计算量，避免冗余专家占用计算资源。

本文档来自技高网...

【技术保护点】

1.一种基于混合专家模型的计算方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于混合专家模型的计算方法，其特征在于，所述根据混合专家模型各层的预估稀疏度计算出归一化的路由权值，包括：

3.根据权利要求2所述的一种基于混合专家模型的计算方法，其特征在于，所述根据各个所述归一化的路由权值确定所述混合专家模型各层的目标稀疏度，包括：

4.根据权利要求3所述的一种基于混合专家模型的计算方法，其特征在于，所述根据各个所述softmax向量中达到设定阈值的数值数量确定所述混合专家模型各层的所述目标稀疏度，包括：

5.根据权利要求1所述的一种基于混合专家模型的计算方法，其特征在于，所述按照各个所述稀疏度激活所述混合专家模型各层中对应的专家，得到稀疏化后的所述混合专家模型，包括：

6.根据权利要求1至5任一项所述的一种基于混合专家模型的计算方法，其特征在于，所述方法还包括：

7.一种基于混合专家模型的计算装置，其特征在于，所述装置包括：

8.一种电子设备，其特征在于，所述电子设备包括存储器和处理器

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的方法。

...

【技术特征摘要】

1.一种基于混合专家模型的计算方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于混合专家模型的计算方法，其特征在于，所述根据混合专家模型各层的预估稀疏度计算出归一化的路由权值，包括：

5.根据权利要求1所述的一种基于混合专家模型的计算方法，其...

【专利技术属性】
技术研发人员：彭吉生，黄强，
申请(专利权)人：北京思凌科半导体技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人