System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于局部敏感哈希算法的混合专家模型加速方法和系统技术方案_技高网
当前位置: 首页 > 专利查询>北京大学专利>正文

一种基于局部敏感哈希算法的混合专家模型加速方法和系统技术方案

技术编号:41125464 阅读:4 留言:0更新日期:2024-04-30 17:52
本发明专利技术涉及一种基于局部敏感哈希算法的混合专家模型加速方法和系统。该方法在混合专家模型的训练过程和/或推理过程中,采用局部敏感哈希算法对数据进行聚类,得到聚类中心,利用聚类中心进行All‑To‑All通信和专家计算,以降低通信量和计算量。本发明专利技术提出的技术方案的加速效果优于传统的优化手段,例如层次化通信和计算通信重叠技术,这些现有技术采用系统优化的手段,在低带宽集群中加速效果不明显。本发明专利技术的技术方案利用了数据的相似性,从算法优化的方面降低了通信量,从而降低了通信时间。本发明专利技术提出的技术方案可以支持任意形式的混合专家模型。

【技术实现步骤摘要】

本专利技术属于人工智能、信息,具体涉及一种基于局部敏感哈希算法的混合专家模型加速方法和系统


技术介绍

1、近年来,大规模预训练模型提升了深度学习在各类复杂任务的表现性能,例如计算机视觉、自然语言处理、图学习以及推荐系统等领域。这些预训练模型常被称为基座模型(foundation model),以transformer结构为主要组成,并利用大量的gpu在大规模的数据集上进行长时间的预训练。openai的实验结果表明,通过扩大模型参数量,扩大训练数据的规模以及增加训练的时间都能够有效提升模型的表现效果。然而,这将带来训练成本的大幅提升,使得基座模型的训练十分昂贵。

2、为此,业界常会采用混合专家模型(mixture-of-experts,简称moe)的优化手段,通过引入混合专家的结构来增加模型的参数量以提升其拟合能力,并通过专家间稀疏激活的方式引入稀疏性,大大降低了模型的计算量,从而降低了训练的成本。具体来说,moe结构由专家网络和稀疏门控网络组成,不同的专家摆放在不同的gpu上进行训练。输入数据首先由门控网络决策对应激活的专家(一般为top-1或top-2),然后数据将通过all-to-all通信发送给对应的专家,专家在接受到数据后进行本地计算并通过all-to-all通信将处理后的结果发回。然而,常见的训练集群间的通信带宽远低于数据中心的rdma网络,这使得通信时间将成为限制模型训练吞吐的主要瓶颈。

3、现有的混合专家模型加速方法通常采用层次化通信的方案来加速all-to-all通信的效率,分为机内和机间两层通信从而最大化通信带宽的利用效率;或者采用通信计算重叠的方式,通过将输入数据进行切分,细粒度地执行计算和通信,从而将通信时间掩盖在计算中。基于层次化通信的all-to-all加速方案优化空间,旨在优化机器内和机器间通信带宽不一致的问题,以更优地方式利用机器间有限的互联带宽。然而大多数集群情况下,机器间的带宽远低于机器内的带宽,机器间的通信时间占据了主要部分,层次化通信带来的收益有限。基于通信计算重叠的方式,旨在利用gpu计算设备可以跟通信设备并行执行的能力,将输入数据进一步切分,使得两个设备的使用流水起来。然而在实际训练中,由于all-to-all的通信时间远大于专家计算的时间,通信计算重叠的方案带来的收益也有限。


技术实现思路

1、本专利技术提出的技术方案可以有效解决现有混合专家网络模型训练和推理过程中all-to-all通信过慢的问题。

2、本专利技术提出的技术方案中,通过基于局部敏感哈希算法(locality-sensitivehashing,简称lsh)的方法加速了混合专家模型的训练和推理过程。基于lsh方案,有效发掘了训练数据中的相似性,高效地对数据进行聚类,将聚类中心进行all-to-all通信和专家计算,降低了通信量和计算量,取得了加速。同时,聚类算法的压缩比例和收益会随着数据量的增大而增大。

3、本专利技术采用的技术方案如下:

4、一种基于局部敏感哈希算法的混合专家模型加速方法,包括以下步骤:

5、在混合专家模型的训练过程和/或推理过程中,采用局部敏感哈希算法对数据进行聚类,得到聚类中心;

6、利用聚类中心进行all-to-all通信和专家计算,以降低通信量和计算量。

7、进一步地,所述训练过程包括前向传播过程和后向传播过程;所述前向传播过程包括:

8、使用混合专家模型的门控网络g对输入数据x进行处理,得到其与专家网络e间的对应关系,将对应关系中与专家e对应的s个数据记作xe:{xi|i=1,…,s};

9、利用局部敏感哈希算法对xe进行聚类,得到m个聚类中心,记作c;

10、记录xe中的每个数据与其聚类中心的差值δxi;

11、将聚类中心通过all-to-all通信发送给专家e进行处理;

12、专家e对接收到的聚类中心c进行处理,并将处理结果e(c)通过all-to-all通信发回;

13、基于聚类中心c经过专家e处理后的结果,以及数据与其聚类中心的差值δxi,利用补偿机制近似还原出数据xi经过专家处理的结果,记作e(xi);

14、将不同专家e的e(xi)进行合并,得到混合专家模型的输出e(x),交由上层神经网络模型继续进行前向计算,最终计算得神经网络模型前向计算的损失。

15、进一步地,所述局部敏感哈希算法采用正轴体lsh算法,lsh(x)由p个正轴体哈希函数hk(x)组成,记作hk(x)被定义为:对数据x进行随机旋转后,取与d维正轴体的顶点集中距离最近顶点,其编号为该正轴体哈希函数的值,记为:

16、进一步地,所述后向传播过程包括:

17、混合专家模型得到其上方神经网络模型的梯度回传,记作

18、利用前向计算得到的专家激活关系,得到专家e对应的数据的梯度

19、利用前向计算得到的聚类关系,得到e(c)的梯度,记作

20、将通过all-to-all通信发送给对应的专家e;

21、专家e接收到后进行后向计算,得到专家参数的梯度和聚类中心的梯度并通过all-to-all通信发回;

22、将聚类中心的梯度根据类中数据数量进行平均后,赋值给类中的每个成员

23、将交由下层神经网络模型继续进行反向传播计算。

24、进一步地,所述推理过程只进行前向传播过程并输出预测结果,在所述前向传播过程中通过使用局部敏感哈希算法来降低推理的延迟。

25、一种基于局部敏感哈希算法的混合专家模型加速系统,其包括混合专家模型和数据聚类模块;在所述混合专家模型的训练过程和/或推理过程中,所述数据聚类模块采用局部敏感哈希算法对数据进行聚类,得到聚类中心,并利用聚类中心进行all-to-all通信和专家计算,以降低通信量和计算量。

26、进一步地,所述基于局部敏感哈希算法的混合专家模型加速系统部署于公有云或私有云,对外提供混合专家模型训练和推理服务。

27、本专利技术的有益效果如下:

28、1)本专利技术提出的技术方案里,在混合专家模型的训练和推理过程中,使用基于lsh的数据聚类方法,可以显著的减少all-to-all的通信量和专家的计算量。这是因为数据的分布遵循齐夫定律,存在着大量的相似数据,lsh方法可以高效地发掘这种相似性来加速训练和推理过程。

29、2)本专利技术提出的技术方案的加速效果优于传统的优化手段(如层次化通信和计算通信重叠技术),这是因为传统的优化手段通过系统优化的手段,在低带宽集群中加速效果不明显。本专利技术的技术方案利用了数据的相似性,从算法优化的方面,降低了通信量,从而降低了通信时间。

30、3)本专利技术提出的技术方案可以支持任意形式的混合专家模型。

本文档来自技高网...

【技术保护点】

1.一种基于局部敏感哈希算法的混合专家模型加速方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,所述训练过程包括前向传播过程和后向传播过程;所述前向传播过程包括:

3.根据权利要求2所述的方法,其特征在于,所述局部敏感哈希算法采用正轴体LSH算法,LSH(x)由p个正轴体哈希函数hk(x)组成,记作hk(x)被定义为:对数据x进行随机旋转后,取与d维正轴体的顶点集中距离最近顶点,其编号为该正轴体哈希函数的值,记为:

4.根据权利要求2所述的方法,其特征在于,所述后向传播过程包括:

5.根据权利要求1所述的方法,其特征在于,所述推理过程只进行前向传播过程并输出预测结果,在所述前向传播过程中通过使用局部敏感哈希算法来降低推理的延迟。

6.一种基于局部敏感哈希算法的混合专家模型加速系统,其特征在于,包括混合专家模型和数据聚类模块;在所述混合专家模型的训练过程和/或推理过程中,所述数据聚类模块采用局部敏感哈希算法对数据进行聚类,得到聚类中心,并利用聚类中心进行All-To-All通信和专家计算,以降低通信量和计算量。

7.根据权利要求6所述的系统,其特征在于,所述基于局部敏感哈希算法的混合专家模型加速系统部署于公有云或私有云,对外提供混合专家模型训练和推理服务。

8.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1~5中任一项所述方法的指令。

9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现权利要求1~5中任一项所述的方法。

...

【技术特征摘要】

1.一种基于局部敏感哈希算法的混合专家模型加速方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,所述训练过程包括前向传播过程和后向传播过程;所述前向传播过程包括:

3.根据权利要求2所述的方法,其特征在于,所述局部敏感哈希算法采用正轴体lsh算法,lsh(x)由p个正轴体哈希函数hk(x)组成,记作hk(x)被定义为:对数据x进行随机旋转后,取与d维正轴体的顶点集中距离最近顶点,其编号为该正轴体哈希函数的值,记为:

4.根据权利要求2所述的方法,其特征在于,所述后向传播过程包括:

5.根据权利要求1所述的方法,其特征在于,所述推理过程只进行前向传播过程并输出预测结果,在所述前向传播过程中通过使用局部敏感哈希算法来降低推理的延迟。

6.一种基于局部敏感哈希算法的混合专家...

【专利技术属性】
技术研发人员:崔斌刘琦斌聂小楠赵通符芳诚
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1