基于混合模型并行的边缘端协同Transformer推理方法技术

技术编号：40196401 阅读：10 留言：0更新日期：2024-01-26 23:59

本发明专利技术涉及计算机技术领域，特别公开了基于混合模型并行的边缘端协同Transformer推理方法，包括以下步骤：获取各个边缘设备在Transformer深度学习模型不同计算负载下的计算能力；基于各个边缘设备的计算能力以及最小化推理时间的约束，设定目标约束条件；基于目标约束条件，利用启发式算法确定Transformer深度学习模型计算负载分配至各个边缘设备的分配策略；基于分配策略将Transformer深度学习模型分配至各个边缘设备，并开始Transformer深度学习模型协同推理过程。本发明专利技术借助边缘计算环境下多终端设备的计算资源，通过混合模型并行架构，实现在多边缘设备上的Transformer深度学习模型低时延与资源高效的分布式协同推理。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机，特别涉及基于混合模型并行的边缘端协同transformer推理方法。

技术介绍

1、在端推理成为了一种新型的深度学习模型推理模式，这种计算范式在产生数据的移动边缘设备上进行具有数据隐私保护性的本地模型推理服务，同时避免了由网络传输引发的服务质量不可靠的问题。

2、不过，由于设备成本、能耗等限制，移动边缘设备的计算、通信能力往往是有限的，transformer深度学习模型推理的计算密集特性为资源受限的边缘设备带来了重大挑战，为了应对这些挑战，现有的研究通过设计复杂的资源调度机制充分挖掘边缘设备的资源潜力，但始终受到单一设备搭载的计算资源的瓶颈制约，而我们观察到，像智能家庭这样的常见的边缘环境中通常包含一系列通过局域网相互连接且处于常常处于资源空闲状态的边缘设备，但却缺少一种分布式协同推力方法将处于资源空闲状态的多个边缘设备协同运用起来。

3、因此，研究多边缘设备上的transformer深度学习模型低时延与资源高效的分布式协同推理的方法具有重要意义。

技术实现思路

1、本专利技术的目的在于提供基于混合模型并行的边缘端协同transformer推理方法，以解决无法在多个边缘设备上进行transformer深度学习模型协同推理的问题。

2、为了解决上述技术问题，本专利技术提供了一种基于混合模型并行的边缘端协同transformer推理方法，包括以下步骤：

3、获取各个边缘设备在transformer深度学习模型不同计算负载下的计算能力；

4、基于各个边缘设备的计算能力以及最小化推理时间的约束，设定目标约束条件；

5、基于目标约束条件，利用启发式算法确定transformer深度学习模型计算负载分配至各个边缘设备的分配策略；

6、基于分配策略将transformer深度学习模型分配至各个边缘设备，并开始transformer深度学习模型协同推理过程。

7、在其中一个实施例中，所述transformer深度学习模型包括attention模块、连接模块和mlp模块；所述分配策略包括以下步骤：将连接模块的计算负载均匀地划分到不同的边缘设备上；按比例将attention模块和mlp模块的计算负载划分到不同边缘设备上；其中，当某一边缘设备的内存超过其预算内存，将发生内存溢出的设备的计算负载以负载均衡的方式转移到还有剩余可用内存空间的设备上。

8、在其中一个实施例中，所述目标约束条件为：

9、

10、

11、

12、式中，为张量并行推理attention模块执行时间的，为张量并行推理mlp模块的执行时间，为序列并行推理连接模块的执行时间，l为transformer深度学习模型中包含的总transformer层数，matt为attention模块中包含的模型权重所需要占用的内存大小，为分配到边缘设备d上的attention模块计算负载，mmlp为mlp模块中包含的模型权重所需要占用的内存大小，为分配到边缘设备d上的mlp模块的计算负载为budgetd为设备d的内存预算。

13、在其中一个实施例中，所述transformer深度学习模型包括多层transformer层，遍历每层transformer层后，输出最终的transformer深度学习模型推理结果；其中，每一层中所述开始transformer深度学习模型协同推理过程，具体包括以下步骤：将张量数据切分到不同边缘设备上，不同边缘设备基于同步切分后的第一张量结果进行序列并行计算，得到第一张量结果；对第一张量结果进行allgather张量同步，并将同步后的第一张量结果发送至不同边缘设备上；不同边缘设备基于同步后的第一张量结果进行第一张量并行计算，得到第二张量结果；对第二张量结果进行reducesum张量同步，并将同步后的第二张量结果切分至不同边缘设备上；不同边缘设备基于同步切分后的第二张量结果进行序列并行计算，得到第三张量结果；对第三张量结果进行allgather张量同步，并将同步后的第三张量结果发送至不同边缘设备上；不同边缘设备基于同步后的第三张量结果进行第二张量并行计算，得到第四张量结果；对第四张量结果进行reducesum张量同步，并将同步后的第四张量结果切分至不同边缘设备上。

14、在其中一个实施例中，所述不同边缘设备上进行第一张量并行计算，得到第二张量结果，具体包括以下步骤：计算key矩阵、query矩阵和value矩阵；基于key矩阵(k)、query矩阵(q)和value矩阵(v)，计算矩阵之间自注意力结果；通过线性组合计算自注意力结果，得到第二张量结果；其中，计算矩阵之间自注意力结果的计算方法为使用q-k-v三个矩阵的查询-键-值模式来计算自注意力机制，公式如下：

15、

16、式中，d为词向量的维度，softmax是归一化指数函数，k为key矩阵、q为query矩阵和v为value矩阵。

17、在其中一个实施例中，所述第一张量并行计算公式如下：

18、

19、bi＝self―attention(qi,ki,vi)

20、

21、式中，为query矩阵，为key矩阵，为value矩阵，a为输入张量，bi为经过self-attention计算后的中间结果，self-attention为自注意力机制结果，为一个权重矩阵，与bi运算完成后得到最终的结果ci，ci为第二张量结果。

22、在其中一个实施例中，所述第二张量并行计算公式如下：

23、

24、

25、式中，d为同步后的第三张量结果，一个权重矩阵，也是模型参数的一部分，他与d矩阵运算后得到结果ei，为一个权重矩阵，也是模型参数的一部分，他与e矩阵运算后得到结果fi。

26、在其中一个实施例中，所述序列并行计算计算公式如下：

27、hi＝layearnorm(reaidualadd(dropout(gi)))

28、式中，gi为同步后的第二张量结果，hi为第三张量结果。

29、在其中一个实施例中，在进行reducesum张量同步的过程以及在进行allgather张量同步的过程中，优化为计算通信重叠执行，包括以下步骤：基于紧邻的矩阵乘法之间的依赖关系，同时执行矩阵分块运算和通信。

30、本专利技术的有益效果如下：

31、一、本专利技术借助边缘计算环境下多终端设备的计算资源，通过混合模型并行架构，实现在多边缘设备上的transformer深度学习模型低时延与资源高效的分布式协同推理。

32、二、本专利技术基于一种新型的边缘计算范式，它区别于传统的云计算范式，可以让用户的数据处理过程保留在产生数据的用户设备上，有效保护了用户隐私数据安全，同时不需要与云数据中心进行大量数据通信，避免了主干网络不稳定，服务质量不可靠的问题。

33本文档来自技高网...

【技术保护点】

1.基于混合模型并行的边缘端协同Transformer推理方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于混合模型并行的边缘端协同Transformer推理方法，其特征在于，所述Transformer深度学习模型包括Attention模块、连接模块和MLP模块；所述分配策略包括以下步骤：

3.根据权利要求2所述的基于混合模型并行的边缘端协同Transformer推理方法，其特征在于，所述目标约束条件为：

4.根据权利要求1所述的基于混合模型并行的边缘端协同Transformer推理方法，其特征在于，所述Transformer深度学习模型包括多层Transformer层，遍历每层Transformer层后，输出最终的Transformer深度学习模型推理结果；

5.根据权利要求4所述的基于混合模型并行的边缘端协同Transformer推理方法，其特征在于，所述不同边缘设备上进行第一张量并行计算，得到第二张量结果，具体包括以下步骤：

6.根据权利要求5所述的基于混合模型并行的边缘端协同Transformer推理方法，其特征在于，

7.根据权利要求4所述的基于混合模型并行的边缘端协同Transformer推理方法，其特征在于，

8.根据权利要求4所述的基于混合模型并行的边缘端协同Transformer推理方法，其特征在于，

9.根据权利要求4所述的基于混合模型并行的边缘端协同Transformer推理方法，其特征在于，在进行ReduceSum张量同步的过程以及在进行AllGather张量同步的过程中，优化为计算通信重叠执行，包括以下步骤：

...

【技术特征摘要】

1.基于混合模型并行的边缘端协同transformer推理方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于混合模型并行的边缘端协同transformer推理方法，其特征在于，所述transformer深度学习模型包括attention模块、连接模块和mlp模块；所述分配策略包括以下步骤：

3.根据权利要求2所述的基于混合模型并行的边缘端协同transformer推理方法，其特征在于，所述目标约束条件为：

4.根据权利要求1所述的基于混合模型并行的边缘端协同transformer推理方法，其特征在于，所述transformer深度学习模型包括多层transformer层，遍历每层transformer层后，输出最终的transformer深度学习模型推理结果；

5...

【专利技术属性】
技术研发人员：叶盛源，陈旭，杜江溯，曾烈康，
申请(专利权)人：中山大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人