一种计算图划分方法、装置及存储介质制造方法及图纸

技术编号:37640001 阅读:19 留言:0更新日期:2023-05-25 10:07
本申请实施例公开了一种计算图划分方法、装置及存储介质,其中计算图划分方法包括步骤:基于当前异构环境中的硬件设备的算力大小和I/O性能,分别为所述硬件设备设置硬件优先级和I/O优先级;基于所述硬件设备的所述硬件优先级和所述I/O优先级,对计算图的子图进行初步划分;根据进行所述初步划分后所述计算图中所述子图对应的算子数量和该所述子图所对应的所述硬件设备的最大支持算子数量,设置参考阈值,基于所述参考阈值将进行所述初步划分后的所述计算图中符合预设条件的所述子图与相邻的所述子图进行融合,以减少数据传输开销。销。销。

【技术实现步骤摘要】
一种计算图划分方法、装置及存储介质


[0001]本申请涉及计算机信息处理
,具体涉及一种计算图划分方法、装置及存储介质。

技术介绍

[0002]以深度学习为主的人工智能算法在日常应用中逐渐占据主流方向,相关产品层出不穷,如刷脸支付、智能语音、银行的客服机器人等,都是AI算法的具体落地应用。而AI技术的落地应用,离不开不同平台设备上的部署方法和部署工具,其中最为重要的便是推理框架工具。基于该工具,开发者能够轻松将深度学习算法移植到不同平台设备,输出高效的执行,进而产出人工智能应用,将AI技术带到用户生活中。然而随着深度学习的发展,更多更复杂的模型往往伴随着高负载、大规模的计算量,对现有推理框架提出挑战,加之迅速发展的国产NPU芯片,因此,深度学习异构推理框架应运而生。
[0003]异构推理框架可以接收来自不同深度学习框架如Pytorch、Tensorflow等训练出的模型,接收完毕之后,通过模型转换器(Model Converter)将模型序列化为计算图,并通过加速器(Graph Transformer)对计算图进行初步的图优化,最后,根据计算图分配器(Graph Partitioner)将计算图划分为多个子图并分配给不同的硬件,达到加速模型推理计算的目的。
[0004]但随着检测与Transformer模型的发展,模型逐渐复杂,受到NPU内存、I/O资源受限等影响,只依靠单一NPU芯片进行推理的性能达到瓶颈。从计算图层面观察此问题,将NPU不适合做的计算图结构(例如检测模型的后处理结构)分配给其他类型的芯片进行计算,同时在计算图划分时保证最小割边成为了一种值得探究的解决方案。传统图划分方法都是以最小割边数为优化目标,很少考虑到异构环境对分布式图计算性能的影响,划分后的图结构可能会增加图之间的通信成本,图结构也可能不符合硬件异质的情况,导致计算图性能低,推理速度慢。

技术实现思路

[0005]本申请实施例的目的在于提供一种计算图划分方法、装置及存储介质,用以解决现有技术中的计算图划分方法造成划分后的图之间的通信成本增加,以及划分后计算图性能低、推理速度慢的问题。
[0006]为实现上述目的,本申请实施例提供一种计算图划分方法,包括步骤:基于当前异构环境中的硬件设备的算力大小和I/O性能,分别为所述硬件设备设置硬件优先级和I/O优先级;
[0007]基于所述硬件设备的所述硬件优先级和所述I/O优先级,对计算图的子图进行初步划分;
[0008]根据进行所述初步划分后所述计算图中所述子图对应的算子数量和该所述子图所对应的所述硬件设备的最大支持算子数量,设置参考阈值,基于所述参考阈值将进行所
述初步划分后的所述计算图中符合预设条件的所述子图与相邻的所述子图进行融合,以减少数据传输开销。
[0009]可选地,还包括:
[0010]构建计算图划分问题模型,以评估计算图划分方案的效果,
[0011]所述计算图划分问题模型包括公式:
[0012][0013]其中,cost(G,S)为所述计算图划分方案的平均代价,所述平均代价越低划分效果越好,G=(V,E),V代表所述计算图的顶点集合,E代表所述计算图中所有边的集合,设划分方案S={P1,P2,...,Pn},每一种划分方案由n个分区P组成,满足match_rate为所述计算图结构与所述硬件设备运算特性的匹配率,band为所述计算图不同分区之间的带宽。
[0014]可选地,基于所述硬件设备的所述硬件优先级和所述I/O优先级,对所述计算图的所述子图进行初步划分的方法包括:
[0015]将计算密度算子分配到所述硬件优先级高的所述硬件设备上,将I/O受限的算子分配到所述I/O优先级高的所述硬件设备上,所述计算密度算子包括Conv、GEMM和/或Pooling,所述I/O受限的算子包括NMS。
[0016]可选地,根据进行所述初步划分后所述计算图中所述子图对应的算子数量和该所述子图所对应的所述硬件设备的最大支持算子数量,设置所述参考阈值的方法包括:
[0017]通过公式:
[0018][0019]得到所述参考阈值,其中,Score表示所述参考阈值,N代表所述硬件设备在所述初步划分后获得的所述子图的数量,Sub表示当前所述硬件设备的第i个所述子图中的算子数量。
[0020]可选地,还包括:
[0021]根据先验知识对所述硬件设备的所述硬件优先级和所述I/O优先级进行预设。为实现上述目的,本申请还提供一种计算图划分装置,包括:存储器;以及
[0022]与所述存储器连接的处理器,所述处理器被配置成:
[0023]基于当前异构环境中的硬件设备的算力大小和I/O性能,分别为所述硬件设备设置硬件优先级和I/O优先级;
[0024]基于所述硬件设备的所述硬件优先级和所述I/O优先级,对计算图的子图进行初步划分;
[0025]根据进行所述初步划分后所述计算图中所述子图对应的算子数量和该所述子图所对应的所述硬件设备的最大支持算子数量,设置参考阈值,基于所述参考阈值将进行所述初步划分后的所述计算图中符合预设条件的所述子图与相邻的所述子图进行融合,以减少数据传输开销。
[0026]可选地,所述处理器还被配置成:
[0027]构建计算图划分问题模型,以评估计算图划分方案的效果,
[0028]所述计算图划分问题模型包括公式:
[0029][0030]其中,cost(G,S)为所述计算图划分方案的平均代价,所述平均代价越低划分效果越好,G=(V,E),V代表所述计算图的顶点集合,E代表所述计算图中所有边的集合,设划分方案S={P1,P2,...,Pn},每一种划分方案由n个分区P组成,满足match_rate为所述计算图结构与所述硬件设备运算特性的匹配率,band为所述计算图不同分区之间的带宽。
[0031]可选地,所述处理器还被配置成:
[0032]基于所述硬件设备的所述硬件优先级和所述I/O优先级,对所述计算图的所述子图进行初步划分的方法包括:
[0033]将计算密度算子分配到所述硬件优先级高的所述硬件设备上,将I/O受限的算子分配到所述I/O优先级高的所述硬件设备上,所述计算密度算子包括Conv、GEMM和/或Pooling,所述I/O受限的算子包括NMS。
[0034]可选地,所述处理器还被配置成:
[0035]根据进行所述初步划分后所述计算图中所述子图对应的算子数量和该所述子图所对应的所述硬件设备的最大支持算子数量,设置所述参考阈值的方法包括:
[0036]通过公式:
[0037][0038]得到所述参考阈值,其中,Score表示所述参考阈值,N代表所述硬件设备在所述初步划分后获得的所述子图的数量,Sub表示当前所述硬件设备的第i个所述子图中的算子数量。
[0039]为实现上述目的,本申请还提供一种计算机存储介质,其上存储有计算机程序,其中所述计算机程序被机器执本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种计算图划分方法,其特征在于,包括以下步骤:基于当前异构环境中的硬件设备的算力大小和I/O性能,分别为所述硬件设备设置硬件优先级和I/O优先级;基于所述硬件设备的所述硬件优先级和所述I/O优先级,对计算图的子图进行初步划分;根据进行所述初步划分后所述计算图中所述子图对应的算子数量和该所述子图所对应的所述硬件设备的最大支持算子数量,设置参考阈值,基于所述参考阈值将进行所述初步划分后的所述计算图中符合预设条件的所述子图与相邻的所述子图进行融合,以减少数据传输开销。2.根据权利要求1所述的计算图划分方法,其特征在于,还包括:构建计算图划分问题模型,以评估计算图划分方案的效果,所述计算图划分问题模型包括公式:其中,cost(G,S)为所述计算图划分方案的平均代价,所述平均代价越低划分效果越好,G=(V,E),V代表所述计算图的顶点集合,E代表所述计算图中所有边的集合,设划分方案S={P1,P2,...,Pn},每一种划分方案由n个分区P组成,满足match_rate为所述计算图结构与所述硬件设备运算特性的匹配率,band为所述计算图不同分区之间的带宽。3.根据权利要求1所述的计算图划分方法,其特征在于,基于所述硬件设备的所述硬件优先级和所述I/O优先级,对所述计算图的所述子图进行初步划分的方法包括:将计算密度算子分配到所述硬件优先级高的所述硬件设备上,将I/O受限的算子分配到所述I/O优先级高的所述硬件设备上,所述计算密度算子包括Conv、GEMM和/或Pooling,所述I/O受限的算子包括NMS。4.根据权利要求1所述的计算图划分方法,其特征在于,根据进行所述初步划分后所述计算图中所述子图对应的算子数量和该所述子图所对应的所述硬件设备的最大支持算子数量,设置所述参考阈值的方法包括:通过公式:得到所述参考阈值,其中,Score表示所述参考阈值,N代表所述硬件设备在所述初步划分后获得的所述子图的数量,Sub表示当前所述硬件设备的第i个所述子图中的算子数量。5.根据权利要求1所述的计算图划分方法,其特征在于,还包括:根据先验知识对所述硬件设备的所述硬件优先级和所述I/O优先级进行预设。6.一种计算图划分装置,其特征在于,包括:存储器;以及与所述存储器连...

【专利技术属性】
技术研发人员:张先轶
申请(专利权)人:澎峰北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1