基于算子选择与细粒度融合的深度学习推理方法及装置制造方法及图纸

技术编号：42547558 阅读：31 留言：0更新日期：2024-08-27 19:49

本发明专利技术提出一种基于算子选择与细粒度融合的深度学习推理方法，包括：获取深度神经网络模型的数据流图，通过线性回归模型模拟该数据流图中算子融合后的融合执行时间，通过动态规划选出该融合执行时间最短的算子对作为待融合算子对；采用基于持久化线程块的算子横向融合策略，对该待融合算子对进行融合，将该待融合算子对的CD kernel和TC kernel融合，得到融合算子；将该数据流图中除待融合算子以外的算子的线程块拆分为粒度更小的算子，得到低粒度算子；对该深度神经网络模型的融合算子和低粒度算子进行编排后输入包含Tensor Core和CUDA Core的GPU，得到该深度神经网络模型的执行结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及深度神经网络硬件加速，并特别涉及一种基于算子选择与细粒度融合的深度学习推理方法及装置。

技术介绍

1、近年来，随着大数据和深度学习技术的蓬勃发展，数据规模和神经网络模型尺寸不断增长，对算力的需求愈加迫切。为了处理如此庞大的数据运算，gpu、npu和tpu等异构加速器获得了工业界和学术界的广泛应用。其中，gpu凭借其出色的通用并行计算能力和适配的软件生态（例如nvidia：cuda）在深度学习模型训练、推理领域发挥着重要的作用。

2、深度神经网络（deep neural network，dnn）模型通常会被抽象成一个个算子和它们之间的依赖关系构成的数据流图。而目前主流的gpu中具有张量核（tensor core）和标量核（cuda core）两种计算核心，tensor core能够满足算子底层矩阵乘的加速需求，cudacore能够满足算子底层其他计算的加速需求。因此，作为dnn部署落地的核心——深度学习推理系统，其设计能否充分并行利用好gpu中两种异构计算核心是提高系统吞吐和资源利用率的关键。

3、目...

【技术保护点】

1.一种基于算子选择与细粒度融合的深度学习推理方法，其特征在于，包括：

2.如权利要求1所述的基于算子选择与细粒度融合的深度学习推理方法，其特征在于，该算子选择步骤包括：

3.如权利要求1所述的基于算子选择与细粒度融合的深度学习推理方法，其特征在于，该算子融合步骤包括：

4.如权利要求1所述的基于算子选择与细粒度融合的深度学习推理方法，其特征在于，该算子切分步骤包括：

5.一种基于算子选择与细粒度融合的深度学习推理装置，其特征在于，包括：

6.如权利要求5所述的基于算子选择与细粒度融合的深度学习推理装置，其特征在于，该算子选择模...

【技术特征摘要】

1.一种基于算子选择与细粒度融合的深度学习推理方法，其特征在于，包括：

2.如权利要求1所述的基于算子选择与细粒度融合的深度学习推理方法，其特征在于，该算子选择步骤包括：

3.如权利要求1所述的基于算子选择与细粒度融合的深度学习推理方法，其特征在于，该算子融合步骤包括：

4.如权利要求1所述的基于算子选择与细粒度融合的深度学习推理方法，其特征在于，该算子切分步骤包括：

5.一种基于算子选择与细粒度融合的深度学习推理装置，其特征在于，包括：

6.如权利要求5所述的基于算子选择与细粒度融合的深度学习推...

【专利技术属性】
技术研发人员：杨康，马立贤，邵恩，谭光明，孙凝晖，
申请(专利权)人：中国科学院计算技术研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人