【技术实现步骤摘要】
本专利技术涉及深度神经网络硬件加速,并特别涉及一种基于算子选择与细粒度融合的深度学习推理方法及装置。
技术介绍
1、近年来,随着大数据和深度学习技术的蓬勃发展,数据规模和神经网络模型尺寸不断增长,对算力的需求愈加迫切。为了处理如此庞大的数据运算,gpu、npu和tpu等异构加速器获得了工业界和学术界的广泛应用。其中,gpu凭借其出色的通用并行计算能力和适配的软件生态(例如nvidia:cuda)在深度学习模型训练、推理领域发挥着重要的作用。
2、深度神经网络(deep neural network,dnn)模型通常会被抽象成一个个算子和它们之间的依赖关系构成的数据流图。而目前主流的gpu中具有张量核(tensor core)和标量核(cuda core)两种计算核心,tensor core能够满足算子底层矩阵乘的加速需求,cudacore能够满足算子底层其他计算的加速需求。因此,作为dnn部署落地的核心——深度学习推理系统,其设计能否充分并行利用好gpu中两种异构计算核心是提高系统吞吐和资源利用率的关键。
3、目
...【技术保护点】
1.一种基于算子选择与细粒度融合的深度学习推理方法,其特征在于,包括:
2.如权利要求1所述的基于算子选择与细粒度融合的深度学习推理方法,其特征在于,该算子选择步骤包括:
3.如权利要求1所述的基于算子选择与细粒度融合的深度学习推理方法,其特征在于,该算子融合步骤包括:
4.如权利要求1所述的基于算子选择与细粒度融合的深度学习推理方法,其特征在于,该算子切分步骤包括:
5.一种基于算子选择与细粒度融合的深度学习推理装置,其特征在于,包括:
6.如权利要求5所述的基于算子选择与细粒度融合的深度学习推理装置,其特
...【技术特征摘要】
1.一种基于算子选择与细粒度融合的深度学习推理方法,其特征在于,包括:
2.如权利要求1所述的基于算子选择与细粒度融合的深度学习推理方法,其特征在于,该算子选择步骤包括:
3.如权利要求1所述的基于算子选择与细粒度融合的深度学习推理方法,其特征在于,该算子融合步骤包括:
4.如权利要求1所述的基于算子选择与细粒度融合的深度学习推理方法,其特征在于,该算子切分步骤包括:
5.一种基于算子选择与细粒度融合的深度学习推理装置,其特征在于,包括:
6.如权利要求5所述的基于算子选择与细粒度融合的深度学习推...
【专利技术属性】
技术研发人员:杨康,马立贤,邵恩,谭光明,孙凝晖,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。