【技术实现步骤摘要】
算子的切分图样搜索方法、装置、计算机设备及存储介质
[0001]本专利技术实施例涉及计算机硬件技术,具体涉及人工智能芯片技术,尤其涉及一种算子的切分图样搜索方法、装置、计算机设备及存储介质。
技术介绍
[0002]AI芯片,例如,DLA(DeepLearningAccelerator,深度学习加速器),在开发完成后,一般都具有理论计算性能,也就是该AI芯片在理想情况下能够达到的最佳算力。AI芯片的理论计算性能由芯片理论运算能力决定,但是AI芯片的实际计算性能由AI芯片的数据存储方式(例如,单级存储或者多级存储)、带宽大小、芯片理论运算能力以及路由分配方式等综合因素来决定。
[0003]AI芯片的软件栈中内置有多个算子,在基于算子的实现过程中,输入数据流的不同切分方式(也即,切分图样)会决定数据存储方式和带宽需求,因而对AI芯片的计算性能影响很大。现有技术中,主要通过开发者对软件和硬件的先验知识来确定算子在不同的张量形状对应的切分方式,实现效率低,对开发者要求高,且往往未必能真正的确定出算子的最佳切分方式,因此,如何快...
【技术保护点】
【技术特征摘要】
1.一种算子的切分图样搜索方法,其特征在于,包括:获取目标算子在目标芯片中的切分搜索空间:其中,切分搜索空间中包括多个切分图样,切分图样包括目标算子的每个算子参数的每个张量维度在目标芯片的每个存储层级中的切分方式;根据多项切分约束条件,在切分搜索空间中逐次滤除无效切分图样,得到多个备选切分图样;使用各备选切分图样对目标算子的标准算子实现进行编译,得到与各备选切分图样对应的目标算子实现,标准算子实现中包含待配置的切分参数;在目标芯片中,分别运行与各备选切分图样对应的目标算子实现,得到与每个备选切分图样对应的实测数据;根据各所述实测数据,在各备选切分图样中识别目标算子在目标芯片中的目标切分图样。2.根据权利要求1所述的方法,其特征在于,获取目标算子在目标芯片中的切分搜索空间,包括:获取目标算子中各算子参数的标准张量形状,以及所述目标芯片中的存储层级数量;根据各所述标准张量形状,以及所述存储层级数量,获取目标算子在目标芯片中的切分搜索空间。3.根据权利要求2所述的方法,其特征在于,根据各所述标准张量形状,以及所述存储层级数量,获取目标算子在目标芯片中的切分搜索空间,包括:根据每个算子参数的标准张量形状,确定每个算子参数在每个张量维度下的全部切分方式;根据每个算子参数在每个张量维度下的全部切分方式,生成单层切分搜索空间;根据所述单层切分搜索空间,以及所述存储层级数量,生成所述切分搜索空间。4.根据权利要求2所述的方法,其特征在于,获取目标算子中各算子参数的标准张量形状,包括:获取目标算子中各算子参数的原始张量形状;根据各所述原始张量形状的数值特征,和/或所述目标芯片中的硬件计算单元并行度,对各所述原始张量形状进行填充处理,得到各算子参数的标准张量形状。5.根据权利要求4所述的方法,其特征在于,根据各所述原始张量形状的数值特征,对各所述原始张量形状进行填充处理,得到各算子参数的标准张量形状,包括:获取与当前算子参数对应的当前张量形状;在当前张量形状中依次获取当前张量维度,并获取当前张量维度中包括的元素数量;获取与所述元素数量匹配的拆分因子集合,并检测所述拆分因子集合中包括的标准拆分因子的数量值;如果确定所述数量值不满足数量值门限条件,则对所述元素数量进行加一填充后,返回执行获取与所述元素数量匹配的拆分因子集合的操作,直至满足所述数量值门限条件;返回执行在当前张量形状中依次获取当前张量维度的操作,以得到与所述当前算子参数对应的标准张量形状。6.根据权利要求4所述的方法,其特征在于,根据所述目标芯片中的硬件计算单元并行
度,对各所述原始张量形状进行填充处理,得到各算子参数的标准张量形状,包括:获取与当前算子参数对应的当前张量形状;在当前张量形状中依次获取当前张量维度,并获取当前张量维度中包括的元素数量;如果确定所述元素数量小于所述硬件计算单元并行度,则将所述元素数量填充至所述硬件计算单元并行度;返回执行在当前张量形状中依次获取当前张量维度的操作,以得到与所述当前算子参数对应的标准张量形状。7.根据权利要求1所述的方法,其特征在于,根据多项切分约束条件,在切分搜索空间中逐次滤除无效切分图样,得到多个备选切分图样,包括:根据第一类切分约束条件,...
【专利技术属性】
技术研发人员:孙铁力,潘佳诚,张亚林,
申请(专利权)人:上海燧原科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。