【技术实现步骤摘要】
本申请涉及深度学习,具体而言,涉及一种动态张量处理方法、装置、电子设备及存储介质。
技术介绍
1、在深度学习领域中,传统深度学习模型需要处理的数据输入尺寸通常是不固定的,因此需要对于输入数据提前确定好尺寸,但是在智能化程度更高的模型推理场景中,无法提前确认实时输入数据的大小,这种在模型推理时无法确定形状大小或维度的输入数据为动态张量。因此,可以通过手工开发算子库的方式对模型中的算子进行优化,但是由于算法和硬件的更迭速度较快,算子库的开发和维护不仅成本高,而且开发周期长。
2、目前,针对上述问题,往往通过深度学习编译器来自动且高效地为动态张量提供高性能的张量程序。
3、但是,目前的深度学习编译器,在处理动态张量时需要产生较大的填充开销,使得张量程序性能较低,而即使提高动态张量的算子性能,也需要漫长的搜索张量程序的过程,编译时间较长,难以在较短的时间内为动态张量算子实现高性能的张量程序。
技术实现思路
1、有鉴于此,本申请的目的在于提供一种动态张量处理方法、装置、电子设
...【技术保护点】
1.一种动态张量处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的处理方法,其特征在于,所述内存架构特征包括寄存器和共享内存,所述基于所述目标编译器的内存架构特征对抽象计算单元的搜索空间进行初始化约束,包括:
3.根据权利要求1所述的处理方法,其特征在于,所述基于预设的性能指标对所述第一抽象计算单元进行并行度约束,以获取高性能的目标抽象计算单元,包括:
4.根据权利要求3所述的处理方法,其特征在于,所述基于预设的评价指标在所述第一抽象计算单元中筛选出符合针对所述性能指标设置的性能标准的第二抽象计算单元,包括:
【技术特征摘要】
1.一种动态张量处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的处理方法,其特征在于,所述内存架构特征包括寄存器和共享内存,所述基于所述目标编译器的内存架构特征对抽象计算单元的搜索空间进行初始化约束,包括:
3.根据权利要求1所述的处理方法,其特征在于,所述基于预设的性能指标对所述第一抽象计算单元进行并行度约束,以获取高性能的目标抽象计算单元,包括:
4.根据权利要求3所述的处理方法,其特征在于,所述基于预设的评价指标在所述第一抽象计算单元中筛选出符合针对所述性能指标设置的性能标准的第二抽象计算单元,包括:
5.根据权利要求1所述的处理方法,其特征在于,所述根据所述目标抽象计算单元组合生成目标张量程序,包括:
6.根据权利要求5所述的处理方法,其特...
【专利技术属性】
技术研发人员:王锐,穆鹏宇,卫林泉,刘轶,钱德沛,
申请(专利权)人:北京航空航天大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。