动态张量处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号：41358838 阅读：20 留言：0更新日期：2024-05-20 10:09

本申请提供了一种动态张量处理方法、装置、电子设备及存储介质，所述方法包括：基于目标编译器的内存架构特征对抽象计算单元的搜索空间进行初始化约束，以生成硬件对齐的第一抽象计算单元，基于预设的性能指标对第一抽象计算单元进行并行度约束，以获取目标抽象计算单元，基于预设的组合搜索算法，根据目标抽象计算单元和预设的工作负载的主轴尺寸确定目标抽象计算单元组合，根据目标抽象计算单元组合生成目标张量程序，并基于目标张量程序为输入的动态张量生成对应的高性能内核代码。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及深度学习，具体而言，涉及一种动态张量处理方法、装置、电子设备及存储介质。

技术介绍

1、在深度学习领域中，传统深度学习模型需要处理的数据输入尺寸通常是不固定的，因此需要对于输入数据提前确定好尺寸，但是在智能化程度更高的模型推理场景中，无法提前确认实时输入数据的大小，这种在模型推理时无法确定形状大小或维度的输入数据为动态张量。因此，可以通过手工开发算子库的方式对模型中的算子进行优化，但是由于算法和硬件的更迭速度较快，算子库的开发和维护不仅成本高，而且开发周期长。

2、目前，针对上述问题，往往通过深度学习编译器来自动且高效地为动态张量提供高性能的张量程序。

3、但是，目前的深度学习编译器，在处理动态张量时需要产生较大的填充开销，使得张量程序性能较低，而即使提高动态张量的算子性能，也需要漫长的搜索张量程序的过程，编译时间较长，难以在较短的时间内为动态张量算子实现高性能的张量程序。

技术实现思路

1、有鉴于此，本申请的目的在于提供一种动态张量处理方法、装置、电子设...

【技术保护点】

1.一种动态张量处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的处理方法，其特征在于，所述内存架构特征包括寄存器和共享内存，所述基于所述目标编译器的内存架构特征对抽象计算单元的搜索空间进行初始化约束，包括：

3.根据权利要求1所述的处理方法，其特征在于，所述基于预设的性能指标对所述第一抽象计算单元进行并行度约束，以获取高性能的目标抽象计算单元，包括：

4.根据权利要求3所述的处理方法，其特征在于，所述基于预设的评价指标在所述第一抽象计算单元中筛选出符合针对所述性能指标设置的性能标准的第二抽象计算单元，包括：