设备的运算时延统计方法、装置、电子设备及存储介质制造方法及图纸

技术编号：40432653 阅读：7 留言：0更新日期：2024-02-22 22:58

本申请实施例公开了一种设备的运算时延统计方法、装置、电子设备及存储介质，涉及人工智能技术领域，所述方法包括：获取算子的算子参数；根据算子参数对算子进行融合，获得运算模型的运行内核；获取针对运行内核的采样数据，并将采样数据输入运行内核进行时延预测，获得运算模型的模型运行时延，采样数据为对运行内核的配置空间进行采样得到的数据，运算时延用于衡量运算模型的运算效率，从而通过对算子进行融合，得到对应的运行内核，基于内核级的模型推理时延，能够快速且准确地获取运算模型在部署后的运算时延，保证了时延统计的准确性和效率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，特别是涉及一种设备的运算时延统计方法、一种设备的运算时延统计装置、一种电子设备以及一种计算机可读存储介质。

技术介绍

1、随着深度学习算法的飞速发展，每一年都有大量新的网络架构出现。同时深度神经网络模型也已在如今的移动应用时代已经得到广泛应用。然而在设备上进行视频分析、人脸识别、ar(augmented reality，增强现实)/vr(virtual reality，虚拟现实)等应用中，深度神经网络模型受限于硬件设备，将不同程度的出现时延。然而，在对神经网络模型进行时延统计的过程中，统计的结果往往忽略了硬件无关的度量标准导致统计效果不佳，且存在统计结果与实际效率不一致的问题，同时在统计神经网络模型的时延过程中需要大量的工程，导致统计效率低下，例如，更低的flops(floating-point operations per second，每秒浮点运算数)并不意味着更低的推断时延或能量消耗。

技术实现思路

1、本申请实施例是提供一种设备的运算时延统计方法、装置、电子设备以及计算机可读存储介质，以解决或部分解决对设备中的神经网络模型进行时延统计时存在统计结果差以及统计效率低的问题。

2、本申请实施例公开了一种设备的运算时延统计方法，所述设备中部署有运算模型，所述运算模型包括若干个算子，所述方法包括：

3、获取所述算子的算子参数；

4、根据所述算子参数对所述算子进行融合，获得所述运算模型的运行内核；

5、获取针对所述运

6、可选的，所述算子参数包括算子类型，所述算子类型用于表征所述算子执行数据输出和/或数据输入，所述根据所述算子参数对所述算子进行融合，获得所述运算模型的运行内核，包括：

7、若所述算子的算子类型满足融合条件，则对满足融合条件的算子进行融合，获得所述运算模型的运行内核；

8、若所述算子的算子类型不满足融合条件，则将单个所述算子作为所述运算模型的运行内核。

9、可选的，所述若所述算子的算子类型满足融合条件，则对满足融合条件的算子进行融合，获得所述运算模型的运行内核，包括：

10、若所述算子的算子类型为单输入类型和单输出类型，则获取输出算子的第一运行时延、输入算子的第二运行时延，以及所述输出算子和所述输入算子之间的第一融合运行时延，所述输出算子与所述输入算子之间的算子连接关系为单输入单输出关系；

11、采用所述第一运行时延、所述第二运行时延以及所述第一融合运行时延对所述输出算子和所述输入算子进行算子融合，获得所述运算模型的运行内核。

12、可选的，所述采用所述第一运行时延、所述第二运行时延以及所述第一融合运行时延对所述输出算子和所述输入算子进行算子融合，获得所述运算模型的运行内核，包括：

13、获取针对所述第一运行时延和所述第二运行时延的融合参数；

14、采用所述融合参数、所述第一运行时延以及所述第二运行时长进行计算，获得融合阈值，并计算所述第一运行时延和所述第二运行时延之间的和值；

15、若所述和值与所述第一融合运行时延之间的差值大于所述融合阈值，则将所述输出算子和所述输入算子进行融合，获得所述运算模型的运行内核；

16、若所述和值与所述第一融合运行时延之间的差值小于或等于所述融合阈值，则将所述输出算子和所述输入算子分别作为所述运算模型的运行内核。

17、可选的，所述若所述算子的算子类型满足融合条件，则对满足融合条件的算子进行融合，获得所述运算模型的运行内核，包括：

18、若所述算子的算子类型为多输入类型，则获取各个输出算子的第三运行时延、输入算子的第四运行时延，以及各个所述输出算子和所述输入算子之间的第二融合运行时延；

19、采用各个所述第三运行时延、所述第四运行时延以及所述第二融合运行时延对所述输出算子和所述输入算子进行算子融合，获得所述运算模型的运行内核。

20、可选的，所述采用各个所述第三运行时延、所述第四运行时延以及所述第二融合运行时延对所述输出算子和所述输入算子进行算子融合，获得所述运算模型的运行内核，包括：

21、采用各个所述第三运行时延与所述第四运行时延进行时延累加，获得第一总运行时延；

22、分别将任一所述输出算子和所述输入算子之间的第二融合运行时延，与剩余的输出算子的第三运行时长进行时延累加，获得第二总运行时延；

23、获取所述输出算子和所述输入算子对应的实际运行时延；

24、将所述第一总运行时延和所述第二总运行时延分别与所述实际运行时延进行比较，并根据比较结果对所述输出算子和所述输入算子进行算子融合，获得所述运算模型的运行内核。

25、可选的，所述若所述算子的算子类型不满足融合条件，则将所述算子作为所述运算模型的运行内核，包括：

26、若所述算子的算子类型为多输出类型，则将输出算子和输入算子分别作为所述运算模型的运行内核。

27、可选的，所述获取针对所述运行内核的采样数据，包括：

28、获取针对所述运行内核的数据采样参数，以及各个所述运行内核的内核类型，所述数据采样参数用于描述每个数据采样的边界和可能性；

29、根据所述内核类型与所述数据采样参数对所述运行内核的配置控件进行采样，获得与所述运行内核对应的采样数据。

30、可选的，所述数据采样参数为先验概率，所述根据所述内核类型与所述数据采样参数对所述运行内核的配置空间进行采样，获得与所述运行内核对应的采样数据，包括：

31、若内核类型表征运行内核为卷积层中的第一运行内核，则按照所述先验概率对所述第一运行内核的配置空间进行采样，获得与所述第一运行内核对应的第一训练数据以及第一测试数据；

32、若内核类型表征运行内核为深度卷积层中的第二运行内核，则按照所述先验概率对所述第二运行内核的配置空间进行采样，获得与所述第二运行内核对应的第二训练数据以及第二测试数据；

33、若内核类型表征运行内核为除所述第一运行内核和所述第二运行内核之外的第三运行内核，则按照所述先验概率对所述第三运行内核的配置空间进行采样，获得与所述第三运行内核对应的第三训练数据以及第三测试数据；

34、根据所述第一训练数据、所述第二训练数据以及所述第三训练数据、所述第一测试数据、所述第二测试数据以及第三测试数据进行数据的优化，获得与所述运行内核对应的采样数据。

35、可选的，所述根据所述第一训练数据、所述第二训练数据以及所述第三训练数据、所述第一测试数据、所述第二测试数据以及第三测试数据进行数据的优化，获得与所述运行内核对应的采样数据，包括：

36本文档来自技高网...

【技术保护点】

1.一种设备的运算时延统计方法，其特征在于，所述设备中部署有运算模型，所述运算模型包括若干个算子，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述算子参数包括算子类型，所述算子类型用于表征所述算子执行数据输出和/或数据输入，所述根据所述算子参数对所述算子进行融合，获得所述运算模型的运行内核，包括：

3.根据权利要求2所述的方法，其特征在于，所述若所述算子的算子类型满足融合条件，则对满足融合条件的算子进行融合，获得所述运算模型的运行内核，包括：

4.根据权利要求3所述的方法，其特征在于，所述采用所述第一运行时延、所述第二运行时延以及所述第一融合运行时延对所述输出算子和所述输入算子进行算子融合，获得所述运算模型的运行内核，包括：

5.根据权利要求2所述的方法，其特征在于，所述若所述算子的算子类型满足融合条件，则对满足融合条件的算子进行融合，获得所述运算模型的运行内核，包括：

6.根据权利要求5所述的方法，其特征在于，所述采用各个所述第三运行时延、所述第四运行时延以及所述第二融合运行时延对所述输出算子和所述输入算

7.根据权利要求2所述的方法，其特征在于，所述若所述算子的算子类型不满足融合条件，则将所述算子作为所述运算模型的运行内核，包括：

8.根据权利要求1-7任一项所述的方法，其特征在于，所述获取针对所述运行内核的采样数据，包括：

9.根据权利要求8所述的方法，其特征在于，所述数据采样参数为先验概率，所述根据所述内核类型与所述数据采样参数对所述运行内核的配置空间进行采样，获得与所述运行内核对应的采样数据，包括：

10.根据权利要求9所述的方法，其特征在于，所述根据所述第一训练数据、所述第二训练数据以及所述第三训练数据、所述第一测试数据、所述第二测试数据以及第三测试数据进行数据的优化，获得与所述运行内核对应的采样数据，包括：

11.一种设备的运算时延统计装置，其特征在于，所述设备中部署有运算模型，所述运算模型包括若干个算子，所述装置包括：

12.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口以及所述存储器通过所述通信总线完成相互间的通信；

13.一种计算机可读存储介质，其上存储有指令，当由一个或多个处理器执行所述指令时，使得所述处理器执行如权利要求1-10任一项所述的方法。

...

【技术特征摘要】

1.一种设备的运算时延统计方法，其特征在于，所述设备中部署有运算模型，所述运算模型包括若干个算子，所述方法包括：

6.根据权利要求5所述的方法，其特征在于，所述采用各个所述第三运行时延、所述第四运行时延以及所述第二融合运行时延对所述输出算子和所述输入算子进行算子融合，获得所述运算模型的运行内核，包括：

7.根据权利要求2所述...

【专利技术属性】
技术研发人员：钱胜尔，
申请(专利权)人：浙江深象智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人