用于估计神经处理器的延迟的系统和方法技术方案

技术编号:37668093 阅读:29 留言:0更新日期:2023-05-26 04:28
公开用于估计神经处理器的延迟的系统和方法。主机处理装置将辅助层添加到神经网络的选择的层。神经处理器在选择的层和辅助层上执行推断操作。针对选择的层和辅助层的推断操作测量总延迟,并且针对推断操作测量开销延迟。从总延迟减去开销延迟以生成对层的延迟的估计。在一个实施例中,测量与辅助层相关联的推断操作的开销延迟涉及基于输入到选择的层的输入数据大小和从辅助层输出的输出数据大小的线性回归来对开销延迟进行建模。的线性回归来对开销延迟进行建模。的线性回归来对开销延迟进行建模。

【技术实现步骤摘要】
用于估计神经处理器的延迟的系统和方法
[0001]本申请要求于2021年11月18日提交的第63/281,068号美国临时申请的优先权,所述美国临时申请的公开通过引用全部包含于此。


[0002]在此公开的主题涉及确定神经处理器的延迟。更具体地,在此公开的主题涉及用于准确地确定神经处理器的延迟的方法和系统。

技术介绍

[0003]许多深度神经网络应用旨在在边缘装置(诸如,神经处理器(NPU))上运行。最近的研究已经示出了模型优化(例如,神经架构搜索)在直接度量(例如,延迟)而不是间接度量(例如,FLOP)上的重要性。然而,平台特定的延迟测量可涉及可能缓慢且难以并行化的工程工作。
[0004]可使用已知神经网络模型的层的组合来构建数十亿个神经网络架构。执行神经网络架构的推断操作并记录(即,测量)神经网络架构网络的所有可能的实施例变化的延迟可能是非常昂贵且不切实际的。
[0005]相反,研究人员可确定通常大约数百个层的延迟,然后针对神经网络创建逐层延迟查找表(LUT)。然后,这样的表可用于通过经由查询逐层延迟LUT对网络中的每个层的延迟进行求和来快速估计网络的延迟。然而,这样的方法可包括与正在执行推断操作的神经处理器外部的数据处理以及到神经处理器和来自神经处理器的数据传输相关的开销延迟。

技术实现思路

[0006]示例实施例提供一种用于估计神经网络的层的延迟的方法,所述方法可包括:由主机处理装置将辅助层添加到所述神经网络的选择的层;由神经处理器在选择的层和辅助层上执行推断操作;由主机处理装置测量选择的层和辅助层的推断操作的总延迟;由主机处理装置测量推断操作的开销延迟;和由主机处理装置从总延迟减去开销延迟以生成对层的延迟的估计。在一个实施例中,辅助层可包括平均池化层、卷积Conv1x1层或卷积Conv3x3层。在另一实施例中,神经处理器可包括第一存储器,其中,主机处理装置可结合到神经处理器,并且主机处理装置可包括第二存储器,并且推断操作的开销延迟可包括用于在所述神经网络的选择的层和辅助层上执行推断操作的由主机处理装置进行的数据处理和在神经处理器的第一存储器与主机处理装置的第二存储器之间的数据传输。在又一实施例中,所述方法还可包括:将在选择的层和辅助层上执行推断操作的步骤、测量选择的层和辅助层的推断操作的总延迟的步骤和测量与辅助层相关联的推断操作的开销延迟的步骤重复预定次数。在再一实施例中,测量与辅助层相关联的推断操作的开销延迟的步骤还可包括:基于输入到选择的层的输入数据大小和从辅助层输出的输出数据大小的线性回归来对开销延迟进行建模。在一个实施例中,测量与辅助层相关联的推断操作的开销延迟的步骤还可包括:确定输入到选择的层的输入数据大小和从辅助层输出的输出数据大小,使用线性
回归模型确定第一系数的第一值、第二系数的第二值和截距变量的第三值,和基于输入数据大小、输出数据大小、第一系数、第二系数和第三值来确定开销延迟。在另一实施例中,所述方法还可包括:生成包含所述神经网络的至少一个层的估计的延迟的查找表。
[0007]示例实施例提供一种用于估计神经网络的层的延迟的方法,所述方法可包括:由主机处理装置将辅助层添加到所述神经网络的选择的层;由神经处理器在选择的层和辅助层上执行推断操作;由主机处理装置测量选择的层和辅助层的推断操作的总延迟;基于输入到选择的层的输入数据大小和从辅助层输出的输出数据大小的线性回归来对开销延迟进行建模;和由主机处理装置从总延迟减去开销延迟以生成对层的延迟的估计。在一个实施例中,对开销延迟进行建模的步骤还可包括:确定输入到选择的层的数据的第一大小和从辅助层输出的数据的第二大小;使用线性回归模型确定第一系数的第一值、第二系数的第二值和截距变量的第三值;和基于数据的第一大小、数据的第二大小、第一系数、第二系数和第三值来确定开销延迟。在另一实施例中,辅助层可包括卷积Conv1x1层。在又一实施例中,神经处理器可包括第一存储器,主机处理装置可结合到神经处理器并且包括第二存储器,并且推断操作的开销延迟可包括用于在所述神经网络的选择的层和辅助层上执行推断操作的由主机处理装置进行的数据处理和在神经处理器的第一存储器与主机处理装置的第二存储器之间的数据传输。在再一实施例中,所述方法还可包括:将在选择的层和辅助层上执行推断操作的步骤、测量选择的层和辅助层的推断操作的总延迟的步骤和测量与辅助层相关联的推断操作的开销延迟的步骤重复预定次数。
[0008]示例实施例提供一种用于估计神经网络的层的延迟的系统,所述系统可包括神经处理电路和主机计算装置。神经处理电路可包括第一存储器。主机计算装置可包括第二存储器,并且主机计算装置可被配置为控制神经处理电路将辅助层添加到所述神经网络的选择的层并在选择的层和辅助层上执行推断操作。主机计算装置还可被配置为:测量选择的层和辅助层的推断操作的总延迟,测量推断操作的开销延迟,并且从总延迟减去开销延迟以生成对层的延迟的估计。在一个实施例中,辅助层可包括平均池化层、卷积Conv1x1层或卷积Conv3x3层。在另一实施例中,推断操作的开销延迟可包括用于在所述神经网络的选择的层和辅助层上执行推断操作的由主机计算装置进行的数据处理和在神经处理电路的第一存储器与主机计算装置的第二存储器之间的数据传输。在又一实施例中,主机计算装置还可被配置为控制神经处理电路将在选择的层和辅助层上执行推断操作的步骤重复预定次数,并且还可被配置为将测量选择的层和辅助层的推断操作的总延迟的步骤重复所述预定次数,并且测量与辅助层相关联的推断操作的开销延迟。在再一实施例中,主机计算装置还可被配置为:基于输入到选择的层的输入数据大小和从辅助层输出的输出数据大小的线性回归来对开销延迟进行建模。在一个实施例中,主机计算装置还可被配置为:确定输入到选择的层的输入数据大小和从辅助层输出的输出数据大小,使用线性回归模型确定第一系数的第一值、第二系数的第二值和截距变量的第三值;并且基于输入数据大小、输出数据大小、第一系数、第二系数和第三值来确定开销延迟。在另一实施例中,主机计算装置还可被配置为生成包含所述神经网络的至少一个层的估计的延迟的查找表。
附图说明
[0009]在以下部分中,将参照附图中示出的示例性实施例来描述在此公开的主题的方
面,其中:
[0010]图1描绘根据在此公开的主题的用于准确地估计神经网络的层的延迟的系统;
[0011]图2是根据在此公开的主题的用于准确地估计神经网络的层的延迟的方法的示例实施例的流程图;
[0012]图3是根据在此公开的主题的用于准确地估计神经网络的层的延迟的方法的示例实施例的流程图;和
[0013]图4描绘根据在此公开的主题的包括测量神经网络的层的延迟的能力的电子装置。
具体实施方式
[0014]在以下具体实施方式中,阐述了许多具体细节以便提供对本公开的透彻理解。然而,本领域技术人员将理解,可在没有这些具体细节的情况下实践公开的方面。在其他情况中,没有详细描述公知的方法、处理、组件和电路,以不模糊在此公开的主题。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于估计神经处理器的延迟的方法,所述方法包括:由主机处理装置将辅助层添加到要在神经处理器中执行的神经网络的选择的层;由神经处理器在选择的层和辅助层上执行推断操作;由主机处理装置测量选择的层和辅助层的推断操作的总延迟;由主机处理装置测量推断操作的开销延迟;和由主机处理装置从总延迟减去开销延迟,以生成对选择的层的延迟的估计。2.如权利要求1所述的方法,其中,辅助层包括池化层和卷积层中的至少一个。3.如权利要求1所述的方法,其中,神经处理器包括第一存储器,其中,主机处理装置结合到神经处理器,并且主机处理装置包括第二存储器,并且其中,推断操作的开销延迟与用于在所述神经网络的选择的层和辅助层上执行推断操作的由主机处理装置进行的数据处理和在神经处理器的第一存储器与主机处理装置的第二存储器之间的数据传输相关。4.如权利要求1所述的方法,其中,所述方法还包括:将在选择的层和辅助层上执行推断操作的步骤、测量选择的层和辅助层的推断操作的总延迟的步骤和测量推断操作的开销延迟的步骤重复预定次数。5.如权利要求4所述的方法,其中,测量推断操作的开销延迟的步骤包括:基于输入到选择的层的输入数据大小和从辅助层输出的输出数据大小的线性回归来对开销延迟进行建模。6.如权利要求4所述的方法,其中,测量推断操作的开销延迟的步骤包括:确定输入到选择的层的输入数据大小和从辅助层输出的输出数据大小;使用线性回归模型确定第一系数的第一值、第二系数的第二值和截距变量的第三值;和基于输入数据大小、输出数据大小、第一系数的第一值、第二系数的第二值和第三值来确定开销延迟。7.如权利要求1至6中的任一项所述的方法,还包括:生成包含所述神经网络的至少一个层的估计的延迟的查找表。8.一种用于估计神经处理器的延迟的方法,所述方法包括:由主机处理装置将辅助层添加到要在神经处理器中执行神经网络的选择的层;由神经处理器在辅助层上执行第一推断操作;由主机处理装置测量辅助层的第一推断操作的第一延迟;由神经处理器在选择的层和辅助层上执行第二推断操作;由主机处理装置测量选择的层和辅助层的第二推断操作的总延迟;和由主机处理装置从总延迟减去第一延迟,以生成对选择的层的延迟的估计。9.如权利要求7所述的方法,其中,辅助层包括池化层和卷积层中的至少一个。10.如权利要求7所述的方法,其中,神经处理器包括第一存储器,其中,主机处理装置结合到神经处理器,主机...

【专利技术属性】
技术研发人员:方俊力杨大卫
申请(专利权)人:三星电子株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1