使用神经网络选择计算内核变量制造技术

技术编号：28980753 阅读：26 留言：0更新日期：2021-06-23 09:28

公开了使用神经网络选择计算内核变量。优化内核选择以执行计算的设备、系统和技术。在至少一个实施例中，训练并利用神经网络来生成内核列表，以便可以识别(例如，最佳的)内核。神经网络接收输入矩阵的特性，并确定可能内核的列表的相关性得分。基于按相关性得分排序的内核列表，从列表中选择一内核，并将其用于执行计算并提供结果。

全部详细技术资料下载

【技术实现步骤摘要】
使用神经网络选择计算内核变量
本申请总体上涉及选择最佳内核来对一组或更多组数学输入(诸如一个或更多个矩阵)执行计算。对于给定的计算，可以采用多种方法来执行该运算。通常，方法的性能可能取决于影响方法运行时间的多种因素。因此，针对给定的一组约束选择内核会极大地影响请求运算的应用程序的性能。
技术介绍
当对矩阵或一组矩阵执行计算时，许多因素会影响完成计算所花费的时间。因为可能存在多个内核来执行运算，所以通常很难评估要使用哪个内核来执行运算。通过选择效率低下的内核来执行计算，性能可能会低于最佳性能。因此，选择最佳内核对于使计算性能最大化很重要。但是，选择内核的时间和资源成本必须最小化，以防止选择过程占用比使用可能次佳的内核所节省的时间更多的时间。附图说明图1示出了可以在其中实现本文描述的实施例的示例环境；图2示出了根据本文描述的实施例的示例数据流；图3示出了其中可以实现本文描述的实施例的示例环境；图4示出了一个或更多个实施例的流程图；图5示出了一个或更多个实施例的流程图；图6示出了根据至少一个实施例的用于训练可以利用的图像合成网络的系统；图7示出了根据至少一个实施例的可以利用的统计模型的各层；图8示出了根据至少一个实施例的推理和/或训练逻辑；图9示出了根据至少一个实施例的推理和/或训练逻辑。具体实施方式当请求矩阵计算时，应用程序可能不了解可用于执行计算的各种内核。如本文所使用的，“内核”是指对输入数据执行数学计算的...

【技术保护点】
1.一种处理器，包括：/n一个或更多个算术逻辑单元(ALU)，配置为通过以下步骤执行矩阵计算：/n接收对所述矩阵计算的请求，所述请求包括至少一个矩阵和要执行的所述矩阵计算；/n向神经网络提供所述至少一个矩阵和所述矩阵计算的特性；/n使用所述神经网络生成经排名的内核列表，所述排名基于使用所述神经网络确定的所述经排名的列表中的每个内核的相关性得分；/n从所述经排名的内核列表中选择第一内核；/n使用所述至少一个矩阵和所述第一内核生成所述矩阵计算的结果；以及/n提供所述结果。/n

【技术特征摘要】
20191220 US 16/723,6081.一种处理器，包括：
一个或更多个算术逻辑单元(ALU)，配置为通过以下步骤执行矩阵计算：
接收对所述矩阵计算的请求，所述请求包括至少一个矩阵和要执行的所述矩阵计算；
向神经网络提供所述至少一个矩阵和所述矩阵计算的特性；
使用所述神经网络生成经排名的内核列表，所述排名基于使用所述神经网络确定的所述经排名的列表中的每个内核的相关性得分；
从所述经排名的内核列表中选择第一内核；
使用所述至少一个矩阵和所述第一内核生成所述矩阵计算的结果；以及
提供所述结果。

2.根据权利要求1所述的处理器，其中所述一个或更多个ALU进一步配置为通过以下步骤执行所述矩阵计算：
基于所述至少一个矩阵和所述矩阵计算生成候选内核列表；以及
将所述候选内核列表提供给具有所述至少一个矩阵和所述矩阵计算的所述特性的所述神经网络，其中所生成的所述经排名的内核列表仅包括所述候选内核列表中包括的内核。

3.根据权利要求1所述的处理器，其中所述一个或更多个ALU进一步配置为通过以下步骤执行所述矩阵计算：
识别配置为生成所述结果的内核处理器；
基于所述内核处理器的一个或更多个硬件约束从所述候选内核列表中移除一个或更多个内核。

4.根据权利要求1所述的处理器，其中通过应用程序接口(API)接收所述请求。

5.根据权利要求1所述的处理器，其中所述一个或更多个ALU进一步配置为通过以下步骤执行所述矩阵计算：
识别硬件行为信息；以及
将所述硬件行为信息提供给具有所述至少一个矩阵和所述矩阵计算的特性的所述神经网络。

6.根据权利要求1所述的处理器，其中所述矩阵计算是通用矩阵乘法(GeMM)。

7.根据权利要求1所述的处理器，其中所述一个或更多个ALU进一步配置为通过以下步骤执行所述矩阵计算：
确定用于所述至少一个矩阵和所述矩阵计算的第二内核；
由所述神经网络将所述经排名的内核列表与所述第二内核进行比较；以及
基于所述至少一个矩阵和所述第二内核生成用于所述神经网络的附加的训练数据。

8.根据权利要求7所述的处理器，其中生成所述附加的训练数据包括：
确定所述至少一个矩阵的类别；
基于所述类别生成输入；以及
将所述附加的训练数据提供给所述神经网络。

9.一种系统，包括：
一个或更多个处理器，配置为使用一个或更多个神经网络执行：
接收对矩阵计算的请求，所述请求包括至少一个矩阵和要执行的所述矩阵计算；
向神经网络提供所述至少一个矩阵和所述矩阵计算的特性；
使用所述神经网络生成经排名的内核列表，所述排名基于使用所述神经网络确定的所述经排名的列表中的每个内核的相关性得分；
从所述经排名的内核列表中选择第一内核；
使用所述至少一个矩阵和所述第一内核生成所述矩阵计算的结果；以及
提供所述结果；和
一个或更多个存储器，用于存储与所述一个或更多个神经网络相对应的参数。

【专利技术属性】
技术研发人员：J·巴克，C·程，P·施普林格，W·雅布伦斯基，
申请(专利权)人：辉达公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人