当前位置: 首页 > 专利查询>辉达公司专利>正文

神经网络的内核生成制造技术

技术编号:35335393 阅读:17 留言:0更新日期:2022-10-26 11:55
公开了神经网络的内核生成,具体公开了用于自动生成用于执行一个或更多个神经网络的运算的数量减少的计算内核的装置、系统和技术。在至少一个实施例中,一个或更多个神经网络的一个或更多个神经网络图节点的一个或更多个运算被自动调整以生成经优化的一个或更多个运算,这些运算被编译以生成数量减少的计算内核。算内核。算内核。

【技术实现步骤摘要】
神经网络的内核生成


[0001]至少一个实施例涉及用于执行和促进人工智能的处理资源。例如,至少一个实施例涉及用于根据本文描述的各种新技术训练和使用神经网络的处理器或计算系统。

技术介绍

[0002]神经网络的计算内核用于执行神经网络的各个单元的功能。大多数计算内核都是通过手动编程计算内核来优化的,这既低效又耗时。此外,深度神经网络自动生成内核的先前尝试生成了低效的计算内核,单个神经网络单元具有若干单独的内核,这通过需要每个内核从神经网络的全局内存中重复加载输入张量以及每个内核对神经网络的全局内存的重复写入来阻碍深度神经模型的性能。
附图说明
[0003]图1A示出了根据至少一个实施例的推理和/或训练逻辑;
[0004]图1B示出了根据至少一个实施例的推理和/或训练逻辑;
[0005]图2示出了根据至少一个实施例的神经网络的训练和部署;
[0006]图3A是根据至少一个实施例的通过基于满足一个或更多个调整标准执行调整来优化神经网络单元的运算集的过程的流程图;
[0007]图3B是根据至少一个实施例的用于优化神经网络单元的运算集以生成用于执行所述运算集的数量减少的计算内核的过程的流程图;
[0008]图4是示出根据至少一个实施例的可以被优化以生成用于执行所述神经网络单元的运算的单个计算内核模块的神经网络单元的图的框图;
[0009]图5是示出根据至少一个实施例的神经网络单元的图的框图,该神经网络单元的图被优化以生成单个计算内核模块,该单个计算内核模块用于通过将矩阵向量乘法运算替换为包括求和缩减运算的运算序列来执行所述神经网络单元的运算;
[0010]图6是示出根据至少一个实施例的神经网络单元的图的框图,该神经网络单元的图被优化以生成单个计算内核模块,该单个计算内核模块用于通过将包括两个求和缩减运算的序列替换为包括加法运算和求和缩减运算的另一运算序列来执行所述神经网络单元的运算;
[0011]图7是示出根据至少一个实施例的神经网络单元的图的框图,该神经网络单元的图被优化以生成单个计算内核模块,该单个计算内核模块用于通过先于前面的求和运算执行切片运算来执行所述神经网络单元的运算;
[0012]图8是根据至少一个实施例的通过生成和编译与将由单个计算内核执行的神经网络单元的图的一组优化运算相对应的软件代码来生成用于执行所述图的所述单个计算内核的过程的流程图;
[0013]图9示出了根据至少一个实施例的示例数据中心系统;
[0014]图10A示出了根据至少一个实施例的自主车辆的示例;
[0015]图10B示出了根据至少一个实施例的图10A的自主车辆的相机位置和视野的示例;
[0016]图10C是根据至少一个实施例的示出图10A的自主车辆的示例系统架构的框图;
[0017]图10D是根据至少一个实施例的示出用于一个或更多个基于云的服务器与图10A的自主车辆之间进行通信的系统的图;
[0018]图11是根据至少一个实施例的示出计算机系统的框图;
[0019]图12是根据至少一个实施例的示出计算机系统的框图;
[0020]图13示出了根据至少一个实施例的计算机系统;
[0021]图14示出了根据至少一个实施例的计算机系统;
[0022]图15A示出了根据至少一个实施例的计算机系统;
[0023]图15B示出了根据至少一个实施例的计算机系统;
[0024]图15C示出了根据至少一个实施例的计算机系统;
[0025]图15D示出了根据至少一个实施例的计算机系统;
[0026]图15E和图15F示出了根据至少一个实施例的共享编程模型;
[0027]图16示出了根据至少一个实施例的示例性集成电路和相关的图形处理器;
[0028]图17A

图17B示出了根据至少一个实施例的示例性集成电路和相关联的图形处理器;
[0029]图18A

图18B示出了根据至少一个实施例的附加的示例性图形处理器逻辑;
[0030]图19示出了根据至少一个实施例的计算机系统;
[0031]图20A示出了根据至少一个实施例的并行处理器;
[0032]图20B示出了根据至少一个实施例的分区单元;
[0033]图20C示出了根据至少一个实施例的处理集群;
[0034]图20D示出了根据至少一个实施例的图形多处理器;
[0035]图21示出了根据至少一个实施例的多图形处理单元(GPU)系统;
[0036]图22示出了根据至少一个实施例的图形处理器;
[0037]图23是根据至少一个实施例的示出用于处理器的处理器微架构的框图;
[0038]图24示出了根据至少一个实施例的深度学习应用程序处理器;
[0039]图25是根据至少一个实施例的示出了示例神经形态处理器的框图;
[0040]图26示出了根据一个或更多个实施例的图形处理器的至少部分;
[0041]图27示出了根据一个或更多个实施例的图形处理器的至少部分;
[0042]图28示出了根据一个或更多个实施例的图形处理器的至少部分;
[0043]图29是根据至少一个实施例的示出了图形处理器的图形处理引擎的框图;
[0044]图30是根据至少一个实施例的示出了图形处理器核心的至少部分的框图;
[0045]图31A

图31B示出了根据至少一个实施例的线程执行逻辑,其包括图形处理器核心的处理元件的阵列;
[0046]图32示出了根据至少一个实施例的并行处理单元(“PPU”);
[0047]图33示出了根据至少一个实施例的通用处理集群(“GPC”);
[0048]图34示出了根据至少一个实施例的并行处理单元(“PPU”)的存储器分区单元;
[0049]图35示出了根据至少一个实施例的流式多处理器;
[0050]图36是根据至少一个实施例的高级计算管线的示例数据流图;
[0051]图37是根据至少一个实施例的用于在高级计算管线中训练、适应、实例化和部署机器学习模型的示例系统的系统图;
[0052]图38包括根据至少一个实施例的用于处理成像数据的部署管线的示例说明;
[0053]图39A包括根据至少一个实施例的支持超声设备的虚拟仪器的示例数据流图;以及
[0054]图39B包括根据至少一个实施例的支持CT扫描仪的虚拟仪器的示例数据流图。
具体实施方式
[0055]推理和训练逻辑
[0056]图1A示出了用于执行与一个或更多个实施例相关联的推理和/或训练操作的推理和/或训练逻辑115。下面结合图1A和/或图1B提供关于推理和/或训练逻辑115的细节。
[0057]在至少一个实施例中,推理和/或训练逻辑115可以包括但不限于代码和/或数据存储101,用于存储前向和/或输出本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种处理器,包括:一个或更多个电路,用于至少部分地基于一个或更多个神经网络图节点中的哪些神经网络图节点能够由第一数量的计算内核模块执行来使所述第一数量的计算内核模块被用于执行所述一个或更多个神经网络图节点。2.如权利要求1所述的处理器,其中所述一个或更多个神经网络图节点包括用于与神经网络的一个或更多个单元中的单元相关联的神经网络图的多个神经网络图节点。3.如权利要求2所述的处理器,其中为了使所述第一数量的计算内核模块执行所述一个或更多个神经网络图节点,所述一个或更多个电路进一步用于自动调整所述多个神经网络图节点中的一个或更多个神经网络图节点的一个或更多个运算,以编译所述第一数量的计算内核模块。4.如权利要求3所述的处理器,其中为了自动调整所述一个或更多个运算,所述一个或更多个电路进一步用于:将所述一个或更多个运算中的矩阵

向量乘法运算替换为包括重塑运算、逐元素乘法运算和求和缩减运算的运算序列。5.如权利要求3所述的处理器,其中为了自动调整所述一个或更多个运算,所述一个或更多个电路进一步用于:将所述一个或更多个运算中的矩阵

矩阵乘法运算替换为包括多个重塑运算、逐元素乘法运算和求和缩减运算的运算序列。6.如权利要求3所述的处理器,其中为了自动调整所述一个或更多个运算,所述一个或更多个电路进一步用于:在所述一个或更多个运算中,将包括两个求和缩减运算和第一加法运算的第一运算序列替换为包括复制运算、串接运算、第二加法运算和求和缩减运算的第二运算序列。7.如权利要求3所述的处理器,其中为了自动调整所述一个或更多个运算,所述一个或更多个电路进一步用于:调整包括求和缩减运算后跟切片运算的第一运算序列,以通过将所述切片运算从所述求和缩减运算之后的第一位置移动到所述求和缩减运算之前的第二位置来生成第二运算序列。8.如权利要求3所述的处理器,其中所述一个或更多个电路进一步用于:从所述多个神经网络图节点中的所述一个或更多个神经网络图节点的一个或更多个运算中去除未使用的运算。9.如权利要求3所述的处理器,其中所述一个或更多个电路进一步用于:基于所述经调整的一个或更多个运算,通过编译包括所述经调整的一个或更多个运算的软件代码,生成用于执行所述单元的所述图的所述第一数量的计算内核模块。10.如权利要求3所述的处理器,其中所述第一数量的计算内核模块是单个计算内核模块。11.如权利要求2所述的处理器,其中所述单元是长短期记忆(LSTM)单元,并且其中所述第一数量的计算内核模块是单个计算内核模块。12.一种方法,包括:由处理设备至少部分地基于第一数量的计算内核模块能够执行一个或更多个神经网
络图节点中的哪些神经网络图节点,使得所述第一数量的计算内核模块被用于执行所述一个或更多个神经网络图节点。13.如权利要求12所述的方法,其中所述一个或更多个神经网络图节点包括用于与神经网络的一个或更多个单元中的单元相关联的神经网络图的多个神经网络图节点。14.如权利要求13所述的方法,其中使所述第一数量的计算内核模块执行所述一个或更多个神经网络图节点还包括:自动调整所述多个神经网络图节点中的一个或更多个神经网络图节点的一个或更多个运算,以编译所述第一数量的计算内核模块。15.如权利要求14所述的方法,其中自动调整所述一个或更多个运算进一步包括:将所述一个或更多个运算中的矩阵

向量乘法运算替换为包括重塑运算、逐...

【专利技术属性】
技术研发人员:R
申请(专利权)人:辉达公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1