神经网络的内核生成制造技术

技术编号：35335393 阅读：17 留言：0更新日期：2022-10-26 11:55

公开了神经网络的内核生成，具体公开了用于自动生成用于执行一个或更多个神经网络的运算的数量减少的计算内核的装置、系统和技术。在至少一个实施例中，一个或更多个神经网络的一个或更多个神经网络图节点的一个或更多个运算被自动调整以生成经优化的一个或更多个运算，这些运算被编译以生成数量减少的计算内核。算内核。算内核。

全部详细技术资料下载

【技术实现步骤摘要】
神经网络的内核生成

[0001]至少一个实施例涉及用于执行和促进人工智能的处理资源。例如，至少一个实施例涉及用于根据本文描述的各种新技术训练和使用神经网络的处理器或计算系统。

技术介绍

[0002]神经网络的计算内核用于执行神经网络的各个单元的功能。大多数计算内核都是通过手动编程计算内核来优化的，这既低效又耗时。此外，深度神经网络自动生成内核的先前尝试生成了低效的计算内核，单个神经网络单元具有若干单独的内核，这通过需要每个内核从神经网络的全局内存中重复加载输入张量以及每个内核对神经网络的全局内存的重复写入来阻碍深度神经模型的性能。
附图说明
[0003]图1A示出了根据至少一个实施例的推理和/或训练逻辑；
[0004]图1B示出了根据至少一个实施例的推理和/或训练逻辑；
[0005]图2示出了根据至少一个实施例的神经网络的训练和部署；
[0006]图3A是根据至少一个实施例的通过基于满足一个或更多个调整标准执行调整来优化神经网络单元的运算集的过程的流程图；
[0007]图3B是根据至少一个实施例的用于优化神经网络单元的运算集以生成用于执行所述运算集的数量减少的计算内核的过程的流程图；
[0008]图4是示出根据至少一个实施例的可以被优化以生成用于执行所述神经网络单元的运算的单个计算内核模块的神经网络单元的图的框图；
[0009]图5是示出根据至少一个实施例的神经网络单元的图的框图，该神经网络单元的图被优化以生成单个计算内核模块，该单个计算内核模块用于通过...

【技术保护点】

【技术特征摘要】
1.一种处理器，包括：一个或更多个电路，用于至少部分地基于一个或更多个神经网络图节点中的哪些神经网络图节点能够由第一数量的计算内核模块执行来使所述第一数量的计算内核模块被用于执行所述一个或更多个神经网络图节点。2.如权利要求1所述的处理器，其中所述一个或更多个神经网络图节点包括用于与神经网络的一个或更多个单元中的单元相关联的神经网络图的多个神经网络图节点。3.如权利要求2所述的处理器，其中为了使所述第一数量的计算内核模块执行所述一个或更多个神经网络图节点，所述一个或更多个电路进一步用于自动调整所述多个神经网络图节点中的一个或更多个神经网络图节点的一个或更多个运算，以编译所述第一数量的计算内核模块。4.如权利要求3所述的处理器，其中为了自动调整所述一个或更多个运算，所述一个或更多个电路进一步用于：将所述一个或更多个运算中的矩阵
‑
向量乘法运算替换为包括重塑运算、逐元素乘法运算和求和缩减运算的运算序列。5.如权利要求3所述的处理器，其中为了自动调整所述一个或更多个运算，所述一个或更多个电路进一步用于：将所述一个或更多个运算中的矩阵
‑
矩阵乘法运算替换为包括多个重塑运算、逐元素乘法运算和求和缩减运算的运算序列。6.如权利要求3所述的处理器，其中为了自动调整所述一个或更多个运算，所述一个或更多个电路进一步用于：在所述一个或更多个运算中，将包括两个求和缩减运算和第一加法运算的第一运算序列替换为包括复制运算、串接运算、第二加法运算和求和缩减运算的第二运算序列。7.如权利要求3所述的处理器，其中为了自动调整所述一个或更多个运算，所述一个或更多个电路进一步用于：调整包括求和缩减运算后跟切片运算的第一运算序列，以通过将所述切片运算从所述求和缩减运算之后的第一位置移动到所述求和缩减运算之前的第二位置来生成第二运算序列。8.如权利要求3所述的处理器，其中所述一个或更多个电路进一步用于：从所述多个神经网络图节点中的所述一个或更多个神经网络图节点的一个或更多个运算中去除未使用的运算。9.如权利要求3所述的处理器，其中所述一个或更多个电路进一步用于：基于所述经调整的一个或更多个运算，通过编译包括所述经调整的一个或更多个运算的软件代码，生成用于执行所述单元的所述图的所述第一数量的计算内核模块。10.如权利要求3所述的处理器，其中所述第一数量的计算内核模块是单个计算内核模块。11.如权利要求2所述的处理器，其中所述单元是长短期记忆(LSTM)单元，并且其中所述第一数量的计算内核模块是单个计算内核模块。12.一种方法，包括：由处理设备至少部分地基于第一数量的计算内核模块能够执行一个或更多个神经网
络图节点中的哪些神经网络图节点，使得所述第一数量的计算内核模块被用于执行所述一个或更多个神经网络图节点。13.如权利要求12所述的方法，其中所述一个或更多个神经网络图节点包括用于与神经网络的一个或更多个单元中的单元相关联的神经网络图的多个神经网络图节点。14.如权利要求13所述的方法，其中使所述第一数量的计算内核模块执行所述一个或更多个神经网络图节点还包括：自动调整所述多个神经网络图节点中的一个或更多个神经网络图节点的一个或更多个运算，以编译所述第一数量的计算内核模块。15.如权利要求14所述的方法，其中自动调整所述一个或更多个运算进一步包括：将所述一个或更多个运算中的矩阵
‑
向量乘法运算替换为包括重塑运算、逐...

【专利技术属性】
技术研发人员：R，
申请(专利权)人：辉达公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人