一种编译器、AI网络编译方法、处理方法、执行系统技术方案

技术编号：37985237 阅读：32 留言：0更新日期：2023-06-30 10:00

本发明专利技术提供一种编译器、AI网络编译方法、处理方法、执行系统，其中，所述编译器在编译要加载到AI处理器上的AI网络时，被配置为执行如下步骤对所述AI网络进行编译：获取AI网络涉及的多个任务节点的节点信息；预估任意依赖连续的多个任务节点被合并为一个子网后对应的性能增益，并在性能增益为正收益时，将这些任务节点合并为一个子网，以及基于子网划分结果为子网生成对应的指令，其中，合并后的任意一个子网运行一次所需的内存小于或等于AI处理器片上内存。通过在编译期以AI处理器片上内存容量为基础，根据片上内存的容量进行合理的子网划分，使得每个子网可以基于片上内存执行，节约子网内任务节点间的数据搬运时间，处理方式高效且实用。高效且实用。高效且实用。

全部详细技术资料下载

【技术实现步骤摘要】
一种编译器、AI网络编译方法、处理方法、执行系统

[0001]本专利技术涉及计算机领域，具体来说，涉及一种编译器、AI网络编译方法、处理方法、执行系统。

技术介绍

[0002]对于用于运行AI网络的人工智能（AI）处理器，若AI处理器具有片上内存，并且AI网络能够基于AI处理器的片上内存运行，那么运行速度会很快。片上内存是处理器中的一块可以被快速访问、读写速度快的内存，相较于片外内存，具有低延迟、高带宽、低容量的特点。
[0003]由于片上内存的容量有限，容量非常小，因此如果期望利用片上内存的特点使得AI处理器能够高效率运行AI网络，AI网络在执行的时候所占用的内存就需要限定在片上内存的容量范围内，这就需要对AI网络进行划分，将AI网络划分为不同的子网，使得划分出来的整个子网运行所占用的内存限定在片上内存的范围内，从而提高AI网络的任务执行效率和速度。
[0004]但是，现有技术下，没有一个成熟的对AI网络进行合理子网划分的方案，虽然有类似于线性扫描的子网划分方案，但是线性扫描是由人工先验的方式选取较优的切分...

【技术保护点】

【技术特征摘要】
1.一种编译器，其特征在于，所述编译器在编译待加载到AI处理器上的AI网络时，被配置为执行如下步骤对所述AI网络进行编译：获取AI网络涉及的多个任务节点的节点信息，所述节点信息用于反映任务节点之间的依赖关系；为所述多个任务节点中存在依赖关系的相邻任务节点预估节点合并后对应的性能增益，并在性能增益为正收益时，将对应的相邻任务节点合并为一个子网，得到经过合并后含有子网的AI网络；其中，合并后得到的任意一个子网运行一次所需的内存小于或等于所述AI处理器的片上内存；为AI网络生成子网对应的指令。2.根据权利要求1所述的编译器，其特征在于，所述性能增益是指相邻任务节点在合并前的运行时钟之和、所述相邻任务节点合并为一个子网后的子网运行时钟的差值；其中，一个任务节点的运行时钟为从系统内存中搬运该任务节点所需数据到片上内存所需的时钟、该任务节点基于片上内存执行所需的时钟、将该任务节点的执行结果从片上内存搬运到系统内存所需的时钟三者之和；子网运行时钟为从系统内存中搬运该子网所需数据到片上内存所需的时钟、该子网基于片上内存执行所需的时钟、将该子网的执行结果从片上内存搬运到系统内存所需的时钟之和。3.根据权利要求2所述的编译器，其特征在于，所述编译器还被配置为：以AI网络中的一个任务节点为一个初始子网，获得AI网络的初始子网划分结果；基于初始子网划分结果，对AI网络进行多轮子网合并直至无合并性能增益以获得最终的子网划分结果，其中，每轮子网合并时，预估上一轮合并后得到的子网划分结果中任意两个相邻子网合并后的性能增益，并将其中性能增益为正收益且增益最大的两个相邻子网合并为一个新的子网；为所述最终的子网划分结果生成各子网对应的指令。4.根据权利要求2所述的编译器，其特征在于，所述编译器还被配置为：以AI网络的一个任务节点为一个初始子网，获得AI网络的初始子网划分结果；基于初始子网划分结果，对AI网络进行多轮子网合并直至无合并性能增益以获得最终的子网划分结果，其中，每轮合并时，预估上一轮合并后得到...

【专利技术属性】
技术研发人员：王鸥，彭凡，刘军，杨媛静，
申请(专利权)人：成都登临科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人