一种用于对神经网络中的算子进行融合的方法和相关产品技术

技术编号：38741699 阅读：9 留言：0更新日期：2023-09-08 23:26

本公开提供一种用于对神经网络中的算子进行融合的方法和相关产品，其中该方法可以包括在组合处理装置中，该组合处理装置还可以包括通用互联接口和其他处理装置。所述计算装置与其他处理装置进行交互，共同完成用户指定的计算操作。组合处理装置还可以包括存储装置，该存储装置分别与设备和其他处理装置连接，用于存储该设备和其他处理装置的数据。于存储该设备和其他处理装置的数据。于存储该设备和其他处理装置的数据。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于对神经网络中的算子进行融合的方法和相关产品

[0001]本公开涉及人工智能领域，更具体地，涉及神经网络中算子的融合。

技术介绍

[0002]深度学习算法由一个个计算单元组成，我们称这些计算单元为算子(Operator，简称OP)。神经网络中的数据通常表示为张量(Tensor)。张量具有不同的形状，可以通过形状算子(Shape OP)来对张量的形状进行描述，比如形状(3，4)表示第一维有3个元素，第二维有4个元素，是一个3行4列的矩阵数组。在形状中有多少个数字，就代表这个张量有多少维。例如，shape＝(5,20,30,3)可以具有如下物理含义：可以表述有5张照片，这就是shape算子里5的含义；每张照片的宽为20，高为30，也就是每张照片具有20*30＝600个像素；每个像素点都由红/绿/蓝3色组成，这就是shape算子里面3的含义。
[0003]在一个深度学习的网络中，经常存在较多的形状算子，其输出结果并不参与核心的计算。shape算子会搭配Gather、slice、add、Div、pack等算子组合使用，常见有三类与形状相关的算子：提取、拼接、数值计算，以实现数据定位、参数传递和矩阵变形等功能。与形状相关的算子虽然主要涉及简单的计算，但是多次启动kernel，以及小数据量的搬运都会造成I/O带宽利用率低，并且会使网络的融合粒度变小，从而使得网络的性能较差。

技术实现思路

[0004]本公开的一个目的在于减少由于多次启动kernel而造成的I/O带宽利用率低的问题。
[000

【技术保护点】

【技术特征摘要】
1.一种用于对神经网络中的算子进行融合的方法，包括：在神经网络中搜索形状算子以及与形状算子相关的形状操作算子，其中，形状操作算子的入度取决于所述形状操作算子的输入的数量；循环地执行提取操作：提取调整后入度为0的形状算子或形状操作算子；更新形状操作算子的入度以得到调整后入度，直到不存在调整后入度为0的形状操作算子；以及针对相同形状算子，将最新的调整后入度为0的形状操作算子作为所述相同形状算子的输出形状操作算子，以针对所述相同形状算子来实现形状操作算子的融合。2.根据权利要求1所述的方法，进一步包括：将搜索到的形状算子和形状操作算子置入到存储库中，以便于从所述存储库中提取形状操作算子。3.根据权利要求1或2所述的方法，其中，所述形状算子的入度被初始化为0。4.根据权利要求1
‑
3中任意一项所述的方法，其中，所述形状操作算子的入度为去除常量输入之后其他输入的数量。5.根据权利要求1
‑
4中任意一项所述的方法，其中，更新形状操作算子的入度以得到调整后入度包括：在形状操作算子与前驱算子的输出之间建立矩阵函数关系；响应于建立了矩阵函数关系，对形状操作算子的入度进行递减。6.根据权利要求5所述的方法，其中，所述矩阵函数关系包括乘法关系和加法关系。7.根据权利要求6所述的方法，其中，矩阵的元素以整数来表示。8.根据权利要求1
‑
7中任意一项所述的方法，其中，循环地执行提取操作还包括：将当前调整后入度为0的形状操作算子提取到单独的列表中。9...

【专利技术属性】
技术研发人员：请求不公布姓名，
申请(专利权)人：上海寒武纪信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人