用于神经网络模型的数据处理方法、服务器、设备及介质技术

技术编号:43761115 阅读:24 留言:0更新日期:2024-12-24 16:04
本申请涉及人工智能技术领域,具体提供一种用于神经网络模型的数据处理方法、服务器、设备及介质,旨在解决如何基于移动设备的CPU对神经网络模型进行注意力计算的问题。本申请提供的方法包括根据神经网络模型的模型文件获取第一计算图,第一计算图用于描述神经网络模型的所有算子以及各算子之间的连接关系;获取第一计算图中的多个目标算子,多个目标算子为用于Transformer模块进行注意力计算的多个算子;对多个目标算子对应的计算操作进行融合,以形成一个融合算子,融合算子用于移动设备的CPU执行计算操作;将多个目标算子替换为融合算子得到第二计算图。通过上述方法可以基于CPU执行融合算子对应的计算操作,提高注意力计算的速度,从而提高模型推理速度。

【技术实现步骤摘要】

本申请涉及人工智能,具体涉及一种用于神经网络模型的数据处理方法、服务器、设备及介质


技术介绍

1、随着神经网络模型的快速发展,手机、车机等移动设备上也开始逐渐部署神经网络模型,在移动设备上利用神经网络模型可以实现文本生成、智能回复等功能。

2、对于采用transformer网络架构的神经网络模型而言,神经网络模型通常会设置多个transformer模块,transformer模块涉及的运算中注意力(attention)计算是最核心,也是运算量最大的,因此,通常会对注意力计算进行优化,减少注意力计算的运算量,从而提高神经网络模型的推理速度。但是,目前对于注意力计算主要是由gpu(graphicsprocessing unit)来实现,因此,对于注意力计算的优化方法也是基于gpu实现的,很少有利用cpu(central processing unit)实现注意力计算的方法,更加没有基于cpu对注意力计算进行优化,以提高神经网络模型推理速度的方法。例如,论文《fast and memory-efficient exact attention wit本文档来自技高网...

【技术保护点】

1.一种用于神经网络模型的数据处理方法,其特征在于,应用于服务器,所述神经网络模型为用于部署在移动设备上的神经网络模型,所述神经网络模型包括Transformer模块,所述方法包括:

2.根据权利要求1所述的用于神经网络模型的数据处理方法,其特征在于,各所述算子之间的连接关系用于描述各所述算子之间的输入和输出关系,所述获取所述第一计算图中的多个目标算子,包括:

3.根据权利要求1所述的用于神经网络模型的数据处理方法,其特征在于,所述多个目标算子包括依次连接的矩阵转置算子、第一矩阵乘法算子、除法算子、加法算子、归一化算子和第二矩阵乘法算子;>

4.根据权利...

【技术特征摘要】

1.一种用于神经网络模型的数据处理方法,其特征在于,应用于服务器,所述神经网络模型为用于部署在移动设备上的神经网络模型,所述神经网络模型包括transformer模块,所述方法包括:

2.根据权利要求1所述的用于神经网络模型的数据处理方法,其特征在于,各所述算子之间的连接关系用于描述各所述算子之间的输入和输出关系,所述获取所述第一计算图中的多个目标算子,包括:

3.根据权利要求1所述的用于神经网络模型的数据处理方法,其特征在于,所述多个目标算子包括依次连接的矩阵转置算子、第一矩阵乘法算子、除法算子、加法算子、归一化算子和第二矩阵乘法算子;

4.根据权利要求3所述的用于神经网络模型的数据处理方法,其特征在于,所述对所述多个目标算子对应的计算操作进行融合,以形成一个融合算子,包括:

5.根据权利要求4所述的用于神经网络模型的数据处理方法,其特征在于,所述将所述第一计算图中的所述多个目标算子替换为所述融合算子,得到所述神经网络模型的第二计算图,包括:

6.一种用于神经网络模型的数据处理方法,其特征在于,应用于移动设备,所述神经网络模型为部署在所述移动设备上的神经网络模型,所述神经网络模型包括transformer模块,所述方法包括:

7.根据权利要求6所述的用于神经网络模型的数据处理方法,其特征在于,所述目标计算图中融合算子的输入张量存储在所述移动设备的栈内存,所述依...

【专利技术属性】
技术研发人员:刘盛清柳浩陈玺君
申请(专利权)人:蔚锐科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1