【技术实现步骤摘要】
一种基于神经网络模型的推理方法、装置、设备及介质
[0001]本专利技术涉及神经网络
,尤其涉及一种基于神经网络模型的推理方法
、
装置
、
设备及介质
。
技术介绍
[0002]随着智能技术的发展,神经网络模型在诸多领域得到了广泛应用
。
例如,大模型在对话领域
、
图像理解
、
图像生成
、
代码生成或者多模态领域中的应用
。
[0003]但是,随着网络模型功能的复杂化,神经网络模型尤其是大模型的体积远超计算设备的存储容量
。
现有技术中,通过模型并行方式,采用多计算设备同时运行,才能完成模型推理
。
[0004]然而,多计算设备同时运行的方式,提高了大模型推理的成本,让成本敏感型用户对大模型的应用望而却步
。
技术实现思路
[0005]本专利技术提供了一种基于神经网络模型的推理方法
、
装置
、
设备及介质, ...
【技术保护点】
【技术特征摘要】
1.
一种基于神经网络模型的推理方法,其特征在于,包括:对神经网络模型进行结构分析,确定所述神经网络模型中具有相同结构的第一目标网络层,以及不同结构的第二目标网络层;根据所述第一目标网络层和所述第二目标网络层对所述神经网络模型进行网络层拆分,得到与所述第一目标网络层和所述第二目标网络层分别对应的第一计算子图和第二计算子图;根据所述第一计算子图生成与所述第一目标网络层对应的共用引擎文件,以及各所述第一目标网络层的权重参数;根据所述第二计算子图生成与所述第二目标网络层对应的独立引擎文件;其中,所述独立引擎文件中包括所述第二目标网络层的权重参数;根据各计算子图的执行顺序,通过所述共用引擎文件
、
各所述第一目标网络层的权重参数
、
以及所述独立引擎文件,进行推理计算,得到推理结果
。2.
根据权利要求1所述的方法,其特征在于,根据所述第一计算子图生成与所述第一目标网络层对应的共用引擎文件,以及各所述第一目标网络层的权重参数,包括:预估单个第一目标网络层在神经网络模型推理中所需的静态存储容量和动态存储容量;根据计算设备的设备存储容量
、
所述静态存储容量和所述动态存储容量,确定所述计算设备能够容纳第一目标网络层的设备容纳层数;根据所述第一计算子图以及所述设备容纳层数,生成与所述第一目标网络层对应的共用引擎文件,以及各所述第一目标网络层的权重参数
。3.
根据权利要求2所述的方法,其特征在于,根据所述第一计算子图以及所述设备容纳层数,生成与所述第一目标网络层对应的共用引擎文件,以及各所述第一目标网络层的权重参数,包括:确定所述神经网络模型中所述第一目标网络层的模型网络层数;选取小于等于所述设备容纳层数,且能够被所述模型网络层数整除的目标网络层数;根据所述第一计算子图以及所述目标网络层数,生成与所述第一目标网络层对应的共用引擎文件,以及各所述第一目标网络层的权重参数
。4.
根据权利要求1所述的方法,其特征在于,根据各计算子图的执行顺序,通过所述共用引擎文件
、
各所述第一目标网络层的权重参数
、
以及所述独立引擎文件,进行推理计算,得到推理结果,包括:根据各计算子图的执行顺序,获取前一推理结果,并选取所述共用引擎文件或者所述独立引擎文件;如果选取所述共用引擎文件,则在各所述第一目标网络层中确定当前推理计算对应的当前网络层,加载所述当前网络层的当前权重参数;根据所述当前权重参数以及所述共用引擎文件,生成所述当前网络层的当前引擎文件;根据所述当前引擎文件以及所述前一推理结果,进行推理计算,得到当前推理结果;如果选取所述独立引擎文件,则根据所述独立引擎文件以及所述前一推理结果,进行推理计算,得到当前推理结果
。
5.
根据权利要求4所述的方法,其特征在于,计算设备能够虚拟成至少两个虚拟设备;根据各计算子图的执行顺序,通过所述共用引擎文件
、
各所述第一目标网络层的权重参数
...
【专利技术属性】
技术研发人员:解易,张亚林,
申请(专利权)人:燧原智能科技成都有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。