分布式模型推理方法、装置、设备、存储介质以及程序产品制造方法及图纸

技术编号:37676319 阅读:27 留言:0更新日期:2023-05-26 04:41
本公开提供了一种分布式模型推理方法、装置、设备、存储介质以及程序产品,涉及数据处理技术领域,尤其涉及人工智能、深度学习、分布式技术领域。具体实现方案为:根据分布式训练策略和与多个分布式训练计算单元关联的模型组网子数据,确定针对目标计算单元的模型组网数据;根据分布式训练策略和与多个分布式训练计算单元关联的模型子参数,确定针对目标计算单元的模型参数;根据模型组网数据和模型参数,确定针对目标计算单元的第一目标模型计算图;将第一目标模型计算图发送至多个分布式推理计算单元;接收到来自分布式模型推理计算单元的目标推理结果,其中,目标推理结果是根据待验证数据、第一目标模型计算图以及分布式推理策略确定的。策略确定的。策略确定的。

【技术实现步骤摘要】
分布式模型推理方法、装置、设备、存储介质以及程序产品


[0001]本公开涉及数据处理
,尤其涉及人工智能、深度学习、分布式
,具体涉及一种分布式模型推理方法、装置、设备、存储介质以及程序产品。

技术介绍

[0002]随着人工智能技术的发展,深度学习作为人工智能的一个重要分支在例如计算机视觉、智能推荐以及自然语言等场景具有广泛应用前景。深度学习模型不断优化更迭,随之带来模型参数规模和相关数据量的快速攀升,如何应对模型数据量的增加成为一个亟需解决的技术问题。

技术实现思路

[0003]本公开提供了一种分布式模型推理方法、装置、设备、存储介质以及程序产品。
[0004]根据本公开的一方面,提供了一种分布式模型推理方法,包括:根据分布式训练策略和与多个分布式训练计算单元关联的模型组网子数据,确定针对目标计算单元的模型组网数据;根据分布式训练策略和与多个分布式训练计算单元关联的模型子参数,确定针对目标计算单元的模型参数;根据模型组网数据和模型参数,确定针对目标计算单元的第一目标模型计算图;将第一目标模型计算图发送至多个本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种分布式模型推理方法,包括:根据分布式训练策略和与多个分布式训练计算单元关联的模型组网子数据,确定针对目标计算单元的模型组网数据;根据所述分布式训练策略和与多个所述分布式训练计算单元关联的模型子参数,确定所述针对目标计算单元的模型参数;根据所述模型组网数据和所述模型参数,确定针对目标计算单元的第一目标模型计算图;将所述第一目标模型计算图发送至多个分布式推理计算单元;接收到来自分布式模型推理计算单元的目标推理结果,其中,所述目标推理结果是根据待验证数据、所述第一目标模型计算图以及分布式推理策略确定的。2.根据权利要求1所述的方法,其中,所述分布式训练策略包括张量模型并行策略;所述方法还包括:确定所述张量模型并行策略对应的多个第一分布式训练计算单元;针对任意一个所述第一分布式训练计算单元,根据所述张量模型并行策略,确定目标网络层的网络层参数子张量维度,其中,所述网络层参数子张量维度表征对目标网络层的全量参数张量进行划分得到的部分参数张量的维度;针对任意一个所述第一分布式训练计算单元,根据所述参数子张量维度和目标网络层,确定所述模型组网子数据。3.根据权利要求2所述的方法,其中,所述根据分布式训练策略和与多个分布式训练计算单元关联的模型组网子数据,确定针对目标计算单元的模型组网数据包括:根据所述张量模型并行策略对应的多个所述第一分布式训练计算单元,连接每一个所述目标网络层的所述网络层参数子张量维度,得到所述目标网络层的参数张量全量维度;根据所述目标网络层和所述参数张量全量维度,确定针对所述目标计算单元的所述模型组网数据。4.根据权利要求2所述的方法,其中,所述根据所述分布式训练策略和与多个所述分布式训练计算单元关联的模型子参数,确定所述针对目标计算单元的模型参数包括:根据第一分布式训练计算单元参数列表,确定每一个所述第一分布式训练计算单元的所述目标网络层的参数子张量;根据针对多个所述第一分布式训练计算单元的第一全局索引,确定每一个所述目标网络层的全量参数张量,其中,所述全量参数张量包括多个所述参数子张量,所述第一全局索引表征任意一个所述目标网络层的全局参数张量与多个所述第一分布式训练计算单元的映射关系。5.根据权利要求1所述的方法,其中,所述分布式训练策略包括流水线并行策略;所述方法还包括:确定所述流水线并行策略对应的多个第二分布式训练计算单元;针对任意一个所述第二分布式训练计算单元,根据所述流水线并行策略,确定子网络层和所述子网络层对应的参数张量维度,其中,所述子网络层是对全量网络层进行划分得到的;针对任意一个所述第二分布式训练计算单元,根据所述子网络层和所述子网络层对应
的参数张量维度,确定所述模型组网子数据。6.根据权利要求5所述的方法,其中,所述根据分布式训练策略和与多个分布式训练计算单元关联的模型组网子数据,确定针对目标计算单元的模型组网数据包括:根据所述流水线并行策略对应的多个所述第二分布式训练计算单元,连接所述子网络层,得到全量网络层;根据所述全量网络层和所述子网络层对应的参数张量维度,确定针对所述目标计算单元的所述模型组网数据。7.根据权利要求6所述的方法,其中,所述根据所述分布式训练策略和与多个所述分布式训练计算单元关联的模型子参数,确定所述针对目标计算单元的模型参数包括:根据第二分布式训练计算单元参数列表,确定每一个所述第二分布式训练计算单元的所述子网络层的参数张量;根据针对多个所述第二分布式训练计算单元的第二全局索引,确定所述全量网络层的参数张量;其中,所述全量网络层的参数张量包括多个所述子网络层的参数张量,所述第二全局索引表征所述全量网络层的参数张量与多个所述第二分布式训练计算单元的映射关系。8.根据权利要求1

7中任一项所述的方法,所述第一目标模型计算图利用动态计算图表征;所述方法还包括:对利用所述动态计算图表征的所述第一目标模型计算图进行转换,得到利用静态计算图表征的所第一目标模型计算图。9.一种分布式模型推理方法,包括:响应于接收到第一目标模型计算图,根据待验证数据、所述第一目标模型计算图和分布式推理策略,确定目标推理结果;以及发送所述目标推理结果。10.根据权利要求9所述的方法,其中,所述分布式推理策略对应多个分布式推理计算单元,所述分布式推理计算单元的数量与分布式训练计算单元的数量不同。11.一种分布式模型推理装置,包括:模型组网数据确定模块,用于根据分布式训练策略和与多个分布式训练计算单元关联的模型组网子数据,确定针对目标计算单元的模型组网数据;模型参数确定模块,用于根据所述分布式训练策略和与多个所述分布式训练计算单元关联的模型子参数,确定所述针对目标计算单元的模型参数;第一目标模型计算图确定模块,用于根据所述模型组网数据和所述模型参数,确定针对目标计算单元的第一目标模型计算图;第一发送模块,用于将所述第一目标模型计算图发送至多个分布式推理计算...

【专利技术属性】
技术研发人员:郝宏翔沈亮巩伟宝于佃海
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1