数据推理方法、网络设备、介质、电子设备和程序产品技术

技术编号:44912902 阅读:24 留言:0更新日期:2025-04-08 18:56
本公开涉及一种数据推理方法、网络设备、介质、电子设备和程序产品,属于计算机技术领域,能够解决带宽瓶颈,降低时延,提高系统性能。一种数据推理方法,包括:从多个节点接收初始注意力向量,初始注意力向量包括多个初始元素;确定网络设备本地保存的包括多个本地元素的本地注意力向量;由网络设备的流水线级中的j‑1、j、j+1和j+2执行本地元素i与相应初始元素的聚合,j‑1级确定初始元素的加权值并存储在HPV中,j级从其内存中读取本地元素i并存储到HPV中,j+1级确定本地元素i的加权值并存储在HPV中,j+2级基于本地元素i和初始元素的加权值对本地元素i与初始元素进行聚合得到目标注意力向量中的第i个元素,目标注意力向量被用于进行数据推理。

【技术实现步骤摘要】

本公开涉及计算机,具体地,涉及一种数据推理方法、网络设备、介质、电子设备和程序产品


技术介绍

1、大语言模型推理,是指利用训练好的大语言模型进行推理,由用户向大语言模型输入提示信息,大语言模型输出与提示信息对应的答案信息的过程。其中,大语言模型的输入和输出被合称为上下文。

2、随着大语言模型的上下文长度的不断增长,大语言模型推理的计算量会线性增加。目前,通常是将大语言模型的推理过程在多个分布式节点之间运行,以分布式内存的方式来分解整个推理过程。具体地,会沿着上下文的序列长度维度进行切分得到多个子序列,每个分布式节点负责有限长的子序列,各自独立计算所负责的子序列的注意力向量,然后由多个分布式节点中的主节点对所有分布式节点计算的注意力向量进行全归约得到全局注意力向量,这就需要该主节点获取所有的注意力向量之后才能进行全归约计算,计算完成后再把计算结果更新到所有的分布式节点。这种方式容易造成主节点的计算和网络瓶颈,影响系统性能。


技术实现思路

1、本公开的目的是提供一种数据推理方法、网络设备、介质、电子本文档来自技高网...

【技术保护点】

1.一种数据推理方法,其特征在于,应用于数据推理系统中的网络设备,所述数据推理系统包括所述网络设备和多个节点,所述数据推理方法包括:

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

3.根据权利要求1所述的方法,其特征在于,所述方法还包括:

4.根据权利要求1所述的方法,其特征在于,所述方法还包括:

5.根据权利要求4所述的方法,其特征在于,所述方法还包括:

6.根据权利要求1所述的方法,其特征在于,在多个所述网络设备上对所述初始注意力向量进行聚合,则,所述方法还包括:

7.根据权利要求1至6中任一项所述...

【技术特征摘要】

1.一种数据推理方法,其特征在于,应用于数据推理系统中的网络设备,所述数据推理系统包括所述网络设备和多个节点,所述数据推理方法包括:

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

3.根据权利要求1所述的方法,其特征在于,所述方法还包括:

4.根据权利要求1所述的方法,其特征在于,所述方法还包括:

5.根据权利要求4所述的方法,其特征在于,所述方法还包括:

6.根据权利要求1所述的方法,其特征在于,在多个所述网络设备上对所述初始注意力向量进行聚合,则,所述方法还包...

【专利技术属性】
技术研发人员:陈杰张楚文阚宏伟
申请(专利权)人:新紫光集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1