数据处理方法、计算设备及存储介质技术

技术编号:43468286 阅读:25 留言:0更新日期:2024-11-27 13:05
本发明专利技术的实施例涉及一种数据处理的方法、计算设备和存储介质。该方法包括:基于输入序列确定三维向量,三维向量包括:查询向量、键向量和值向量;对三维向量中的至少一维向量进行分组,以便将三维向量分成多个三维向量分组;针对每个三维向量分组,利用多个内核中的一个进行与注意力相关的计算,以确定与每个三维向量分组对应的一组过程数据;以及对计算得到的多组过程数据进行融合计算,以确定用于生成与输入序列对应的注意力输出的最终数据。本发明专利技术能够在不增加处理器数量的情况下,实现针对超长输入序列的注意力计算。

【技术实现步骤摘要】

本专利技术的实施例总体涉及数据处理领域,并且更具体地涉及一种数据处理方法、计算设备及存储介质


技术介绍

1、注意力机制(attention mechanism)被广泛应用于诸如自然语言处理(nlp)、计算机视觉(cv)等机器学习领域,以帮助模型在处理复杂任务时能够更加关注重要信息,从而提高性能。具体而言,注意力机制使得模型在处理输入序列时,可以动态地为输入序列中的每个元素分配不同的权重,从而使模型能够更加关注输入序列中与当前任务相关的信息。

2、然而,在注意力机制中,模型所能够处理的输入序列的长度会受到处理器内存的限制,换言之,在不增加内存的情况下,现有的数据处理方法难以实现超长输入序列的注意力计算。


技术实现思路

1、针对上述问题,本专利技术提供了一种数据处理方法,使得在不增加内存的情况下,能够实现针对超长输入序列的注意力计算。

2、根据本专利技术的第一方面,提供了一种数据处理方法,其特征在于,包括:基于输入序列确定三维向量,三维向量包括:查询向量、键向量和值向量;对三维向量中的至本文档来自技高网...

【技术保护点】

1.一种数据处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,对所述三维向量中的至少一维向量进行分组包括:

3.根据权利要求2所述的方法,其特征在于,所述每个三维向量分组包括所述三维向量中经分组的每维向量的至少一个子向量。

4.根据权利要求3所述的方法,其特征在于,每个子向量包括在所述多个三维向量分组中的仅一个三维向量分组中。

5.根据权利要求1所述的方法,其特征在于,每组过程数据包括:第一过程数据、第二过程数据和第三过程数据,

6.根据权利要求5所述的方法,其特征在于,所述最终数据包括:第一数据、第二数据...

【技术特征摘要】

1.一种数据处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,对所述三维向量中的至少一维向量进行分组包括:

3.根据权利要求2所述的方法,其特征在于,所述每个三维向量分组包括所述三维向量中经分组的每维向量的至少一个子向量。

4.根据权利要求3所述的方法,其特征在于,每个子向量包括在所述多个三维向量分组中的仅一个三维向量分组中。

5.根据权利要求1所述的方法,其特征在于,每组过程数据包括:第一过程数据、第二过程数据和第三过程数据,

6.根据权利要求5所述的方法,其特征在于,所述最终数据包括:第一数据、第二数据和第三数据,

7.根据权利要求...

【专利技术属性】
技术研发人员:请求不公布姓名请求不公布姓名请求不公布姓名
申请(专利权)人:北京壁仞科技开发有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1