一种长序列数据的处理方法以及相关设备技术

技术编号:45699088 阅读:32 留言:0更新日期:2025-07-01 20:13
本申请提供了一种长序列数据的处理方法以及相关设备,用于提升计算效率。长序列的处理方法应用于transformer模型,方法包括:获取长度为N的第一序列。基于第一序列获取M组目标矩阵,其中每组目标矩阵包括查询(query)矩阵、键(key)矩阵和值(value)矩阵,计算M组目标矩阵对应的M个第一注意力结果。拼接M个第一注意力结果,得到第一序列的第二注意力结果。M和N均为大于或等于2的整数。

【技术实现步骤摘要】

本申请涉及人工智能(artificial intelligence,ai)领域,尤其涉及一种长序列数据的处理方法以及相关设备


技术介绍

1、ai是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术以及应用系统。简单来说,人工智能研究的是各种智能机器的设计原理和实现方法,使得机器具有感知、推理和决策的功能。随着ai技术的发展,transformer模型发挥着重要作用。

2、transformer模型应用自注意力机制,需要计算注意力结果,用于更好地训练模型和进行推理。但是在传统方案中,将输入序列作为整体进行注意力结果的计算。输入序列的长度越长,计算的复杂度越高,导致算力资源的严重消耗,计算效率低下。


技术实现思路

1、本申请实施例提供了一种长序列数据的处理方法以及相关设备,将第一序列处理得到m组目标矩阵,分别计算m组目标矩阵对应的m个第一注意力结果,再拼接得到第一序列对应的第二注意力结果。相较于将第一序列作为整体,直接计算注意力本文档来自技高网...

【技术保护点】

1.一种长序列数据的处理方法,其特征在于,所述方法应用于transformer模型,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述获取M组目标矩阵,包括:

3.根据权利要求1所述的方法,其特征在于,所述获取M组目标矩阵,包括:

4.根据权利要求1至3中任一项所述的方法,其特征在于,所述计算所述M组目标矩阵对应的M个第一注意力结果,包括:

5.根据权利要求4所述的方法,其特征在于,所述第一query矩阵、所述第一key矩阵和所述第一value矩阵中至少两个矩阵对应的目标矩阵不同,包括:所述第一query矩阵、所述第一key矩阵...

【技术特征摘要】

1.一种长序列数据的处理方法,其特征在于,所述方法应用于transformer模型,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述获取m组目标矩阵,包括:

3.根据权利要求1所述的方法,其特征在于,所述获取m组目标矩阵,包括:

4.根据权利要求1至3中任一项所述的方法,其特征在于,所述计算所述m组目标矩阵对应的m个第一注意力结果,包括:

5.根据权利要求4所述的方法,其特征在于,所述第一query矩阵、所述第一key矩阵和所述第一value矩阵中至少两个矩阵对应的目标矩阵不同,包括:所述第一query矩阵、所述第一key矩阵和所述第一value矩阵中至少两个矩阵对应的目标矩阵为相邻矩阵。

6.根据权利要求4所述的方法,其特征在于,所述第一query矩阵、所述第一key矩阵和所述第一value矩阵中至少两个矩阵对应的目标矩阵不同,包括:

7.根据权利要求1至3中任一项所述的方法,其特征在于,所述计算所述m组目标矩阵对应的m个第一注意力结果,包括:

8.根据权利要求2、4至7中任一项所述的方法,其特征在于,所述将所述第一序列对应的矩阵划分为所述m组目标矩阵,包括:

9.根据权利要求3至7中任一项所述的方法,其特征在于,所述处理所述第一序列,得到m组第二序列,包括:

10.一种长...

【专利技术属性】
技术研发人员:陈祥
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1