基于GPU的高IO感知度长序列文本注入方法、介质及设备技术

技术编号:44563368 阅读:24 留言:0更新日期:2025-03-11 14:22
本发明专利技术涉及一种基于GPU的高IO感知度长序列文本注入方法、介质及设备,所述方法包括:获取长序列文本输入并编码,通过多头注意力机制对经编码后的矩阵向量进行处理,实现文本注入,所述矩阵向量包括查询Q、键K和值V,其特征在于,所述多头注意力机制中,使用L2距离计算相似度,且进行前向传播时,将所述矩阵向量切分成块,实现线程块并行处理,进行反向传播时,利用重计算策略重新计算基于相似度的结果矩阵以及查询Q、键K和值V的梯度。与现有技术相比,本发明专利技术具有降低注意力计算内存访问的开销、提高运算效率等优点。

【技术实现步骤摘要】

本专利技术涉及人工智能,尤其是涉及一种基于gpu的高io感知度长序列文本注入方法、介质及设备。


技术介绍

1、近年来,基于transformer的大规模语言模型如chatgpt在自然语言处理任务中得到了广泛应用。然而,由于这类模型的计算量随序列长度n呈平方率增长,即o(n2),因此在处理较长文本时会面临一些挑战。大语言模型的输入和输出序列长度都是以token(标记)为单位,不同的大模型有不同的token长度的限制,例如,bart和gpt2等模型通常最多只能支持1024个token。

2、在越来越多的场景中,需要处理更长的文档、历史对话和代码库,以便通过更长的上下文学习来捕捉长距离的依赖关系,并利用这些历史信息来提高模型的语义理解和泛化能力。特别地,很多aigc(人工智能内容生成)场景中,文字转语音、智能数字内容编辑、智能数字内容生成等引用均需要长序列文本注入。然而长序列文本的处理成本很高,为模型提供较长的上下文背景仍然是一项巨大的挑战。其中注意力机制在模型训练和推理时间中占据了相当大的比例。

3、因此,如何有效地进行基于注意力模块的本文档来自技高网...

【技术保护点】

1.一种基于GPU的高IO感知度长序列文本注入方法,该方法包括:获取长序列文本输入并编码,通过多头注意力机制对经编码后的矩阵向量进行处理,实现文本注入,所述矩阵向量包括查询Q、键K和值V,其特征在于,所述多头注意力机制中,使用L2距离计算相似度,且进行前向传播时,将所述矩阵向量切分成块,实现线程块并行处理,进行反向传播时,利用重计算策略重新计算基于相似度的结果矩阵以及查询Q、键K和值V的梯度。

2.根据权利要求1所述的基于GPU的高IO感知度长序列文本注入方法,其特征在于,所述使用L2距离计算相似度的计算公式为:

3.根据权利要求1所述的基于GPU的高IO感知度长...

【技术特征摘要】

1.一种基于gpu的高io感知度长序列文本注入方法,该方法包括:获取长序列文本输入并编码,通过多头注意力机制对经编码后的矩阵向量进行处理,实现文本注入,所述矩阵向量包括查询q、键k和值v,其特征在于,所述多头注意力机制中,使用l2距离计算相似度,且进行前向传播时,将所述矩阵向量切分成块,实现线程块并行处理,进行反向传播时,利用重计算策略重新计算基于相似度的结果矩阵以及查询q、键k和值v的梯度。

2.根据权利要求1所述的基于gpu的高io感知度长序列文本注入方法,其特征在于,所述使用l2距离计算相似度的计算公式为:

3.根据权利要求1所述的基于gpu的高io感知度长序列文本注入方法,其特征在于,所述前向传播的具体过程包括:

4.根据权利要求1所述的基于gpu的高io感知度长序列文本注入方法,其特征在于,所述反向传播的具体过程包括:

5.根据权利要求3或4所述的基于gpu的高io感知度长序列文本注入方法,其特征在于,在序列长度、批次和/或...

【专利技术属性】
技术研发人员:苏中玲付蓉裴芝林张行程
申请(专利权)人:上海人工智能创新中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1