基于GPU的高IO感知度长序列文本注入方法、介质及设备技术

技术编号：44563368 阅读：24 留言：0更新日期：2025-03-11 14:22

本发明专利技术涉及一种基于GPU的高IO感知度长序列文本注入方法、介质及设备，所述方法包括：获取长序列文本输入并编码，通过多头注意力机制对经编码后的矩阵向量进行处理，实现文本注入，所述矩阵向量包括查询Q、键K和值V，其特征在于，所述多头注意力机制中，使用L2距离计算相似度，且进行前向传播时，将所述矩阵向量切分成块，实现线程块并行处理，进行反向传播时，利用重计算策略重新计算基于相似度的结果矩阵以及查询Q、键K和值V的梯度。与现有技术相比，本发明专利技术具有降低注意力计算内存访问的开销、提高运算效率等优点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，尤其是涉及一种基于gpu的高io感知度长序列文本注入方法、介质及设备。

技术介绍

1、近年来，基于transformer的大规模语言模型如chatgpt在自然语言处理任务中得到了广泛应用。然而，由于这类模型的计算量随序列长度n呈平方率增长，即o(n2)，因此在处理较长文本时会面临一些挑战。大语言模型的输入和输出序列长度都是以token(标记)为单位，不同的大模型有不同的token长度的限制，例如，bart和gpt2等模型通常最多只能支持1024个token。

2、在越来越多的场景中，需要处理更长的文档、历史对话和代码库，以便通过更长的上下文学习来捕捉长距离的依赖关系，并利用这些历史信息来提高模型的语义理解和泛化能力。特别地，很多aigc(人工智能内容生成)场景中，文字转语音、智能数字内容编辑、智能数字内容生成等引用均需要长序列文本注入。然而长序列文本的处理成本很高，为模型提供较长的上下文背景仍然是一项巨大的挑战。其中注意力机制在模型训练和推理时间中占据了相当大的比例。

3、因此，如何有效地...

【技术保护点】

1.一种基于GPU的高IO感知度长序列文本注入方法，该方法包括：获取长序列文本输入并编码，通过多头注意力机制对经编码后的矩阵向量进行处理，实现文本注入，所述矩阵向量包括查询Q、键K和值V，其特征在于，所述多头注意力机制中，使用L2距离计算相似度，且进行前向传播时，将所述矩阵向量切分成块，实现线程块并行处理，进行反向传播时，利用重计算策略重新计算基于相似度的结果矩阵以及查询Q、键K和值V的梯度。

2.根据权利要求1所述的基于GPU的高IO感知度长序列文本注入方法，其特征在于，所述使用L2距离计算相似度的计算公式为：

3.根据权利要求1所述的基于GPU的高IO感知度长...

【技术特征摘要】

1.一种基于gpu的高io感知度长序列文本注入方法，该方法包括：获取长序列文本输入并编码，通过多头注意力机制对经编码后的矩阵向量进行处理，实现文本注入，所述矩阵向量包括查询q、键k和值v，其特征在于，所述多头注意力机制中，使用l2距离计算相似度，且进行前向传播时，将所述矩阵向量切分成块，实现线程块并行处理，进行反向传播时，利用重计算策略重新计算基于相似度的结果矩阵以及查询q、键k和值v的梯度。

2.根据权利要求1所述的基于gpu的高io感知度长序列文本注入方法，其特征在于，所述使用l2距离计算相似度的计算公式为：

3.根据权利要求1所述的基于gpu的高io感知度长序列文本注入方法，其特征在于，所述前向传播的具体过程包括：

4.根据权利要求1所述的基于gpu的高io感知度长序列文本注入方法，其特征在于，所述反向传播的具体过程包括：

5.根据权利要求3或4所述的基于gpu的高io感知度长序列文本注入方法，其特征在于，在序列长度、批次和/或...

【专利技术属性】
技术研发人员：苏中玲，付蓉，裴芝林，张行程，
申请(专利权)人：上海人工智能创新中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人