一种用于认知模型问答预测的加速推理方法及系统技术方案

技术编号：41065899 阅读：4 留言：0更新日期：2024-04-24 11:20

本发明专利技术公开了一种用于认知模型问答预测的加速推理方法，包括：获取问题文本，基于问题文本得到问题Token；将问题Token分发给认知模型推理引擎；通过时间延迟神经网络并基于问题Token确定运行内存；认知模型推理引擎分别基于运行内存、模型参数量化和模型混合并行对问题Token进行加速推理预测，得到预测答案。支持各种认知模型的高效推理，并支持认知模型会话的高效重载。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及认知模型，更具体的说是涉及一种用于认知模型问答预测的加速推理方法及系统。

技术介绍

1、目前，基于transformer结构的大型认知模型在nlp任务上表现优异，且模型参数越多，效果越好。通过不同的推理框架用来加速大型认知模型的推理，如vllm，llamacpp，chatglmcpp，tensorrt-llm等，但各自倾向性不同：

2、vllm:是uc伯克利团队开发的一个开源的llm推理和服务引擎，它实现了rollingbatch批处理以及pagedattention的注意力算法，相对于静态batch，vllm提供了高达数十倍的吞吐量，而无需进行任何模型架构更改；llamacpp：是基于ggml跨平台张量运算库，支持llama系列模型的8bit和4bit量化和跨平台运行；chatglmcpp:类似于llamacpp，但支持的是chatglm系列模型；tensorrt-llm:是英伟达基于tensorrt开发的llm推理框架，支持pagedattention、张量并行、8bit和4bit量化。

3、但是，现有的推理框架均存在问题：vllm目前不支持模型量化，最小精度只支持fp16，且在使用过程中如果显存不足会直接导致服务不可用；llamacpp不支持多卡运行，不支持张量并行，不支持pageattention等加速算法；tensorrt-llm只支持nvidia平台，且tensorrt不开源，对于适配新的认知模型不友好，基于上述问题，现有的推理框架均不能实现认知模型的高效推理，且不支持认知模型会话重载。

4、因此，如何支持各种认知模型的高效推理，并支持认知模型会话的高效重载是本领域技术人员亟需解决的问题。

技术实现思路

1、有鉴于此，本专利技术提供了一种用于认知模型问答预测的加速推理方法及系统，支持各种认知模型的高效推理，并支持认知模型会话的高效重载。

2、为了实现上述目的，本专利技术采用如下技术方案：

3、一种用于认知模型问答预测的加速推理方法，包括：

4、获取问题文本，基于所述问题文本得到问题token；

5、将所述问题token分发给认知模型推理引擎；

6、通过时间延迟神经网络并基于所述问题token确定运行内存；

7、所述认知模型推理引擎分别基于所述运行内存、模型参数量化和模型混合并行对所述问题token进行加速推理预测，得到预测答案。

8、优选的，还包括：

9、获取历史问答文本；

10、基于所述历史问答文本获取历史token；

11、将所述历史token分发给所述认知模型推理引擎。

12、优选的，基于所述问题文本得到问题token，具体包括：

13、基于词表将所述问题文本转换为问题token；

14、所述词表的构建方法至少包括：byte-pairencoding方法、wordpiece方法或sentencepiece方法；

15、所述byte-pairencoding方法具体为：将数据库中的单词拆分为字符粒度，得到多个相邻的字节，统计每一个相邻字节对出现的频率，将最高频率的相邻字节对合并为新的子词，重复合并，直到达到预设词表大小，得到最终的词表；

16、所述wordpiece方法具体为：将数据库中的单词拆分为字符粒度，得到多个相邻的字节，统计每一个相邻字节对出现的频率，将最高频率的相邻字节对合并为新的子词，将能够提升语言模型概率最大的相邻子词进行合并加入词表，一直重复合并加入词表，直到达到预设词表大小，得到最终的词表；

17、所述sentencepiece方法具体为：将数据库中的单词和空格拆分为字符粒度，得到多个相邻的字节，统计每一个相邻字节对出现的频率，将最高频率的相邻字节对合并为新的子词，一直重复合并，直到达到预设词表大小，得到最终的词表。

18、优选的，确定运行内存的具体过程为：

19、所述问题token和所述历史token进行拼接得到拼接token；

20、基于所述拼接token得到时间序列数据；

21、所述时间序列数据输入至由输入层、隐藏层和输出层构成的所述时间延迟神经网络；

22、所述输入层接收并发送所述时间序列数据至所述隐藏层；

23、所述隐藏层中多个神经元分别接收所述时间序列数据，通过固定窗口的权重矩阵进行卷积运算得到多个第一处理数据；

24、所述多个第一处理数据分别通过非线性激活函数处理得到多个第二处理数据；

25、所述输出层接收所述多个第二处理数据进行处理，得到预测的运行内存大小。

26、优选的，还包括：判断所述认知模型推理引擎推理过程中获取的所述运行内存是否够用于计算输出结果；

27、若不够用，则根据已用内存大小按比例获取新的内存；

28、并将所述新的内存与所述已用内存进行合并。

29、优选的，所述模型参数量化，具体包括：

30、将所述认知模型推理引擎中算计的参数从高精度数据转换为低精度数据；

31、所述模型参数量化方法至少包括：对称量化、非对称量化和分层量化。

32、优选的，所述混合并行，具体包括：

33、在推理过程中，对所述认知模型推理引擎采用模型并行和张量并行混合并行的方式；

34、所述模型并行为：将所述认知模型推理引擎中的所有所述算子划分为多个第一子部分，每个所述第一子部分分别运行在对应的gpu上；

35、所述张量并行为：在所述模型并行的基础上，将所述算子内部进行拆分为多个第二子部分，每个所述第二子部分分别运行在对应的gpu上。

36、优选的，还包括：所述认知模型推理引擎显存不足时，将暂时不需要推理计算的数据从显存中迁移到内存中，需要计算时再将内存中的数据移动到显存中进行推理计算。

37、优选的，还包括：将预设时间内没有会话的问答，将所述问答中的历史记录对应的kv缓存保存至缓存数据库，当重新问答时，从所述缓存数据库中读取对应的kv缓存进行推理计算。

38、一种用于认知模型问答预测的加速推理系统，包括：问题编码获取模块、分发模块、内存确定模块和预测模块；

39、所述问题编码获取模块，用于获取问题文本，基于所述问题文本得到问题token；

40、所述分发模块，用于将所述问题token分发给认知模型推理引擎；

41、所述内存确定模块，用于通过时间延迟神经网络并基于所述问题token确定运行内存；

42、所述预测模块，用于所述认知模型推理引擎分别基于所述运行内存、模型参数量化和模型混合并行对所述问题token进行加速推理预测，得到预测答案。

43、优选的，还包括：历史编码推送模块；

44、所述历史编码推送模块，用于获取历史问答文本；基于所本文档来自技高网...

【技术保护点】

1.一种用于认知模型问答预测的加速推理方法，其特征在于，包括：

2.根据权利要求1所述的一种用于认知模型问答预测的加速推理方法，其特征在于，还包括：

3.根据权利要求1所述的一种用于认知模型问答预测的加速推理方法，其特征在于，基于所述问题文本得到问题Token，具体包括：

4.根据权利要求2所述的一种用于认知模型问答预测的加速推理方法，其特征在于，确定运行内存的具体过程为：

5.根据权利要求4所述的一种用于认知模型问答预测的加速推理方法，其特征在于，还包括：判断所述认知模型推理引擎推理过程中获取的所述运行内存是否够用于计算输出结果；

6.根据权利要求1所述的一种用于认知模型问答预测的加速推理方法，其特征在于，所述模型参数量化，具体包括：

7.根据权利要求6所述的一种用于认知模型问答预测的加速推理方法，其特征在于，所述混合并行，具体包括：

8.根据权利要求1所述的一种用于认知模型问答预测的加速推理方法，其特征在于，还包括：所述认知模型推理引擎显存不足时，将推理计算暂时不需要的数据从显存中迁移到内存中

9.根据权利要求1所述的一种用于认知模型问答预测的加速推理方法，其特征在于，还包括：将预设时间内没有会话的问答，将所述问答中的历史记录对应的kv缓存保存至缓存数据库，当重新问答时，从所述缓存数据库中读取对应的kv缓存进行推理计算。

10.一种用于认知模型问答预测的加速推理系统，其特征在于，包括：问题编码获取模块、分发模块、内存确定模块和预测模块；

11.根据权利要求10所述的一种用于认知模型问答预测的加速推理系统，其特征在于，还包括：历史编码推送模块；

12.根据权利要求10所述的一种用于认知模型问答预测的加速推理系统，其特征在于，所述内存确定模块还用于：

13.根据权利要求10所述的一种用于认知模型问答预测的加速推理系统，其特征在于，还包括：内存判断获取模块；

14.根据权利要求10所述的一种用于认知模型问答预测的加速推理系统，其特征在于，还包括：数据迁移模块；

15.根据权利要求10所述的一种用于认知模型问答预测的加速推理系统，其特征在于，还包括：数据缓存读取模块；

...

【技术特征摘要】

1.一种用于认知模型问答预测的加速推理方法，其特征在于，包括：

2.根据权利要求1所述的一种用于认知模型问答预测的加速推理方法，其特征在于，还包括：

3.根据权利要求1所述的一种用于认知模型问答预测的加速推理方法，其特征在于，基于所述问题文本得到问题token，具体包括：

4.根据权利要求2所述的一种用于认知模型问答预测的加速推理方法，其特征在于，确定运行内存的具体过程为：

6.根据权利要求1所述的一种用于认知模型问答预测的加速推理方法，其特征在于，所述模型参数量化，具体包括：

7.根据权利要求6所述的一种用于认知模型问答预测的加速推理方法，其特征在于，所述混合并行，具体包括：

8.根据权利要求1所述的一种用于认知模型问答预测的加速推理方法，其特征在于，还包括：所述认知模型推理引擎显存不足时，将推理计算暂时不需要的数据从显存中迁移到内存中，需要计算时再...

【专利技术属性】
技术研发人员：詹杰，苏江，
申请(专利权)人：暗物质北京智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人