一种大语言模型的推理方法、装置、设备及存储介质制造方法及图纸

技术编号：42121121 阅读：19 留言：0更新日期：2024-07-25 00:39

本发明专利技术公开了一种大语言模型的推理方法、装置、设备及存储介质，包括：获取用户输入的原始模型，对推理引擎进行初始化配置，通过预设的集成训练工具，根据推理引擎对应的当前优化策略，对原始模型中的模型层与算子进行替换，同时对原始模型进行切分，并将多个切分结果分别部署在多个不同的加速卡上得到优化后模型，获取用户输入的提示词序列，通过优化后模型推理输出提示词序列的生成结果。本发明专利技术实施例的技术方案可以提高大语言模型的推理效率，提高计算资源的利用率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机，尤其涉及一种大语言模型的推理方法、装置、设备及存储介质。

技术介绍

1、近年来，得益于计算资源硬件(工业级显卡)、并行训练系统、以及算法(监督微调以及强化学习等)的不断发展，大语言模型得到了前所未有的关注度与蓬勃发展。大语言模型在各类应用场景中进行自然语言理解和生成任务中取得了不俗的表现，同一时间，对于高效、高可用大语言模型推理系统的需求逐渐增长，推动了模型优化和部署技术的进步。

2、现有技术中，在处理大语言模型推理任务时，推理系统面临着诸多挑战，包括但不限于计算资源消耗、用户等待时延过长、推理速度下降等。针对这些挑战，推理系统往往使用各种优化技术以提高推理效率和性能。

3、然而，现有的优化方法在某些情况下存在局限性，无法满足不断增长的用户需求，其推理速度并不尽如人意，并且其显存管理方面更是存在较多限制，限制了推理批量大小。

技术实现思路

1、本专利技术提供了一种大语言模型的推理方法、装置、设备及存储介质，可以提高大语言模型的推理效率，提高计算

【技术保护点】

1.一种大语言模型的推理方法，其特征在于，应用于推理引擎中，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在通过预设的集成训练工具，根据所述推理引擎对应的当前优化策略，对所述原始模型中的模型层与算子进行替换之前，还包括：

3.根据权利要求2所述的方法，其特征在于，获取用户输入的提示词序列，通过所述优化后模型推理输出所述提示词序列的生成结果，包括：

4.根据权利要求1所述的方法，其特征在于，根据所述推理引擎对应的当前优化策略，对所述原始模型中的模型层与算子进行替换，包括：

5.根据权利要求1所述的方法，其特征在于，在通过所述优化后...

【技术特征摘要】

1.一种大语言模型的推理方法，其特征在于，应用于推理引擎中，所述方法包括：

3.根据权利要求2所述的方法，其特征在于，获取用户输入的提示词序列，通过所述优化后模型推理输出所述提示词序列的生成结果，包括：

4.根据权利要求1所述的方法，其特征在于，根据所述推理引擎对应的当前优化策略，对所述原始模型中的模型层与算子进行替换，包括：

5.根据权利要求1所述的方法，其特征在于，在通过所述优化后模型推理输出...

【专利技术属性】
技术研发人员：赵元亨，李升桂，蔡迪，陈江海，刘扬，柳泓鑫，卞正达，李永彬，麦思琪，崔子源，李彤，
申请(专利权)人：北京潞晨科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人