通用模型推理方法、装置、设备及存储介质制造方法及图纸

技术编号：37667999 阅读：18 留言：0更新日期：2023-05-26 04:28

本发明专利技术公开了一种通用模型推理方法、装置、设备及存储介质，属于计算机技术领域，所述方法包括：根据请求信息确定多个通用模型对应的输入信息；对各通用模型的输入信息进行统一接口处理，得到待处理信息；根据所述待处理信息得到批处理请求队列；基于所述批处理请求队列进行统一执行，得到与所述输入信息对应的输出信息；根据所述输出信息生成对应的响应信息。从而可以通过对各通用模型对应的输入信息进行统一接口处理，并根据得到的批处理请求队列进行统一执行的方式，提升GPU利用率与处理性能。性能。性能。

全部详细技术资料下载

【技术实现步骤摘要】
通用模型推理方法、装置、设备及存储介质

[0001]本专利技术涉及计算机
，尤其涉及一种通用模型推理方法、装置、设备及存储介质。

技术介绍

[0002]搜索引擎涉及海量网页的抓取、筛选、建倒排索引、召回、排序等多道工序，其中离不开query分析、语义模型、向量召回、排序模型等多项核心技术，为了提升其效果，已深入应用深度学习技术。复杂的神经网络模型深达上百层，模型的训练和推理，都面临大量的运算，GPU是并行处理大规模简单运算任务的首选，它能获得数倍于CPU的性能，所以利用GPU集群完成深度模型的训练与推理，自然顺理成章。但是，在现有的方式中，利用GPU进行深度模型的训练与推理时，存在GPU利用率不高，处理性能较差的问题。
[0003]上述内容仅用于辅助理解本专利技术的技术方案，并不代表承认上述内容是现有技术。

技术实现思路

[0004]本专利技术的主要目的在于提出一种通用模型推理方法、装置、设备及存储介质，旨在解决如何提升GPU利用率与处理性能的技术问题。
[0005]为实现上述目的，本专利技术提供一种通用模型推理方法，所述通用模型推理方法包括：
[0006]根据请求信息确定多个通用模型对应的输入信息；
[0007]对各通用模型的输入信息进行统一接口处理，得到待处理信息；
[0008]根据所述待处理信息得到批处理请求队列；
[0009]基于所述批处理请求队列进行统一执行，得到与所述输入信息对应的输出信息；
[0010]根据所述输出信息生成对应...

【技术保护点】

【技术特征摘要】
1.一种通用模型推理方法，其特征在于，所述通用模型推理方法包括：根据请求信息确定多个通用模型对应的输入信息；对各通用模型的输入信息进行统一接口处理，得到待处理信息；根据所述待处理信息得到批处理请求队列；基于所述批处理请求队列进行统一执行，得到与所述输入信息对应的输出信息；根据所述输出信息生成对应的响应信息。2.如权利要求1所述的通用模型推理方法，其特征在于，所述对各通用模型的输入信息进行统一接口处理，得到待处理信息，包括：对各通用模型的输入信息进行解耦处理，得到解耦后的输入信息；基于解耦后的输入信息进行统一接口处理，得到待处理信息。3.如权利要求1所述的通用模型推理方法，其特征在于，所述根据所述待处理信息得到批处理请求队列，包括：根据所述待处理信息生成对应的批处理请求；对所述批处理请求进行累积；根据累积的批处理请求得到批处理请求队列。4.如权利要求3所述的通用模型推理方法，其特征在于，所述根据累积的批处理请求得到批处理请求队列，包括：统计当前累积的批处理请求对应的请求数量；将所述请求数量与预设数量阈值进行比较；在所述请求数量等于所述预设数量阈值时，根据当前累积的批处理请求得到批处理请求队列。5.如权利要求1所述的通用模型推理方法，其特征在于，所述基于所述批处理请求队列进行统一执行，得到与所述输入信息对应的输出信息，包括：创建与所述批处理请求队列对应的引擎和上下文，并创建与批处理相关的内存空间；基于所述引擎和所述上下文在所述内存空间内对所述批处理请求队列进行统一执行，得到执行结果信息；根据所述执行...

【专利技术属性】
技术研发人员：陈志丰，史常慧，朱虹宏，王腾绪，孙明强，
申请(专利权)人：三六零科技集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人