本发明专利技术公开了一种通用模型推理方法、装置、设备及存储介质,属于计算机技术领域,所述方法包括:根据请求信息确定多个通用模型对应的输入信息;对各通用模型的输入信息进行统一接口处理,得到待处理信息;根据所述待处理信息得到批处理请求队列;基于所述批处理请求队列进行统一执行,得到与所述输入信息对应的输出信息;根据所述输出信息生成对应的响应信息。从而可以通过对各通用模型对应的输入信息进行统一接口处理,并根据得到的批处理请求队列进行统一执行的方式,提升GPU利用率与处理性能。性能。性能。
【技术实现步骤摘要】
通用模型推理方法、装置、设备及存储介质
[0001]本专利技术涉及计算机
,尤其涉及一种通用模型推理方法、装置、设备及存储介质。
技术介绍
[0002]搜索引擎涉及海量网页的抓取、筛选、建倒排索引、召回、排序等多道工序,其中离不开query分析、语义模型、向量召回、排序模型等多项核心技术,为了提升其效果,已深入应用深度学习技术。复杂的神经网络模型深达上百层,模型的训练和推理,都面临大量的运算,GPU是并行处理大规模简单运算任务的首选,它能获得数倍于CPU的性能,所以利用GPU集群完成深度模型的训练与推理,自然顺理成章。但是,在现有的方式中,利用GPU进行深度模型的训练与推理时,存在GPU利用率不高,处理性能较差的问题。
[0003]上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。
技术实现思路
[0004]本专利技术的主要目的在于提出一种通用模型推理方法、装置、设备及存储介质,旨在解决如何提升GPU利用率与处理性能的技术问题。
[0005]为实现上述目的,本专利技术提供一种通用模型推理方法,所述通用模型推理方法包括:
[0006]根据请求信息确定多个通用模型对应的输入信息;
[0007]对各通用模型的输入信息进行统一接口处理,得到待处理信息;
[0008]根据所述待处理信息得到批处理请求队列;
[0009]基于所述批处理请求队列进行统一执行,得到与所述输入信息对应的输出信息;
[0010]根据所述输出信息生成对应的响应信息。
[0011]可选地,所述对各通用模型的输入信息进行统一接口处理,得到待处理信息,包括:
[0012]对各通用模型的输入信息进行解耦处理,得到解耦后的输入信息;
[0013]基于解耦后的输入信息进行统一接口处理,得到待处理信息。
[0014]可选地,所述根据所述待处理信息得到批处理请求队列,包括:
[0015]根据所述待处理信息生成对应的批处理请求;
[0016]对所述批处理请求进行累积;
[0017]根据累积的批处理请求得到批处理请求队列。
[0018]可选地,所述根据累积的批处理请求得到批处理请求队列,包括:
[0019]统计当前累积的批处理请求对应的请求数量;
[0020]将所述请求数量与预设数量阈值进行比较;
[0021]在所述请求数量等于所述预设数量阈值时,根据当前累积的批处理请求得到批处
理请求队列。
[0022]可选地,所述基于所述批处理请求队列进行统一执行,得到与所述输入信息对应的输出信息,包括:
[0023]创建与所述批处理请求队列对应的引擎和上下文,并创建与批处理相关的内存空间;
[0024]基于所述引擎和所述上下文在所述内存空间内对所述批处理请求队列进行统一执行,得到执行结果信息;
[0025]根据所述执行结果信息得到与所述输入信息对应的输出信息。
[0026]可选地,所述基于所述引擎和所述上下文在所述内存空间内对所述批处理请求队列进行统一执行,包括:
[0027]设置动态维度,并基于所述动态维度确定执行策略;
[0028]根据所述执行策略基于所述引擎和所述上下文在所述内存空间内对所述批处理请求队列进行统一执行。
[0029]可选地,所述根据所述执行结果信息得到与所述输入信息对应的输出信息,包括:
[0030]对所述执行结果信息进行统一接口反向处理,得到与所述输入信息对应的输出信息。
[0031]可选地,所述对所述执行结果信息进行统一接口反向处理,包括:
[0032]根据所述执行结果信息确定多个待转换信息;
[0033]获取各待转换信息对应的输出格式;
[0034]根据所述输出格式对各待转换信息进行统一接口反向处理。
[0035]可选地,所述根据所述输出信息生成对应的响应信息,包括:
[0036]获取与响应信息对应的响应格式;
[0037]根据所述响应格式对所述输出信息进行转换,得到与所述请求信息对应的响应信息。
[0038]可选地,所述根据请求信息确定多个通用模型对应的输入信息,包括:
[0039]根据请求信息确定多个推理业务;
[0040]对所述请求信息进行解析,并根据解析结果确定各推理业务对应的业务信息;
[0041]根据所述业务信息确定多个通用模型对应的输入信息。
[0042]此外,为实现上述目的,本专利技术还提出一种通用模型推理装置,所述通用模型推理装置包括:
[0043]输入信息模块,用于根据请求信息确定多个通用模型对应的输入信息;
[0044]统一接口处理模块,用于对各通用模型的输入信息进行统一接口处理,得到待处理信息;
[0045]请求队列模块,用于根据所述待处理信息得到批处理请求队列;
[0046]输出信息模块,用于基于所述批处理请求队列进行统一执行,得到与所述输入信息对应的输出信息;
[0047]响应信息模块,用于根据所述输出信息生成对应的响应信息。
[0048]可选地,所述统一接口处理模块,还用于对各通用模型的输入信息进行解耦处理,得到解耦后的输入信息;基于解耦后的输入信息进行统一接口处理,得到待处理信息。
[0049]可选地,所述请求队列模块,还用于根据所述待处理信息生成对应的批处理请求;对所述批处理请求进行累积;根据累积的批处理请求得到批处理请求队列。
[0050]可选地,所述请求队列模块,还用于统计当前累积的批处理请求对应的请求数量;将所述请求数量与预设数量阈值进行比较;在所述请求数量等于所述预设数量阈值时,根据当前累积的批处理请求得到批处理请求队列。
[0051]可选地,所述输出信息模块,还用于创建与所述批处理请求队列对应的引擎和上下文,并创建与批处理相关的内存空间;基于所述引擎和所述上下文在所述内存空间内对所述批处理请求队列进行统一执行,得到执行结果信息;根据所述执行结果信息得到与所述输入信息对应的输出信息。
[0052]可选地,所述输出信息模块,还用于设置动态维度,并基于所述动态维度确定执行策略;根据所述执行策略基于所述引擎和所述上下文在所述内存空间内对所述批处理请求队列进行统一执行。
[0053]可选地,所述输出信息模块,还用于对所述执行结果信息进行统一接口反向处理,得到与所述输入信息对应的输出信息。
[0054]可选地,所述输出信息模块,还用于根据所述执行结果信息确定多个待转换信息;获取各待转换信息对应的输出格式;根据所述输出格式对各待转换信息进行统一接口反向处理。
[0055]此外,为实现上述目的,本专利技术还提出一种通用模型推理设备,所述通用模型推理设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的通用模型推理程序,所述通用模型推理程序被处理器执行时实现如上所述的通用模型推理方法。
[0056]此外本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种通用模型推理方法,其特征在于,所述通用模型推理方法包括:根据请求信息确定多个通用模型对应的输入信息;对各通用模型的输入信息进行统一接口处理,得到待处理信息;根据所述待处理信息得到批处理请求队列;基于所述批处理请求队列进行统一执行,得到与所述输入信息对应的输出信息;根据所述输出信息生成对应的响应信息。2.如权利要求1所述的通用模型推理方法,其特征在于,所述对各通用模型的输入信息进行统一接口处理,得到待处理信息,包括:对各通用模型的输入信息进行解耦处理,得到解耦后的输入信息;基于解耦后的输入信息进行统一接口处理,得到待处理信息。3.如权利要求1所述的通用模型推理方法,其特征在于,所述根据所述待处理信息得到批处理请求队列,包括:根据所述待处理信息生成对应的批处理请求;对所述批处理请求进行累积;根据累积的批处理请求得到批处理请求队列。4.如权利要求3所述的通用模型推理方法,其特征在于,所述根据累积的批处理请求得到批处理请求队列,包括:统计当前累积的批处理请求对应的请求数量;将所述请求数量与预设数量阈值进行比较;在所述请求数量等于所述预设数量阈值时,根据当前累积的批处理请求得到批处理请求队列。5.如权利要求1所述的通用模型推理方法,其特征在于,所述基于所述批处理请求队列进行统一执行,得到与所述输入信息对应的输出信息,包括:创建与所述批处理请求队列对应的引擎和上下文,并创建与批处理相关的内存空间;基于所述引擎和所述上下文在所述内存空间内对所述批处理请求队列进行统一执行,得到执行结果信息;根据所述执行...
【专利技术属性】
技术研发人员:陈志丰,史常慧,朱虹宏,王腾绪,孙明强,
申请(专利权)人:三六零科技集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。