一种基于推理实例快照的推理平台制造技术

技术编号：46066460 阅读：9 留言：0更新日期：2025-08-11 15:54

本发明专利技术公开了AI推理平台技术领域的一种基于推理实例快照的推理平台，由网关、调度器、节点代理、推理容器实例、容器运行时以及快照对象存储组成的系统；S1，将已初始化完成的推理容器的CPU和GPU状态保存为可迅速恢复的文件；S2，通过将GPU状态存储在内存或高速对象存储中，在将GPU状态导入显存时，获得超过操作系统文件系统带宽的性能，该基于推理实例快照的推理平台，结构设计合理，推理实例在待机状态下不占用GPU和CPU计算资源，推理实例能够低延迟启动，InferX推理平台在以下场景下可有效提升GPU资源利用率，当推理实例发生故障时，系统可快速重启新实例，以保证服务连续性；可基于实时负载动态扩展新实例，以满足突发请求需求，同时避免GPU资源闲置。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及ai推理平台，具体为一种基于推理实例快照的推理平台。

技术介绍

1、背景。

2、当前ai推理平台的主要技术缺陷

3、1.低延迟推理需求

4、·背景要求：

5、ai推理平台需要能够快速响应用户请求，通常要求响应时延尽可能短，并且不超过5秒，然而，在高并发或突发流量的场景下，现有平台难以满足这一严格要求。

6、2.冷启动时延过高

7、·技术挑战：

8、当前平台在gpu推理实例冷启动时存在显著延迟。例如，对于12b规模的模型，其冷启动时间通常超过10秒，远超5秒以内的理想响应时延。这种高时延不仅严重影响用户体验，也降低了系统整体效率。

9、3.预启动推理实例策略的局限性

10、为减少冷启动延迟，现有平台通常采用预启动推理实例（pre-warmedinstances）策略，但该方案存在以下问题：

11、·空闲实例资源浪费：

12、由于推理请求到达时间具有不可预测性，预启动的推理实例在无请求时处于闲置状...

【技术保护点】

1.一种基于推理实例快照的推理平台，其特征在于：包括由网关、调度器、节点代理、推理容器实例、容器运行时以及快照对象存储组成的系统；

2.根据权利要求1所述的一种基于推理实例快照的推理平台，其特征在于：网关，负责接收用户推理请求，将请求路由至相应的模型推理实例，并将推理结果返回给用户；

3.根据权利要求1所述的一种基于推理实例快照的推理平台，其特征在于：推理容器预启动：在用户推理请求到来前，推理平台会提前预启动推理容器，完成上述S101~S103三步，由于这三步仅需将元数据导入CPU内存，故仅占用少量（200~400MB）CPU内存，当预启动完成后，容器进入待机状态...

【技术特征摘要】

1.一种基于推理实例快照的推理平台，其特征在于：包括由网关、调度器、节点代理、推理容器实例、容器运行时以及快照对象存储组成的系统；

3.根据权利要求1所述的一种基于推理实例快照的推理平台，其特征在于：推理容器预启动：在用户推理请求到来前，推理平台会提前预启动推理容器，完成上述s101~s103三步，由于这三步仅需将元数据导入cpu内存，故仅占用少量（200~400mb）cpu内存，当预启动完成后，容器进入待机状态，此时平台会剥夺该容器的cpu计算使用权，使其不占用任何cpu资源，当用户推理请求到来时，平台将该模型的待机容器完成剩余的s104和s105两步，即可开始响应用户请求，从而避免了前三步的延迟。

4.根据权利要求1所述的一种基于推理实例快照的推理平台，其特征在于：显存节点代理预分配管理和推理容器显存共享：为完成第s104步，平台需要将gpu状态导入显存，如果此步骤由容器运行时完成，需要首先分配gpu显存，这可能导致100~500毫秒的延迟，通过显存节点代理预分配，可避免此延迟，节点代理在全局层面预先分配本节点全部gpu显存，当用户请求到来时，由节点代理负责将显存数据导入显存，然后通过gpu显存共享(例如gpu通过cuda的cudaipcmemhandle共享显存)方式，将节点代理分配的显存共享给特定容器的运行时。

5.根据权利要求1所述的一种基于推理实例快照的推理平台，其特征在于：基于2mb大页的cpu内存节点代理预分配管理和推理容器cpu内存共享：为完成第s105步，平台需要将cpu状态导入内存，类似于gpu显存管理，节点代理负责全局内存预分配和cpu内存数...

【专利技术属性】
技术研发人员：李佳欣，孙宇霖，
申请(专利权)人：孙宇霖，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人