当前位置: 首页 > 专利查询>孙宇霖专利>正文

一种基于推理实例快照的推理平台制造技术

技术编号:46066460 阅读:9 留言:0更新日期:2025-08-11 15:54
本发明专利技术公开了AI推理平台技术领域的一种基于推理实例快照的推理平台,由网关、调度器、节点代理、推理容器实例、容器运行时以及快照对象存储组成的系统;S1,将已初始化完成的推理容器的CPU和GPU状态保存为可迅速恢复的文件;S2,通过将GPU状态存储在内存或高速对象存储中,在将GPU状态导入显存时,获得超过操作系统文件系统带宽的性能,该基于推理实例快照的推理平台,结构设计合理,推理实例在待机状态下不占用GPU和CPU计算资源,推理实例能够低延迟启动,InferX推理平台在以下场景下可有效提升GPU资源利用率,当推理实例发生故障时,系统可快速重启新实例,以保证服务连续性;可基于实时负载动态扩展新实例,以满足突发请求需求,同时避免GPU资源闲置。

【技术实现步骤摘要】

本专利技术涉及ai推理平台,具体为一种基于推理实例快照的推理平台


技术介绍

1、背景。

2、当前ai推理平台的主要技术缺陷

3、1.低延迟推理需求

4、·背景要求:

5、ai推理平台需要能够快速响应用户请求,通常要求响应时延尽可能短,并且不超过5秒,然而,在高并发或突发流量的场景下,现有平台难以满足这一严格要求。

6、2.冷启动时延过高

7、·技术挑战:

8、当前平台在gpu推理实例冷启动时存在显著延迟。例如,对于12b规模的模型,其冷启动时间通常超过10秒,远超5秒以内的理想响应时延。这种高时延不仅严重影响用户体验,也降低了系统整体效率。

9、3.预启动推理实例策略的局限性

10、为减少冷启动延迟,现有平台通常采用预启动推理实例(pre-warmedinstances)策略,但该方案存在以下问题:

11、·空闲实例资源浪费:

12、由于推理请求到达时间具有不可预测性,预启动的推理实例在无请求时处于闲置状态,导致大量gpu资本文档来自技高网...

【技术保护点】

1.一种基于推理实例快照的推理平台,其特征在于:包括由网关、调度器、节点代理、推理容器实例、容器运行时以及快照对象存储组成的系统;

2.根据权利要求1所述的一种基于推理实例快照的推理平台,其特征在于:网关,负责接收用户推理请求,将请求路由至相应的模型推理实例,并将推理结果返回给用户;

3.根据权利要求1所述的一种基于推理实例快照的推理平台,其特征在于:推理容器预启动:在用户推理请求到来前,推理平台会提前预启动推理容器,完成上述S101~S103三步,由于这三步仅需将元数据导入CPU内存,故仅占用少量(200~400MB)CPU内存,当预启动完成后,容器进入待机状态...

【技术特征摘要】

1.一种基于推理实例快照的推理平台,其特征在于:包括由网关、调度器、节点代理、推理容器实例、容器运行时以及快照对象存储组成的系统;

2.根据权利要求1所述的一种基于推理实例快照的推理平台,其特征在于:网关,负责接收用户推理请求,将请求路由至相应的模型推理实例,并将推理结果返回给用户;

3.根据权利要求1所述的一种基于推理实例快照的推理平台,其特征在于:推理容器预启动:在用户推理请求到来前,推理平台会提前预启动推理容器,完成上述s101~s103三步,由于这三步仅需将元数据导入cpu内存,故仅占用少量(200~400mb)cpu内存,当预启动完成后,容器进入待机状态,此时平台会剥夺该容器的cpu计算使用权,使其不占用任何cpu资源,当用户推理请求到来时,平台将该模型的待机容器完成剩余的s104和s105两步,即可开始响应用户请求,从而避免了前三步的延迟。

4.根据权利要求1所述的一种基于推理实例快照的推理平台,其特征在于:显存节点代理预分配管理和推理容器显存共享:为完成第s104步,平台需要将gpu状态导入显存,如果此步骤由容器运行时完成,需要首先分配gpu显存,这可能导致100~500毫秒的延迟,通过显存节点代理预分配,可避免此延迟,节点代理在全局层面预先分配本节点全部gpu显存,当用户请求到来时,由节点代理负责将显存数据导入显存,然后通过gpu显存共享(例如gpu通过cuda的cudaipcmemhandle共享显存)方式,将节点代理分配的显存共享给特定容器的运行时。

5.根据权利要求1所述的一种基于推理实例快照的推理平台,其特征在于:基于2mb大页的cpu内存节点代理预分配管理和推理容器cpu内存共享:为完成第s105步,平台需要将cpu状态导入内存,类似于gpu显存管理,节点代理负责全局内存预分配和cpu内存数...

【专利技术属性】
技术研发人员:李佳欣孙宇霖
申请(专利权)人:孙宇霖
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1