【技术实现步骤摘要】
本专利技术涉及ai推理平台,具体为一种基于推理实例快照的推理平台。
技术介绍
1、背景。
2、当前ai推理平台的主要技术缺陷
3、1.低延迟推理需求
4、·背景要求:
5、ai推理平台需要能够快速响应用户请求,通常要求响应时延尽可能短,并且不超过5秒,然而,在高并发或突发流量的场景下,现有平台难以满足这一严格要求。
6、2.冷启动时延过高
7、·技术挑战:
8、当前平台在gpu推理实例冷启动时存在显著延迟。例如,对于12b规模的模型,其冷启动时间通常超过10秒,远超5秒以内的理想响应时延。这种高时延不仅严重影响用户体验,也降低了系统整体效率。
9、3.预启动推理实例策略的局限性
10、为减少冷启动延迟,现有平台通常采用预启动推理实例(pre-warmedinstances)策略,但该方案存在以下问题:
11、·空闲实例资源浪费:
12、由于推理请求到达时间具有不可预测性,预启动的推理实例在无请求时处于闲置状
...【技术保护点】
1.一种基于推理实例快照的推理平台,其特征在于:包括由网关、调度器、节点代理、推理容器实例、容器运行时以及快照对象存储组成的系统;
2.根据权利要求1所述的一种基于推理实例快照的推理平台,其特征在于:网关,负责接收用户推理请求,将请求路由至相应的模型推理实例,并将推理结果返回给用户;
3.根据权利要求1所述的一种基于推理实例快照的推理平台,其特征在于:推理容器预启动:在用户推理请求到来前,推理平台会提前预启动推理容器,完成上述S101~S103三步,由于这三步仅需将元数据导入CPU内存,故仅占用少量(200~400MB)CPU内存,当预启动完成
...【技术特征摘要】
1.一种基于推理实例快照的推理平台,其特征在于:包括由网关、调度器、节点代理、推理容器实例、容器运行时以及快照对象存储组成的系统;
2.根据权利要求1所述的一种基于推理实例快照的推理平台,其特征在于:网关,负责接收用户推理请求,将请求路由至相应的模型推理实例,并将推理结果返回给用户;
3.根据权利要求1所述的一种基于推理实例快照的推理平台,其特征在于:推理容器预启动:在用户推理请求到来前,推理平台会提前预启动推理容器,完成上述s101~s103三步,由于这三步仅需将元数据导入cpu内存,故仅占用少量(200~400mb)cpu内存,当预启动完成后,容器进入待机状态,此时平台会剥夺该容器的cpu计算使用权,使其不占用任何cpu资源,当用户推理请求到来时,平台将该模型的待机容器完成剩余的s104和s105两步,即可开始响应用户请求,从而避免了前三步的延迟。
4.根据权利要求1所述的一种基于推理实例快照的推理平台,其特征在于:显存节点代理预分配管理和推理容器显存共享:为完成第s104步,平台需要将gpu状态导入显存,如果此步骤由容器运行时完成,需要首先分配gpu显存,这可能导致100~500毫秒的延迟,通过显存节点代理预分配,可避免此延迟,节点代理在全局层面预先分配本节点全部gpu显存,当用户请求到来时,由节点代理负责将显存数据导入显存,然后通过gpu显存共享(例如gpu通过cuda的cudaipcmemhandle共享显存)方式,将节点代理分配的显存共享给特定容器的运行时。
5.根据权利要求1所述的一种基于推理实例快照的推理平台,其特征在于:基于2mb大页的cpu内存节点代理预分配管理和推理容器cpu内存共享:为完成第s105步,平台需要将cpu状态导入内存,类似于gpu显存管理,节点代理负责全局内存预分配和cpu内存数...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。