【技术实现步骤摘要】
本申请一个或多个实施例涉及人工智能,尤其涉及一种推理系统的内存管理方法和装置。
技术介绍
1、推理系统(inference system)是一种计算机程序,它使用逻辑规则和已知的事实来得出新的结论或决策。推理系统是人工智能领域的一个重要组成部分,主要用于模拟人类的决策过程。它基于一组已定义的知识库和推理引擎来推导出结论。推理系统可以执行其获取到的推理请求(inference request),并输出对应的推理结果。
2、一个典型的推理系统通常由以下几个部分组成:知识库(knowledge base)、推理引擎(inference engine)、用户界面(user interface)、解释机制(explanationfacility)。其中,知识库包括存储系统所知道的所有事实和规则,这些事实可以是关于世界的状态、对象属性等,而规则则是描述如何从已知事实中得出新结论的逻辑表达式。推理引擎是推理系统的核心组件,它负责执行推理过程中的逻辑运算,即从给定的知识库中得出新的结论或决策;推理引擎使用一系列规则和已知事实来推导出新的知识
...【技术保护点】
1.一种推理系统的内存管理方法,应用于推理系统中的推理引擎;所述推理引擎的计算资源包括用于部署所述推理引擎的计算设备上搭载的GPU;所述推理引擎维护了用于调度处于Prefill阶段的推理请求集合的Prefill调度队列,以及用于调度处于Decode阶段的推理请求集合的Decode调度队列;所述方法包括:
2.根据权利要求1所述的方法,所述根据与所述Prefill调度队列中正在执行的Prefill推理请求集合相关联的数据处理时长,确定Prefill内存管理时间窗口,包括:
3.根据权利要求1所述的方法,所述根据与所述Decode调度队列中正在执行
...【技术特征摘要】
1.一种推理系统的内存管理方法,应用于推理系统中的推理引擎;所述推理引擎的计算资源包括用于部署所述推理引擎的计算设备上搭载的gpu;所述推理引擎维护了用于调度处于prefill阶段的推理请求集合的prefill调度队列,以及用于调度处于decode阶段的推理请求集合的decode调度队列;所述方法包括:
2.根据权利要求1所述的方法,所述根据与所述prefill调度队列中正在执行的prefill推理请求集合相关联的数据处理时长,确定prefill内存管理时间窗口,包括:
3.根据权利要求1所述的方法,所述根据与所述decode调度队列中正在执行的decode推理请求集合相关联的数据处理时长,确定decode内存管理时间窗口,包括:
4.根据权利要求1所述的方法,计算内存管理时间窗口内与推理请求集合对应的gpu内存需求量,包括:
5.根据权利要求4所述的方法,所述计算内存管理时间窗口内与推理请求集合对应的静态gpu内存使用量,包括:
【专利技术属性】
技术研发人员:丁治强,杨统凯,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。