一种推理服务系统技术方案

技术编号:46061593 阅读:14 留言:0更新日期:2025-08-11 15:47
本申请提供一种推理服务系统,全局控制器用于预先将机器资源划分为交互式资源池和批处理式资源池;当接收到推理请求时,确定推理请求的服务级别目标类型,并根据服务级别目标类型对交互式资源池和批处理式资源池进行资源扩缩;集群控制器用于预先将交互式资源池和批处理式资源池分别划分为提示词资源池和令牌资源池;针对推理请求的提示词阶段和令牌阶段,分别从提示词资源池和令牌资源池中分配相应的提示词资源和令牌资源,并对提示词资源池和令牌资源池进行资源扩缩;机器控制器用于根据服务级别目标类型和所属机器的使用状态调整处理推理请求的批处理大小。在满足服务级别目标的前提下,提高推理服务系统的资源利用率和吞吐性能。

【技术实现步骤摘要】

本申请涉及推理服务,尤其涉及一种推理服务系统


技术介绍

1、随着人工智能技术的飞速发展,出现了基于大语言模型(large language model,llm)的推理服务技术,其具有强大的自然语言理解和生成能力,已在众多领域得到广泛应用,如智能客服、文档处理等。llm推理服务一般部署在机器资源上,在诸多的llm推理场景中,通常都存在用户推理请求数量波动变化大、推理请求延迟要求高等特点。

2、传统技术方案中,针对这些问题,云服务提供商通常采用自动扩缩技术来处理推理请求。通过监控和预测机器资源的资源利用率、请求吞吐量和推理延迟等关键指标来动态调整机器资源。然而,按照目前的技术方案,仍可能由于推理请求突发峰值导致违反服务级别目标(service level objective,slo)(未能达到服务级别目标),影响推理效率和机器资源的资源利用率。

3、因此,如何提高推理服务系统的推理效率、资源利用率和吞吐性能,是本领域技术人员目前需要解决的技术问题。


技术实现思路

1、本申请的目的在于提供本文档来自技高网...

【技术保护点】

1.一种推理服务系统,其特征在于,所述推理服务系统包括全局控制器、集群控制器和多个机器控制器;所述全局控制器与所述集群控制器通信连接,所述集群控制器与各所述机器控制器分别通信连接;

2.根据权利要求1所述的推理服务系统,其特征在于,所述全局控制器在执行所述预先将机器资源划分为交互式资源池和批处理式资源池时被配置为:

3.根据权利要求2所述的推理服务系统,其特征在于,所述全局控制器在执行所述若根据所述服务级别目标类型确定所述推理请求为交互式请求,利用所述混合式资源池对所述交互式资源池进行资源扩缩时被配置为:

4.根据权利要求3所述的推理服务系统,其特征在...

【技术特征摘要】

1.一种推理服务系统,其特征在于,所述推理服务系统包括全局控制器、集群控制器和多个机器控制器;所述全局控制器与所述集群控制器通信连接,所述集群控制器与各所述机器控制器分别通信连接;

2.根据权利要求1所述的推理服务系统,其特征在于,所述全局控制器在执行所述预先将机器资源划分为交互式资源池和批处理式资源池时被配置为:

3.根据权利要求2所述的推理服务系统,其特征在于,所述全局控制器在执行所述若根据所述服务级别目标类型确定所述推理请求为交互式请求,利用所述混合式资源池对所述交互式资源池进行资源扩缩时被配置为:

4.根据权利要求3所述的推理服务系统,其特征在于,所述全局控制器在执行所述根据所述资源利用率和所述资源比例对所述交互式资源进行资源扩缩时被配置为:

5.根据权利要求4所述的推理服务系统,其特征在于,所述全局控制器还用于:

6.根据权利要求1所述的推理服务系统...

【专利技术属性】
技术研发人员:赖卓楠徐传飞曹伟朋陶希明仲
申请(专利权)人:人工智能与数字经济广东省实验室深圳
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1