【技术实现步骤摘要】
本申请涉及推理服务,尤其涉及一种推理服务系统。
技术介绍
1、随着人工智能技术的飞速发展,出现了基于大语言模型(large language model,llm)的推理服务技术,其具有强大的自然语言理解和生成能力,已在众多领域得到广泛应用,如智能客服、文档处理等。llm推理服务一般部署在机器资源上,在诸多的llm推理场景中,通常都存在用户推理请求数量波动变化大、推理请求延迟要求高等特点。
2、传统技术方案中,针对这些问题,云服务提供商通常采用自动扩缩技术来处理推理请求。通过监控和预测机器资源的资源利用率、请求吞吐量和推理延迟等关键指标来动态调整机器资源。然而,按照目前的技术方案,仍可能由于推理请求突发峰值导致违反服务级别目标(service level objective,slo)(未能达到服务级别目标),影响推理效率和机器资源的资源利用率。
3、因此,如何提高推理服务系统的推理效率、资源利用率和吞吐性能,是本领域技术人员目前需要解决的技术问题。
技术实现思路
1、
...【技术保护点】
1.一种推理服务系统,其特征在于,所述推理服务系统包括全局控制器、集群控制器和多个机器控制器;所述全局控制器与所述集群控制器通信连接,所述集群控制器与各所述机器控制器分别通信连接;
2.根据权利要求1所述的推理服务系统,其特征在于,所述全局控制器在执行所述预先将机器资源划分为交互式资源池和批处理式资源池时被配置为:
3.根据权利要求2所述的推理服务系统,其特征在于,所述全局控制器在执行所述若根据所述服务级别目标类型确定所述推理请求为交互式请求,利用所述混合式资源池对所述交互式资源池进行资源扩缩时被配置为:
4.根据权利要求3所述的推
...【技术特征摘要】
1.一种推理服务系统,其特征在于,所述推理服务系统包括全局控制器、集群控制器和多个机器控制器;所述全局控制器与所述集群控制器通信连接,所述集群控制器与各所述机器控制器分别通信连接;
2.根据权利要求1所述的推理服务系统,其特征在于,所述全局控制器在执行所述预先将机器资源划分为交互式资源池和批处理式资源池时被配置为:
3.根据权利要求2所述的推理服务系统,其特征在于,所述全局控制器在执行所述若根据所述服务级别目标类型确定所述推理请求为交互式请求,利用所述混合式资源池对所述交互式资源池进行资源扩缩时被配置为:
4.根据权利要求3所述的推理服务系统,其特征在于,所述全局控制器在执行所述根据所述资源利用率和所述资源比例对所述交互式资源进行资源扩缩时被配置为:
5.根据权利要求4所述的推理服务系统,其特征在于,所述全局控制器还用于:
6.根据权利要求1所述的推理服务系统...
【专利技术属性】
技术研发人员:赖卓楠,徐传飞,曹伟朋,陶希,明仲,
申请(专利权)人:人工智能与数字经济广东省实验室深圳,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。