【技术实现步骤摘要】
一种基于Kserve的批处理方法、装置、设备及介质
[0001]本专利技术涉及批处理
,尤其是指一种基于Kserve的批处理方法、装置、设备及介质。
技术介绍
[0002]近年来,随着人工智能的发展,服务于人工智能模型训练和推理的软件开始发展迅速。Kserve是一个基于kubernetes的推理工具,使用该工具时,用户只需要提供训练后的模型,即可方便地将Tensorflow、PyTorch、Triton等多种框架的模型部署成服务,从而供实际生产使用。
[0003]批处理在高性能计算中应用广泛,它可有效提高设备利用率。在人工智能推理场景中,批处理可将多个请求打包成一个批次,可提高输入数据维度,从而可有效利用擅长并行计算的GPU、MLU、FPGA等加速设备来进行数据处理。
[0004]目前,在Kserve中提供了上述批处理的功能,用于对用户输入的数据计算请求进行批量处理。使用该功能时,服务提供商需要预先设置批处理的最大批量值、最大延迟值。其中,当所有待处理的请求数量达到上述最大批量值、或者第一个到达的待处理 ...
【技术保护点】
【技术特征摘要】
1.一种基于Kserve的批处理方法,其特征在于,包括步骤:接收用户发送的数据计算请求,将所述数据计算请求加入批处理队列中;判断所述批处理队列中的请求数量是否达到当前最大批处理值;若已达到,则将所述批处理队列中的所有请求数据出队并进行推理计算;若未达到,则根据服务响应时间阈值、推理计算响应时间计算请求最大延迟值;其中,所述服务响应时间阈值为用户可容忍的、单个数据计算请求从发送到接收结果的总时间;所述推理计算响应时间为与所述当前最大批处理值数量相同的多个数据计算请求集中进行推理计算所消耗的时间;当所述批处理队列队尾的数据计算请求的等待时间达到所述请求最大延迟值时,将所述批处理队列中的所有请求数据出队并进行推理计算。2.根据权利要求1所述的基于Kserve的批处理方法,其特征在于,在将所述批处理队列中的所有请求数据出队并进行推理计算之后,所述方法还包括:对所述当前最大批处理值进行更新操作。3.根据权利要求2所述的基于Kserve的批处理方法,其特征在于,对所述当前最大批处理值进行更新操作,具体包括:判断请求服务响应时间是否大于所述服务响应时间阈值;其中,所述请求服务响应时间为所述数据计算请求进行批处理和推理计算所消耗的时间总和;若是,则将所述当前最大批处理值按步长减小;若否,则将所述当前最大批处理值按步长增加。4.根据权利要求1或3所述的基于Kserve的批处理方法,其特征在于,所述请求最大延迟值的计算公式为:请求最大延迟值=服务响应时间阈值
‑
95%*推理计算响应时间。5.根据权利要求1所述的基于Kserve的批处理方法,其特征在于,所述方法还包括:当所述批处理队列队尾的数据计算请求的等待时间未达到所述请求最大延迟值时,判断是否已接收用户发送的新的数据计算请求;若是,将所述新的数据计算请求加入所述批处理队列中。6.根据权利要求1所述的基于Kserve的批处理方法,其特征在于,在根据服务响应时间阈...
【专利技术属性】
技术研发人员:王萌,
申请(专利权)人:苏州浪潮智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。