一种任务调度方法、装置、中心服务器及存储介质制造方法及图纸

技术编号:46491982 阅读:3 留言:0更新日期:2025-09-26 19:10
本发明专利技术实施例提供了一种任务调度方法、装置、中心服务器及存储介质,涉及大语言模型技术领域。方法包括:获取待预填充文本单元的第一数目;计算目标处理结果的文本单元的预测数目与已生成文本单元的数目的差值,得到第二数目;从各执行服务器中确定备选执行服务器;针对每一备选执行服务器,基于第一数目和第二数目,预测该备选执行服务器所需的时长;基于各备选执行服务器所需的时长,从各备选执行服务器中确定目标执行服务器,并向目标执行服务器发送待处理文本,以使目标执行服务器基于大语言模型,使用目标执行服务器当前可用的目标资源对待处理文本进行处理,可以均衡使用服务器的计算资源和存读资源。

【技术实现步骤摘要】

本专利技术涉及大语言模型,特别是涉及一种任务调度方法、装置、中心服务器及存储介质


技术介绍

1、在大语言模型
中,通过训练好的llm(large language model,大语言模型),可以对用户输入的文本进行答复。具体的,将文本输入llm后,llm会基于文本得到多个token(离散文本单元),通过大量的计算对该多个token进行prefill(预填充),确定该文本对应的kv(key value;键值对);基于kv进行decode(解码),生成多个token。生成的各token组合成的文本即针对该文本的答复。如通过decode生成的各token依次指示字符“t”、“o”、“k”、“e”、“n”,则针对该文本的答复即为“token”。且decode过程中每次计算出数据后,可以将计算出的数据存储在kvcache(键值缓存空间)中;在后续需要使用这些数据时,再从kvcache中读取已存储的数据。

2、相关技术中,用户通过线上平台输入文本后,线上平台将针对该文本的处理任务发送给当前并行处理的任务数最少的服务器;该服务器基于自身部署的llm得本文档来自技高网...

【技术保护点】

1.一种任务调度方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述从各执行服务器中,确定当前的剩余存储空间满足利用所述大语言模型对所述待处理文本进行处理的执行服务器,作为备选执行服务器,包括:

3.根据权利要求1所述的方法,其特征在于,所述待处理文本为多个;

4.根据权利要求1所述的方法,其特征在于,所述针对每一备选执行服务器,基于所述第一数目和所述第二数目,预测若向该备选执行服务器发送所述待处理文本,该备选执行服务器利用所述大语言模型得到当前的指定文本针对当前处理阶段的处理结果所需的时长,包括:>

5.根据权利...

【技术特征摘要】

1.一种任务调度方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述从各执行服务器中,确定当前的剩余存储空间满足利用所述大语言模型对所述待处理文本进行处理的执行服务器,作为备选执行服务器,包括:

3.根据权利要求1所述的方法,其特征在于,所述待处理文本为多个;

4.根据权利要求1所述的方法,其特征在于,所述针对每一备选执行服务器,基于所述第一数目和所述第二数目,预测若向该备选执行服务器发送所述待处理文本,该备选执行服务器利用所述大语言模型得到当前的指定文本针对当前处理阶段的处理结果所需的时长,包括:

5.根据权利要求4所述的方法,其特征在于,所述基于各备选执行服务器所需的时长,从各备选执行服务器中确定目标执行服务器,包括:

6.根据权利要求1所述的方法,其特征在于,在所述获取待预填充文本单元的数目,作为第一数目之前,所述方法还包括:

7.根据权利要求1所述的方法,其特征在于,所述针...

【专利技术属性】
技术研发人员:罗雪阳
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1