【技术实现步骤摘要】
本专利技术涉及大语言模型,特别是涉及一种任务调度方法、装置、中心服务器及存储介质。
技术介绍
1、在大语言模型
中,通过训练好的llm(large language model,大语言模型),可以对用户输入的文本进行答复。具体的,将文本输入llm后,llm会基于文本得到多个token(离散文本单元),通过大量的计算对该多个token进行prefill(预填充),确定该文本对应的kv(key value;键值对);基于kv进行decode(解码),生成多个token。生成的各token组合成的文本即针对该文本的答复。如通过decode生成的各token依次指示字符“t”、“o”、“k”、“e”、“n”,则针对该文本的答复即为“token”。且decode过程中每次计算出数据后,可以将计算出的数据存储在kvcache(键值缓存空间)中;在后续需要使用这些数据时,再从kvcache中读取已存储的数据。
2、相关技术中,用户通过线上平台输入文本后,线上平台将针对该文本的处理任务发送给当前并行处理的任务数最少的服务器;该服务器基
...【技术保护点】
1.一种任务调度方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述从各执行服务器中,确定当前的剩余存储空间满足利用所述大语言模型对所述待处理文本进行处理的执行服务器,作为备选执行服务器,包括:
3.根据权利要求1所述的方法,其特征在于,所述待处理文本为多个;
4.根据权利要求1所述的方法,其特征在于,所述针对每一备选执行服务器,基于所述第一数目和所述第二数目,预测若向该备选执行服务器发送所述待处理文本,该备选执行服务器利用所述大语言模型得到当前的指定文本针对当前处理阶段的处理结果所需的时长,包括:
>5.根据权利...
【技术特征摘要】
1.一种任务调度方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述从各执行服务器中,确定当前的剩余存储空间满足利用所述大语言模型对所述待处理文本进行处理的执行服务器,作为备选执行服务器,包括:
3.根据权利要求1所述的方法,其特征在于,所述待处理文本为多个;
4.根据权利要求1所述的方法,其特征在于,所述针对每一备选执行服务器,基于所述第一数目和所述第二数目,预测若向该备选执行服务器发送所述待处理文本,该备选执行服务器利用所述大语言模型得到当前的指定文本针对当前处理阶段的处理结果所需的时长,包括:
5.根据权利要求4所述的方法,其特征在于,所述基于各备选执行服务器所需的时长,从各备选执行服务器中确定目标执行服务器,包括:
6.根据权利要求1所述的方法,其特征在于,在所述获取待预填充文本单元的数目,作为第一数目之前,所述方法还包括:
7.根据权利要求1所述的方法,其特征在于,所述针...
【专利技术属性】
技术研发人员:罗雪阳,
申请(专利权)人:北京奇艺世纪科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。