【技术实现步骤摘要】
本专利技术涉及机器学习,尤其涉及一种面向定制大模型的多模型推理方法和装置。
技术介绍
1、近年来,以chatgpt为代表的预训练大模型(即基础模型)技术取得了巨大的进步,展现出卓越的自然语言理解和推理能力。这样的基础模型可以通过在特定领域数据上微调生成领域定制模型,以更高的精度解决特定领域的问题。目前最常用的微调方式是“低秩适应”(low-rank adaptation,简称lora)技术,其会在基础模型的基础上产生一个轻量级的“低秩适配器”(lora adapter),该适配器的参数量往往只占不到原模型的1%。例如,对于一个大小为4096*4096的基础模型参数矩阵,其对应的适配器可以是大小为4096*16与16*4096的两个矩阵,分别称为lora a和lora b,其中16为该适配器的秩(rank)。在微调的过程中,只需要更新适配器的参数,而不需要更新主干基础模型的参数,从而大大提升微调的效率和效果。
2、然而,当多个模型同时在一台机器上提供服务的时候,由于模型之间参数不同,因此多个模型的不同请求无法合并起来进行批处理
...【技术保护点】
1.一种面向定制大模型的多模型推理方法,其特征在于,包括:
2.根据权利要求1所述的面向定制大模型的多模型推理方法,其特征在于,所述根据所述待处理请求确定当前执行模式,具体包括:
3.根据权利要求2所述的面向定制大模型的多模型推理方法,其特征在于,将所述目标设备的历史执行模式转化为所述当前执行模式,具体包括:
4.根据权利要求2或3所述的面向定制大模型的多模型推理方法,其特征在于,在所述当前执行模式为聚合模式的情况下,所述基于所述目标设备对所述待处理请求进行推理,具体包括:
5.根据权利要求2或3所述的面向定制大模型的多
...【技术特征摘要】
1.一种面向定制大模型的多模型推理方法,其特征在于,包括:
2.根据权利要求1所述的面向定制大模型的多模型推理方法,其特征在于,所述根据所述待处理请求确定当前执行模式,具体包括:
3.根据权利要求2所述的面向定制大模型的多模型推理方法,其特征在于,将所述目标设备的历史执行模式转化为所述当前执行模式,具体包括:
4.根据权利要求2或3所述的面向定制大模型的多模型推理方法,其特征在于,在所述当前执行模式为聚合模式的情况下,所述基于所述目标设备对所述待处理请求进行推理,具体包括:
5.根据权利要求2或3所述的面向定制大模型的多模型推理方法,其特征在于,在所述当前执行模式为旁路模式的情况下,所述基于所述目标设备对所述待处理请求进行推理,具体包括:
6.根据权利要求5所述的面向定...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。