当前位置: 首页 > 专利查询>清华大学专利>正文

面向定制大模型的多模型推理方法和装置制造方法及图纸

技术编号:41718190 阅读:18 留言:0更新日期:2024-06-19 12:44
本发明专利技术提供一种面向定制大模型的多模型推理方法和装置,包括:基于目标设备获取每个定制大模型的待处理请求;根据所述待处理请求确定当前执行模式;所述当前执行模式包括聚合模式、旁路模式和逆聚合模式中的一种;将所述目标设备的历史执行模式转化为所述当前执行模式,基于所述目标设备对所述待处理请求进行推理。本发明专利技术引入多适配器负载的三种执行模式,即聚合模式、旁路模式、逆聚合模式,根据实际负载特征选择最优执行模式,根据选择的执行模式进行模式切换后做出推理,该方法可以显著提升多低秩适配器场景下的服务吞吐量,从而提高服务器资源利用率和推理性能。

【技术实现步骤摘要】

本专利技术涉及机器学习,尤其涉及一种面向定制大模型的多模型推理方法和装置


技术介绍

1、近年来,以chatgpt为代表的预训练大模型(即基础模型)技术取得了巨大的进步,展现出卓越的自然语言理解和推理能力。这样的基础模型可以通过在特定领域数据上微调生成领域定制模型,以更高的精度解决特定领域的问题。目前最常用的微调方式是“低秩适应”(low-rank adaptation,简称lora)技术,其会在基础模型的基础上产生一个轻量级的“低秩适配器”(lora adapter),该适配器的参数量往往只占不到原模型的1%。例如,对于一个大小为4096*4096的基础模型参数矩阵,其对应的适配器可以是大小为4096*16与16*4096的两个矩阵,分别称为lora a和lora b,其中16为该适配器的秩(rank)。在微调的过程中,只需要更新适配器的参数,而不需要更新主干基础模型的参数,从而大大提升微调的效率和效果。

2、然而,当多个模型同时在一台机器上提供服务的时候,由于模型之间参数不同,因此多个模型的不同请求无法合并起来进行批处理(batching)本文档来自技高网...

【技术保护点】

1.一种面向定制大模型的多模型推理方法,其特征在于,包括:

2.根据权利要求1所述的面向定制大模型的多模型推理方法,其特征在于,所述根据所述待处理请求确定当前执行模式,具体包括:

3.根据权利要求2所述的面向定制大模型的多模型推理方法,其特征在于,将所述目标设备的历史执行模式转化为所述当前执行模式,具体包括:

4.根据权利要求2或3所述的面向定制大模型的多模型推理方法,其特征在于,在所述当前执行模式为聚合模式的情况下,所述基于所述目标设备对所述待处理请求进行推理,具体包括:

5.根据权利要求2或3所述的面向定制大模型的多模型推理方法,其特征...

【技术特征摘要】

1.一种面向定制大模型的多模型推理方法,其特征在于,包括:

2.根据权利要求1所述的面向定制大模型的多模型推理方法,其特征在于,所述根据所述待处理请求确定当前执行模式,具体包括:

3.根据权利要求2所述的面向定制大模型的多模型推理方法,其特征在于,将所述目标设备的历史执行模式转化为所述当前执行模式,具体包括:

4.根据权利要求2或3所述的面向定制大模型的多模型推理方法,其特征在于,在所述当前执行模式为聚合模式的情况下,所述基于所述目标设备对所述待处理请求进行推理,具体包括:

5.根据权利要求2或3所述的面向定制大模型的多模型推理方法,其特征在于,在所述当前执行模式为旁路模式的情况下,所述基于所述目标设备对所述待处理请求进行推理,具体包括:

6.根据权利要求5所述的面向定...

【专利技术属性】
技术研发人员:李元春刘云新
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1