一种面向终端设备的稀疏化大语言模型的部署方法技术

技术编号:38894826 阅读:15 留言:0更新日期:2023-09-22 14:17
本发明专利技术涉及人工智能和移动计算技术领域,且公开了一种面向终端设备的稀疏化大语言模型的部署方法,在Switch Transformer网络结构的基础上通过概率统计和并行化技术进行的改进,Switch Transformer网络结构中将T5模型中的FFN层替换为MoE结构,设计一个全局的专家暂存器,专家暂存器管理从磁盘中加载的专家网络,在进行推理时会直接使用专家暂存器中的专家网络进行推理,实现了在终端设备上以少量推理时间的增加为代价,部署远大于终端设备内存上限的模型,并实现零精度损失的推理部署。并实现零精度损失的推理部署。并实现零精度损失的推理部署。

【技术实现步骤摘要】
一种面向终端设备的稀疏化大语言模型的部署方法


[0001]本专利技术涉及人工智能和移动计算
,具体为一种面向终端设备的稀疏化大语言模型的部署方法。

技术介绍

[0002]现在主流的大语言模型都是基于Transformer模型发展而来。Transformer模型包含编码器和解码器两部分结构,其中最主要的结构是自注意力结构和FFN层。GPT和BERT这两类最受关注的大语言模型分别是在Transformer的基础上仅使用解码器和仅使用编码器得到的,此外还有同时具备编码器和解码器的模型,例如T5。但是这些大语言模型都是非稀疏的,它们在进行推理的时候所有的模型权重都是激活的。为了将模型做大,在非稀疏大语言模型的基础上,研究人员们提出了稀疏化大语言模型。Switch Transformer就是在T5的基础上发展出来的稀疏化大语言模型。Switch Transformer通过Mixture

of

Exper ts(MoE)机制将FFN层扩展成有多个专家通过门控层进行选择的结构,从而使大预言模型模型的参数量可以扩展到几十到几百倍,从而更减少模型训练成本,并达到更好的效果。
[0003]现在的大语言模型都是部署在云端服务器上的,用户通过网络将输入的问题上传到云端,云服务器进行推理得到的结果下载给用户。大语言模型无法直接部署到终端,最主要的原因使大语言模型参数量太大,与终端设备的内存差距太大,因此需要将大语言模型的参数进行压缩才能在终端设备上进行部署。Switch Transformer这一类基于MoE的稀疏化大语言模型在每次推理的时候只有部分参数被激活,没有被门控层选中的参数不会被激活,对推理结果没有影响。所以这类基于MoE的稀疏化大语言模型可以通过只加载激活参数的方法将模型参数量进行压缩,以达到在终端设备上部署的效果。
[0004]本专利技术针对基于MoE的稀疏化大语言模型,在个人电脑、智能终端等终端设备上部署。本专利技术不改变模型参数,可以保证零精度损失。

技术实现思路

[0005](一)解决的技术问题
[0006]针对现有技术的不足,本专利技术提供了一种面向终端设备的稀疏化大语言模型的部署方法,具备在个人电脑、智能终端等终端设备上部署,不改变模型参数,可以保证零精度损失的优点,解决了上述
技术介绍
中所提出的问题。
[0007](二)技术方案
[0008]本专利技术提供如下技术方案:一种面向终端设备的稀疏化大语言模型的部署方法,在Switch Transformer网络结构的基础上通过概率统计和并行化技术进行的改进,以实现在终端设备上以少量推理时间的增加为代价,部署远大于终端设备内存上限的模型,并实现零精度损失的推理部署;
[0009]Switch Transformer网络结构中将T5模型中的FFN层替换为MoE结构;
[0010]模型在云服务器上进行推理前,会将全部Switch Transformer模型的参数全部存
入内存中,在进行推理时,除去MoE层其他层的全部参数都被激活;
[0011]在终端设备上部署大语言模型如下:首先,在模型加载阶段,只加载非专家网络的参数,全部专家网络的参数都不会在该阶段加载到内存中;其次,在模型推理阶段,非专家网络的其他层正常进行推理,当门控层的推理结束得到选择的该层的专家网络序号后,系统会从硬盘中加载该专家网络的参数到内存中,加载完成后,再之进行该专家网络的推理,而其他没被选中的专家网络不会进行推理。
[0012]优选的,MoE结构首先是一个门控层,该层的输入为自注意力层的输出,该层的输出控制后面的多个专家网络的选择。
[0013]优选的,全部参数在推理时都是有用的,MoE中只有门控层和被门控层选中的一个专家网络的参数是被及活动,而没被选中的专家网络的参数没有被激活,这些没有被激活的参数量和每个MoE层中的专家网络总数目直接相关。
[0014]优选的,Switch Transformer模型的参数量越大,未被激活的参数量在总参数量中的占比就越大。
[0015]优选的,该方法设置有一个全局的专家暂存器,专家暂存器管理从磁盘中加载的专家网络,在进行推理时会直接使用专家暂存器中的专家网络进行推理。
[0016]优选的,该方法中的全部专家都会被专家暂存器进行管理,非专家网络的参数占据的内存和专家暂存器占用的内存便是本专利技术使用的全部内存。
[0017]与现有技术相比,本专利技术提供了一种面向终端设备的稀疏化大语言模型的部署方法,具备以下有益效果:
[0018]该面向终端设备的稀疏化大语言模型的部署方法,在Switch Transformer网络结构的基础上通过概率统计和并行化技术进行的改进,Switch Transformer网络结构中将T5模型中的FFN层替换为MoE结构,设计一个全局的专家暂存器,专家暂存器管理从磁盘中加载的专家网络,在进行推理时会直接使用专家暂存器中的专家网络进行推理,实现了在终端设备上以少量推理时间的增加为代价,部署远大于终端设备内存上限的模型,并实现零精度损失的推理部署。
附图说明
[0019]图1为本专利技术网络结构示意图。
具体实施方式
[0020]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0021]请参阅图1,一种面向终端设备的稀疏化大语言模型的部署方法,在Switch Transformer网络结构的基础上通过概率统计和并行化技术进行的改进,以实现在终端设备上以少量推理时间的增加为代价,部署远大于终端设备内存上限的模型,并实现零精度损失的推理部署。
[0022]Switch Transformer网络结构中将T5模型中的FFN层替换为MoE结构,MoE结构首
先是一个门控层,该层的输入为自注意力层的输出,该层的输出控制后面的多个专家网络的选择。每个专家网络的结构和参数大小和T5的FFN层的相同。在传统的大语言模型的部署应用场景下,模型在云服务器上进行推理前,会将全部Switch Transformer模型的参数全部存入内存中,在进行推理时,除去MoE层其他层的全部参数都被激活,即全部参数在推理时都是有用的,MoE中只有门控层和被门控层选中的一个专家网络的参数是被及活动,而没被选中的专家网络的参数没有被激活,这些没有被激活的参数量和每个MoE层中的专家网络总数目直接相关,因此Switch Transformer模型的参数量越大,未被激活的参数量在总参数量中的占比就越大,例如在Switch Transformer中将每个MoE层的专家设置为128时,激活参数仅占总参数量的百分之一。如果在终端设备上只加载激活参数,那么可以节省一百倍的内存,这就是本专利技术的思路来源。因此可以得到一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向终端设备的稀疏化大语言模型的部署方法,其特征在于:在Switch Transformer网络结构的基础上通过概率统计和并行化技术进行的改进,以实现在终端设备上以少量推理时间的增加为代价,部署远大于终端设备内存上限的模型,并实现零精度损失的推理部署;Switch Transformer网络结构中将T5模型中的FFN层替换为MoE结构;模型在云服务器上进行推理前,会将全部Switch Transformer模型的参数全部存入内存中,在进行推理时,除去MoE层其他层的全部参数都被激活;在终端设备上部署大语言模型如下:首先,在模型加载阶段,只加载非专家网络的参数,全部专家网络的参数都不会在该阶段加载到内存中;其次,在模型推理阶段,非专家网络的其他层正常进行推理,当门控层的推理结束得到选择的该层的专家网络序号后,系统会从硬盘中加载该专家网络的参数到内存中,加载完成后,再之进行该专家网络的推理,而其他没被选中的专家网络不会进行推理。2.根据权利要求1所述的一种面向终端设备的稀疏化大语言模型的部署方法,其特征在于:MoE结构首先是一个门控...

【专利技术属性】
技术研发人员:徐梦炜衣容颉张力马骁周傲孙其博王尚广
申请(专利权)人:北京邮电大学深圳研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1