一种面向终端设备的稀疏化大语言模型的部署方法技术

技术编号：38894826 阅读：15 留言：0更新日期：2023-09-22 14:17

本发明专利技术涉及人工智能和移动计算技术领域，且公开了一种面向终端设备的稀疏化大语言模型的部署方法，在Switch Transformer网络结构的基础上通过概率统计和并行化技术进行的改进，Switch Transformer网络结构中将T5模型中的FFN层替换为MoE结构，设计一个全局的专家暂存器，专家暂存器管理从磁盘中加载的专家网络，在进行推理时会直接使用专家暂存器中的专家网络进行推理，实现了在终端设备上以少量推理时间的增加为代价，部署远大于终端设备内存上限的模型，并实现零精度损失的推理部署。并实现零精度损失的推理部署。并实现零精度损失的推理部署。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向终端设备的稀疏化大语言模型的部署方法

[0001]本专利技术涉及人工智能和移动计算
，具体为一种面向终端设备的稀疏化大语言模型的部署方法。

技术介绍

[0002]现在主流的大语言模型都是基于Transformer模型发展而来。Transformer模型包含编码器和解码器两部分结构，其中最主要的结构是自注意力结构和FFN层。GPT和BERT这两类最受关注的大语言模型分别是在Transformer的基础上仅使用解码器和仅使用编码器得到的，此外还有同时具备编码器和解码器的模型，例如T5。但是这些大语言模型都是非稀疏的，它们在进行推理的时候所有的模型权重都是激活的。为了将模型做大，在非稀疏大语言模型的基础上，研究人员们提出了稀疏化大语言模型。Switch Transformer就是在T5的基础上发展出来的稀疏化大语言模型。Switch Transformer通过Mixture
‑
of
‑
Exper ts(MoE)机制将FFN层扩展成有多个专家通过门控层进行选择的结构，从而使大预言模型模型的参数量可以扩展到几十到几百倍，从而更减少模型训练成本，并达到更好的效果。
[0003]现在的大语言模型都是部署在云端服务器上的，用户通过网络将输入的问题上传到云端，云服务器进行推理得到的结果下载给用户。大语言模型无法直接部署到终端，最主要的原因使大语言模型参数量太大，与终端设备的内存差距太大，因此需要将大语言模型的参数进行压缩才能在终端设备上进行部署。Switch Transform...

【技术保护点】

【技术特征摘要】
1.一种面向终端设备的稀疏化大语言模型的部署方法，其特征在于：在Switch Transformer网络结构的基础上通过概率统计和并行化技术进行的改进，以实现在终端设备上以少量推理时间的增加为代价，部署远大于终端设备内存上限的模型，并实现零精度损失的推理部署；Switch Transformer网络结构中将T5模型中的FFN层替换为MoE结构；模型在云服务器上进行推理前，会将全部Switch Transformer模型的参数全部存入内存中，在进行推理时，除去MoE层其他层的全部参数都被激活；在终端设备上部署大语言模型如下：首先，在模型加载阶段，只加载非专家网络的参数，全部专家网络的参数都不会在该阶段加载到内存中；其次，在模型推理阶段，非专家网络的其他层正常进行推理，当门控层的推理结束得到选择的该层的专家网络序号后，系统会从硬盘中加载该专家网络的参数到内存中，加载完成后，再之进行该专家网络的推理，而其他没被选中的专家网络不会进行推理。2.根据权利要求1所述的一种面向终端设备的稀疏化大语言模型的部署方法，其特征在于：MoE结构首先是一个门控...

【专利技术属性】
技术研发人员：徐梦炜，衣容颉，张力，马骁，周傲，孙其博，王尚广，
申请(专利权)人：北京邮电大学深圳研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人