【技术实现步骤摘要】
本专利技术涉及神经网络,具体来说涉及深度学习模型压缩领域,更具体地说,涉及一种融合剪枝量化联合优化的模型压缩方法。
技术介绍
1、近年来,随着深度学习技术的发展,gpt(generative pre-trainedtransformer)、glm(general language model pretraining with autoregressive blankinfilling)、llama(large language model meta ai)、通义千问(qwen)等大语言模型凭借其强大的表达能力和广泛适用性,越来越多地被应用于文本生成、机器翻译、问答系统等各类自然语言处理任务中。然而,这些大语言模型的规模和复杂度极大增加,参数量达到数十亿甚至千亿级别。因此,在边缘计算等资源受限场景中,部署大语言模型面临严峻挑战。针对这一问题,许多研究开始集中于如何对大语言模型进行有效压缩,以便在资源受限的设备上高效运行。
2、现有的模型压缩技术主要是利用模型剪枝(pruning)移除不重要的参数(如权重、神经元或注意力头),实
...【技术保护点】
1.一种模型压缩方法,该方法包括:
2.根据权利要求1所述的方法,其特征在于,联合训练的总损失函数为多个子损失函数的加权和,多个子损失函数包括:
3.根据权利要求2所述的方法,其特征在于,总损失函数为:
4.根据权利要求3所述的方法,其特征在于,第二子损失函数为:
5.根据权利要求3所述的方法,其特征在于,第三子损失函数为:
6.根据权利要求1-5之一所述的方法,其特征在于,量化模块利用量化参数对可训练参数进行截断、偏置和缩放处理,其中,
7.根据权利要求1-5之一所述的方法,其特征在于,量化参数
...【技术特征摘要】
1.一种模型压缩方法,该方法包括:
2.根据权利要求1所述的方法,其特征在于,联合训练的总损失函数为多个子损失函数的加权和,多个子损失函数包括:
3.根据权利要求2所述的方法,其特征在于,总损失函数为:
4.根据权利要求3所述的方法,其特征在于,第二子损失函数为:
5.根据权利要求3所述的方法,其特征在于,第三子损失函数为:
6.根据权利要求1-5之一所述的方法,其特征在于,量化模块利用量化参数对可...
【专利技术属性】
技术研发人员:郭嘉丰,程学旗,梁伯翰,李琳,廖华明,张志斌,邱强,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。