【技术实现步骤摘要】
本专利技术涉及神经网络的压缩与加速,特别是指一种基于联合优化的llms组合压缩方法、电子设备和存储介质。
技术介绍
1、大型语言模型(large language models,llms)在人工智能领域,尤其是在自然语言处理(nlp)领域,扮演着重要的角色。大型语言模型通过分析大量的文本数据来学习语言的结构、含义和用法,从而能够理解和生成自然语言文本。这些模型通常具有数十亿甚至数千亿个参数,能够处理和生成极其复杂的文本内容。
2、在深度学习领域,transformer结构在各种视觉任务中已经广泛应用,其性能随着模型尺寸的增大而显著提升。然而,transformer模型的复杂性和规模也带来了计算资源需求的大幅增加。因此,研究人员提出了多种模型压缩技术来应对这一挑战,包括量化和稀疏化等方法:
3、(1)量化是一种将模型的权重和激活值从高精度浮点数转换为低位定点数的技术。这种方法能够减少模型的大小,提高内存访问效率,从而加速计算过程。在支持低位运算的硬件上,量化模型可以显著提升推理速度。训练后量化(ptq)是一种常用的
...【技术保护点】
1. 一种基于联合优化的LLMs组合压缩方法,其特征在于包括以下步骤:
2.一种电子设备,其特征在于包括处理器、存储器和应用程序;所述应用程序被存储在所述存储器中,并被配置为由所述处理器执行如权利要求1所述的基于联合优化的LLMs组合压缩方法。
3.一种计算机可读存储介质,其特征在于所述存储介质存储有计算机程序;所述计算机程序在所述计算机中执行时,使所述计算机执行如权利要求1所述的基于联合优化的LLMs组合压缩方法。
【技术特征摘要】
1. 一种基于联合优化的llms组合压缩方法,其特征在于包括以下步骤:
2.一种电子设备,其特征在于包括处理器、存储器和应用程序;所述应用程序被存储在所述存储器中,并被配置为由所述处理器执行如权利要求1所述的基...
【专利技术属性】
技术研发人员:纪荣嵘,马跃萧,郑侠武,谢展豪,吴宇航,晁飞,
申请(专利权)人:厦门大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。