【技术实现步骤摘要】
本申请涉及模型部署,尤其涉及多模态大语言模型量化方法、装置、设备、存储介质及产品。
技术介绍
1、目前,大模型在量化部署时,由于模型较大,一般需要进行拆分部署,且为了尽可能简化大模型,还需要对模型进行量化,缩小其中的参数之后,再进行相应的部署,可以减少神经网络模型的计算代价、数据带宽和储存空间,使得神经网络模型能够在内存和计算能力有限的硬件上更快更好的应用。
2、而目前的语言大模型,都是多轮自回归的架构,部署推理通常使用专用加速器,这类专用加速器往往无法处理常规的对于图像或视频等模态的特征提取任务,这也导致多模态语言大模型的量化部署较为困难。
技术实现思路
1、本申请的主要目的在于提供一种专利技术名称,旨在解决相关技术多模态语言大模型难以合理量化部署,量化部署效果差的技术问题。
2、为实现上述目的,本申请提出一种多模态大语言模型量化方法,所述方法包括:
3、将待量化大模型划分为多模态处理分块以及语言模型分块,所述待量化大模型为支持多模态输入的语言大模型;
4、根本文档来自技高网...
【技术保护点】
1.一种多模态大语言模型量化方法,其特征在于,所述方法包括:
2.如权利要求1所述的多模态大语言模型量化方法,其特征在于,所述基于所述处理子模块序列对所述多模态处理分块中各处理子模块分别进行量化,包括:
3.如权利要求2所述的多模态大语言模型量化方法,其特征在于,所述依据所述处理子模块序列的序列顺序对所述处理子模块序列进行遍历,获得当前处理子模块之前,还包括:
4.如权利要求3所述的多模态大语言模型量化方法,其特征在于,所述基于所述量化前输出以及所述量化后输出对所述多模态处理分块中未量化的处理子模块的参数进行调整,包括:
【技术特征摘要】
1.一种多模态大语言模型量化方法,其特征在于,所述方法包括:
2.如权利要求1所述的多模态大语言模型量化方法,其特征在于,所述基于所述处理子模块序列对所述多模态处理分块中各处理子模块分别进行量化,包括:
3.如权利要求2所述的多模态大语言模型量化方法,其特征在于,所述依据所述处理子模块序列的序列顺序对所述处理子模块序列进行遍历,获得当前处理子模块之前,还包括:
4.如权利要求3所述的多模态大语言模型量化方法,其特征在于,所述基于所述量化前输出以及所述量化后输出对所述多模态处理分块中未量化的处理子模块的参数进行调整,包括:
5.如权利要求2所述的多模态大语言模型量化方法,其特征在于,所述对所述多模态处理分块中所述当前处理子模块进行量化,包括:
6.如权利要求1所述的多模态大语言模型量化方法,其特征在于,所述根据量化后的所述多模态处理分块确定语言子模块序列,包括:
7.如权利要求1所述的多模态大语言模型量化方法,其特征在于,所述依据所述语言子模块序列对所述语言模型分块中各语言子模块分别进行量化,包括:
8.如权利...
【专利技术属性】
技术研发人员:彭博,李哲暘,谭文明,
申请(专利权)人:杭州海康威视数字技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。