【技术实现步骤摘要】
本专利技术涉及模型运算,尤其涉及一种模型运算方法、装置、电子设备和存储介质。
技术介绍
1、大语言模型参数量较大,而且随着模型规模增大所对应的存储开销也相应增大,从而难以在单卡支持大语言模型。为了尽可能支持大模型,相关技术通常会采用各类量化技术对权重矩阵进行压缩,将高比特的权重矩阵压缩到低比特权重矩阵,从而节省内存存储开销。
2、相关技术中的量化方式包括按行量化或按块量化,但采用上述量化方式进行量化后,在进行矩阵乘运算前需要先将低比特的权重矩阵反量化到压缩前的高比特权重矩阵,然后再进行矩阵乘运算,也就是增加了一次低比特权重矩阵的加载以及反量化时间,对模型的推理速度并无增益效果。
技术实现思路
1、本专利技术提供一种模型运算方法、装置、电子设备和存储介质,用以解决现有技术中对权重矩阵按行量化或按块量化对模型的推理速度并无增益效果的缺陷。
2、本专利技术提供一种模型运算方法,包括:
3、确定第一矩阵以及第二矩阵;
4、对所述第二矩阵进行反量化,并
...【技术保护点】
1.一种模型运算方法,其特征在于,包括:
2.根据权利要求1所述的模型运算方法,其特征在于,所述对所述第二矩阵进行反量化,并将反量化后的结果存储至缓存单元,包括:
3.根据权利要求2所述的模型运算方法,其特征在于,所述从所述缓存单元读取所述反量化后的结果,并基于所述第一矩阵和所述反量化后的结果进行模型运算,包括:
4.根据权利要求3所述的模型运算方法,其特征在于,所述得到当前运算结果,之后还包括:
5.根据权利要求4所述的模型运算方法,其特征在于,所述得到当前运算结果,之后还包括:
6.根据权利要求5所述的模
...【技术特征摘要】
1.一种模型运算方法,其特征在于,包括:
2.根据权利要求1所述的模型运算方法,其特征在于,所述对所述第二矩阵进行反量化,并将反量化后的结果存储至缓存单元,包括:
3.根据权利要求2所述的模型运算方法,其特征在于,所述从所述缓存单元读取所述反量化后的结果,并基于所述第一矩阵和所述反量化后的结果进行模型运算,包括:
4.根据权利要求3所述的模型运算方法,其特征在于,所述得到当前运算结果,之后还包括:
5.根据权利要求4所述的模型运算方法,其特征在于,所述得到当前运算结果,之后还包括:
6.根据权利要求5所述的模型运算方法,其特征...
【专利技术属性】
技术研发人员:请求不公布姓名,请求不公布姓名,请求不公布姓名,请求不公布姓名,
申请(专利权)人:上海壁仞科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。