【技术实现步骤摘要】
本专利技术涉及人工智能,尤其涉及一种人工智能ai模型的量化推理方法、推理系统和计算设备。
技术介绍
1、人工智能(artificial intellectual,ai)模型是指利用数据和算法对某一领域或任务中的问题进行建模和解决。以ai模型为transformer模型为例,transformer模型是一种基于自注意力机制的神经网络模型,用于自然语言处理和其他序列到序列的任务。transformer模型可以应用在机器翻译、问答系统、语音识别和文本生成等领域。transformer模型能够处理长文本序列,同时具有并行计算的能力,可以高效地训练和预测。随着人工智能(artificial intellectual,ai)技术的发展,transformer模型的规模越来越大。大规模的transformer模型存在参数量比较大、占用的内存比较多等问题,使得transformer模型的计算复杂度比较高。
技术实现思路
1、为了解决上述的问题,本申请的实施例中提供了一种人工智能ai模型的量化推理方法,将权
...【技术保护点】
1.一种人工智能AI模型的量化推理方法,其特征在于,所述方法由推理系统执行,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述将所述权重矩阵中的离群值所在列的权重参数分配至至少一个第一计算单元,具体包括:
3.根据权利要求1或2所述的方法,其特征在于,所述将所述至少一个第一计算单元中的权重参数与激活矩阵进行第一类型量化计算,将所述至少一个第二计算单元中的权重参数与所述激活矩阵进行第二类型量化计算,具体包括:
4.根据权利要求3所述的方法,其特征在于,还包括:
5.根据权利要求3或4所述的方法,其特征在于,所述
...【技术特征摘要】
1.一种人工智能ai模型的量化推理方法,其特征在于,所述方法由推理系统执行,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述将所述权重矩阵中的离群值所在列的权重参数分配至至少一个第一计算单元,具体包括:
3.根据权利要求1或2所述的方法,其特征在于,所述将所述至少一个第一计算单元中的权重参数与激活矩阵进行第一类型量化计算,将所述至少一个第二计算单元中的权重参数与所述激活矩阵进行第二类型量化计算,具体包括:
4.根据权利要求3所述的方法,其特征在于,还包括:
5.根据权利要求3或4所述的方法,其特征在于,所述将接收到的权重参数与所述激活矩阵相乘,得到分块的激活参数,具体包括:
6.根据权利要求3-5任意一项所述的方法,其特征在于,所述将所述分块的激活参数与分块的权重参数相乘,得到所述输出矩阵,具体包括:
7.根据权利要求6所述的方法,其特征在于,还包括:
8.根据权利要求1-7任意一项所述的方法,其特征在于,所述对所述至少一个第一计算单元的输出矩阵与所述至少一个第二计算单元的输出矩阵叠加,得到输出激活矩阵,具体包括:
9.根据权利要求1-8任意一项所述的方法,其特征在于,所述将所述至少一个第一计算单元中的权重参数与激活矩阵进行第一类型量化计算,将所述至少一个第二计算单元中的权重参数与激活矩阵进行第二类型量化计算,具体包括:
10.一种人工智能ai模型的推理系统,其特征在于,包括:
11.根据权利要求10所述的装置,其特征在于,所述第一处理单元,具体用于提取出所述权重矩阵中的离群值所在列的权重参数,并将所述离群值所在列的权重参数设置于所述权重矩阵的头部;
12.根据权利要求10或11所述的装置,其特征在于,所述第二处理单元,具体用于将接收到的权...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。