模型量化方法及其推理方法、装置和存储介质制造方法及图纸

技术编号:42459413 阅读:36 留言:0更新日期:2024-08-21 12:48
本申请提供的模型量化方法及其推理方法、装置和存储介质,包括:对目标模型的每一处理层进行优化,在一次优化中,确定目标处理层的多个目标权重矩阵,并对各个目标权重矩阵进行量化操作,使得最终形成的量化模型能够直接使用经过量化后的权重,提高模型的推理性能和推理效率。而且,通过注意力分值对数据块分配不同的精度,使得重要的数据块可以分配到更高的精度,以生成精度分配策略,在模型推理时直接使用精度分配策略确定每一数据块的精度,如此能够减小推理过程中的硬件开销。并且,通过将量化权重和精度分配两种方法结合,在维持较小的模型精度损失的情况下使得模型推理的全过程能够稀疏加速,以提高模型的推理效率。

【技术实现步骤摘要】

本申请涉及深度学习,尤其涉及一种模型量化方法及其推理方法、装置和存储介质


技术介绍

1、transformer模型是当前最先进的神经网络模型之一,并已经在自然语言处理领域取得巨大成功。当前在计算机视觉领域,transformer也因为具有比传统卷积神经网络更高的精度,在图像分类、目标检测、图像生成等任务中表现出色,但高昂的计算代价限制了其推理性能。

2、量化和稀疏是降低神经网络计算量的主流技术,广泛应用在transformer模型的推理加速中。在量化层面,目前仍有许多工作依赖于量化感知训练来避免transformer模型中的显著精度损失。然而量化感知训练方法依赖于重训练和微调在低精度数据下恢复模型精度,训练过程非常耗时且昂贵。在稀疏层面,transformer模型使用gelu激活函数,几乎不引入零,值稀疏性有限。而在当前的transformer模型稀疏加速器中,以增加模型推理中的零值为思路的值稀疏占据主流,主要包括注意力计算和多层感知机中线性运算的值稀疏。但在多层感知机的线性运算中难以达到较高的稀疏度,导致稀疏效果较差。</p>

3、综上本文档来自技高网...

【技术保护点】

1.一种模型量化方法,其特征在于,所述方法包括:

2.根据权利要求1所述的模型量化方法,其特征在于,所述量化操作的步骤,包括:

3.根据权利要求1所述的模型量化方法,其特征在于,所述根据所述输入数据和经过优化的各个目标权重矩阵确定所述输入数据中的每一数据块的注意力分值的步骤,包括:

4.根据权利要求1所述的模型量化方法,其特征在于,所述根据每一数据块的注意力分值,利用根据预设的精度分配比例为所述输入数据中每一数据块分配精度的步骤,包括:

5.根据权利要求1所述的模型量化方法,其特征在于,所述根据经过优化的多层感知机模块中的权重矩阵和所述输入...

【技术特征摘要】

1.一种模型量化方法,其特征在于,所述方法包括:

2.根据权利要求1所述的模型量化方法,其特征在于,所述量化操作的步骤,包括:

3.根据权利要求1所述的模型量化方法,其特征在于,所述根据所述输入数据和经过优化的各个目标权重矩阵确定所述输入数据中的每一数据块的注意力分值的步骤,包括:

4.根据权利要求1所述的模型量化方法,其特征在于,所述根据每一数据块的注意力分值,利用根据预设的精度分配比例为所述输入数据中每一数据块分配精度的步骤,包括:

5.根据权利要求1所述的模型量化方法,其特征在于,所述根据经过优化的多层感知机模块中的权重矩阵和所述输入数据中的每一数据块的精度,确定所述目标处理层的输出数据的步...

【专利技术属性】
技术研发人员:陈俊熊俊黄青丹陈勉之孔令明
申请(专利权)人:广东电网有限责任公司广州供电局
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1