用于神经网络的压缩和推断加速的非对称量化制造技术

技术编号:26731502 阅读:40 留言:0更新日期:2020-12-15 14:34
本公开涉及用于神经网络的压缩和推断加速的非对称量化。改进的非对称量化的实施例,通常可被称为改进非对称量化(IAQ)实施例。IAQ实施例结合常规的非对称量化和对称量化的优点,但也提供了额外的计算效率。IAQ的实施例采用神经网络层的权重的非对称范围,因此它们规避了对称量化的对称范围的限制。另外,通过量化每个层的偏移值,通过IAQ实施例量化的神经网络的推断过程比由常规的非对称量化而量化的神经网络的推断过程快得多。

【技术实现步骤摘要】
用于神经网络的压缩和推断加速的非对称量化
本公开一般涉及用于计算机学习的系统和方法,可以提供改进的计算机性能、特征和用途。更特别地,本公开涉及神经网络的改进的压缩和改进的加速推断的实施例。
技术介绍
深度神经网络(DeepNeuralNetwork,DNN)在人工智能中实现了惊人成就。然而,DNN的模型大小通常非常大。权重量化是通过使用用于DNN的每个浮动权重的低位表示压缩DNN的重要方法。传统的对称量化假设权重的范围关于零对称。这种假设在实践中通常不成立。因此,非对称量化已经被广泛地用于规避对称量化的缺点。然而,常规的非对称量化导致经量化的DNN的推断过程中的延迟,部分是因为添加的计算以及因为计算的类型。因此,需要提供神经网络的改进的非对称量化、改进的加速或两者的系统和方法,改进的非对称量化提供压缩,这有助于降低存储器和处理要求,通过降低由于量化引起的计算负荷提高神经网络的加速。
技术实现思路
在第一方面中,提供一种用于神经网络的量化的计算机实现的方法,包括:从用于所述神经网络的层的权重值中识别极值权重值的集合,所述极值权重值的集合包括最大权重值和最小权重值;使用所述极值权重值的集合和将用于以量化形式表示所述权重值的位的数量来获得用于量化用于所述神经网络的层的所述权重值的缩放因子;使用所述极值权重值中的一个以及所述缩放因子以量化用于所述神经网络的层的所述权重值;使用所述缩放因子和来自被用于量化所述层的所述权重值的所述极值权重值的集合的极值来获得用于所述层的偏移值,所述偏移值是整数值;以及对于所述层,存储所述缩放因子、所述偏移值及经量化的权重以在推断期间使用,其中获得用于所述层的输出包括仅使用整数运算,以通过所述偏移值调整所述经量化的权重,以及将经调整的经量化的权重值与用于所述层的输入值相乘。在第二方面中,提供一种系统,包括:一个或多个处理器;以及非暂时性计算机可读介质,包括一个或多个指令集,所述一个或多个指令集在由所述一个或多个处理器中的至少一个执行时,使得如第一方面所述的方法的步骤被执行。在第三方面中,提供一种非暂时性计算机可读介质,包括一个或多个指令序列,所述一个或多个指令序列在由一个或多个处理器执行时,使得如第一方面所述方法的步骤被执行。根据本专利技术的实施例采用神经网络层的权重的非对称范围,因此规避了对称量化的对称范围的限制。另外,通过量化每个层的偏移值,通过本专利技术的实施例量化的神经网络的推断过程比由常规的非对称量化而量化的神经网络的推断过程快得多。附图说明将参考本公开的实施例,其示例可以在附图中示出。这些附图旨在说明而非限制。尽管本公开一般在这些实施例的上下文中描述,但是应当理解的是,其不旨在将本公开内容的范围限制于这些特别的实施例。图中的项目可以不是按比例的。图1描述通过常规的非对称量化而量化的深度神经网络(DNN)的层的图示。图2描述根据本公开的实施例的通过改进的非对称量化(ImprovedAsymmetricQuantization,IAQ)而量化的神经网络的层的图示。图3描述根据本公开的实施例的用于改进的非对称量化(IAQ)的方法。图4提供使用已使用IAC实施例量化的权重用于推断的方法。图5描述根据本公开的实施例的通过改进的非对称量化(IAQ)而量化的神经网络的多个层的图示。图6描述根据本公开的实施例的计算设备/信息处理系统的简化框图。具体实施方式在以下描述中,出于解释的目的,阐述了具体细节以提供对本公开的理解。然而,对于本领域技术人员来说,显然可以在没有这些细节的情况下实践本公开。另外,本领域技术人员将认识到,下面描述的本公开的实施例可以以各种方式实现,诸如过程、装置、系统/设备或有形计算机可读介质上的方法。图中所示的组件或模块是本公开的示例性实施例的说明,并且意在避免使本公开模糊。还应当理解的是,在整个讨论中,组件可以被描述为可包括子单元的分离的功能单元,但是本领域技术人员将认识到,各种组件或其部分可以被划分为分离的组件或者可以被集成在一起,包括集成在单个系统或组件内。应当注意的是,这里讨论的功能或操作可以被实现为组件。组件可以用软件、硬件或其组合实现。另外,附图中的组件或系统之间的连接不旨在限于直接连接。相反,这些组件之间的数据可由中间组件修改、重新格式化或以其他方式改变。另外,可以使用额外的或更少的连接。还应当注意,术语“耦接”、“连接”、“通信地耦接”、“接合”、“接口”或它们的派生词中的任何派生词应当被理解为包括直接连接、通过一个或多个中间设备的间接连接以及无线连接。还应当注意的是,任何通信,诸如信号、响应、回复、确认、消息、查询等,可包括信息的一个或多个交换。说明书中对“一个实施例”、“优选实施例”、“实施例”或“多个实施例”的引用意味着结合实施例描述的特别的特征、结构、特性或功能被包括在本公开的至少一个实施例中,并且可以在多于一个实施例中。另外,在说明书中的各个位置出现的上述短语不一定都指相同的一个或多个实施例。在说明书中的各个位置使用某些术语是为了说明,而不应被解释为限制。术语“包括”、“具有”、“包含”和“含有”应被理解为开放性术语,并且随后的任何列表是示例,并且不意味着限于所列出的项目。“层”可包括一个或多个操作。词语“最优的”、“使最优化”、“优化”等是指结果或过程的改进,并且不需要指定的结果或过程已经达到“最优的”或峰值状态。服务、功能或资源不限于单个服务、功能或资源;这些术语的使用可以指可以是分布式或聚合的有关的服务、功能或资源的组合。存储器、数据库、信息库、数据存储、表、硬件、高速缓存等的使用在此可用于指信息可被输入或以其它方式记录到其中的一个或多个系统组件。术语“数据”、“信息”以及类似术语可以由涉及一组位的其他术语替换,并且可以互换地使用。在一个或多个实施例中,停止条件可包括:(1)已经执行了设定次数的迭代;(2)已经达到处理时间的量;(3)收敛(例如,连续迭代之间的差小于第一阈值);(4)发散(例如,性能恶化);以及(5)已经达到可接受的结果。本文所用的任何标题仅用于组织目的,而不应被用于限制说明书或权利要求书的范围。在此专利文件中提到的每个参考文献都通过引用整体结合于此。应当注意的是:(1)可以可选地执行某些步骤;(2)步骤可以不限于本文阐述的特定顺序;(3)某些步骤可以以不同的顺序执行;以及(4)某些步骤可以同时进行。应注意的是,本文提供的任何实验和结果都是通过说明的方式提供的,并且是使用一个或多个特定实施例在特定的条件下执行的;因此,这些实验或其结果都不应被用于限制本专利文献的公开的范围。A.介绍如上所述,常规的非对称量化往往导致经量化的神经网络的推断过程中的延迟。因此,本文呈现改进的非对称量化的实施例,为方便起见,实施例可一般称为改进的非对称量化(IAQ)实施例。IAQ实施例采用非对称量化的实施方式,但与常规的本文档来自技高网...

【技术保护点】
1.一种用于神经网络的量化的计算机实现的方法,包括:/n从用于所述神经网络的层的权重值中识别极值权重值的集合,所述极值权重值的集合包括最大权重值和最小权重值;/n使用所述极值权重值的集合和将用于以量化形式表示所述权重值的位的数量来获得用于量化用于所述神经网络的层的所述权重值的缩放因子;/n使用所述极值权重值中的一个以及所述缩放因子以量化用于所述神经网络的层的所述权重值;/n使用所述缩放因子和来自被用于量化所述层的所述权重值的所述极值权重值的集合的极值来获得用于所述层的偏移值,所述偏移值是整数值;以及/n对于所述层,存储所述缩放因子、所述偏移值及经量化的权重以在推断期间使用,其中获得用于所述层的输出包括仅使用整数运算,以通过所述偏移值调整所述经量化的权重,以及将经调整的经量化的权重值与用于所述层的输入值相乘。/n

【技术特征摘要】
20190701 US 62/869,560;20200519 US 16/877,5821.一种用于神经网络的量化的计算机实现的方法,包括:
从用于所述神经网络的层的权重值中识别极值权重值的集合,所述极值权重值的集合包括最大权重值和最小权重值;
使用所述极值权重值的集合和将用于以量化形式表示所述权重值的位的数量来获得用于量化用于所述神经网络的层的所述权重值的缩放因子;
使用所述极值权重值中的一个以及所述缩放因子以量化用于所述神经网络的层的所述权重值;
使用所述缩放因子和来自被用于量化所述层的所述权重值的所述极值权重值的集合的极值来获得用于所述层的偏移值,所述偏移值是整数值;以及
对于所述层,存储所述缩放因子、所述偏移值及经量化的权重以在推断期间使用,其中获得用于所述层的输出包括仅使用整数运算,以通过所述偏移值调整所述经量化的权重,以及将经调整的经量化的权重值与用于所述层的输入值相乘。


2.如权利要求1所述的计算机实现的方法,还包括:
使用用于所述层的所述缩放因子、用于所述层的所述偏移值、用于所述层的所述经量化的权重和输入值计算用于所述神经网络的层的输出,其中使用整数运算以通过所述偏移值调整所述经量化的权重,以及将所述经调整的经量化的权重值与所述输入值相乘。


3.如权利要求1所述的计算机实现的方法,其中所述极值权重值是所述最大权重值,以及通过使用整数运算从所述偏移值减去所述经量化的值获得经调整的经量化的权重值。


4.如权利要求1所述的计算机实现的方法,其中所述极值权重值是所述最小权重值,以及通过使用...

【专利技术属性】
技术研发人员:杨颖振赵志彪赵宝新浣军欧阳剑王勇施佳鑫
申请(专利权)人:百度美国有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1