一种可变精度量化深度神经网络处理器及数据处理方法技术

技术编号：41595250 阅读：32 留言：0更新日期：2024-06-07 00:05

本申请提供一种可变精度量化深度神经网络处理器及数据处理方法，所述方法包括：从数据缓存单元获取待处理数据，待处理数据包括第一数据、第二数据和第三数据；根据第一数据选择可变精度乘法器和/或可变精度加法器的精度；通过脉动阵列对第二数据和第三数据执行乘累加计算得到输出数据，以及将输出数据输入到数据缓存单元。所述可变精度量化DNN处理器可以根据待处理数据中的第一数据选择不同的精度执行计算，达到适配不同精度数据的目的，且可变精度量化DNN处理器包括浮点乘法器、浮点加法器，可以实现第一浮点精度和第二浮点精度的计算，使可变精度量化DNN处理器支持片上训练，提高可变精度量化DNN处理器的吞吐量和能效比。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施例涉及深度学习，尤其涉及一种可变精度量化深度神经网络处理器及数据处理方法。

技术介绍

1、dnn(deep neural network，深度神经网络)通过构建深度卷积神经网络和采用样本数据作为输入，得到一个具有分析能力和识别能力的模型，被应用于语音识别、图像识别等领域。人工智能领域，如可穿戴设备、车载智能设备等极限边缘平台也可以应用dnn实现智能化分析和识别。

2、由于dnn模型的计算量及参数量大，导致模型在运行过程中需要占用大量内存，消耗算力，而可穿戴设备、车载智能设备等极限边缘平台的存储空间、功耗及硬件资源有限，难以满足dnn的需求。为了在能耗、内存空间和计算资源均有限的情况下实现不同种类的智能应用运行和定制化需求，可变精度量化dnn被部署到极限边缘平台。

3、然而，由于不同量化dnn的量化精度不同，极限边缘平台难以提高多种量化dnn的推理吞吐量和能效比，且极限边缘设备缺乏对浮点计算的支持，无法进行片上训练，只能在云端更新数据，数据安全性低。

技术实现思路

1、本申请提供一种可变精度量化深度神经网络处理器及数据处理方法，能够使可变精度量化dnn处理器支持片上推理和训练，并提高吞吐量和能效比。

2、第一方面，本申请提供一种可变精度量化深度神经网络处理器，包括：协处理器模块和微处理器集群模块；其中，协处理器模块包括脉动阵列，脉动阵列包括至少两个可变精度处理单元；可变精度处理单元包括可变精度乘法器、可变精度加法器，可变精度乘法器包括浮点

3、协处理器模块被配置为：从数据缓存单元获取待处理数据，待处理数据包括第一数据、第二数据和第三数据；根据第一数据选择可变精度乘法器和/或可变精度加法器的精度；通过脉动阵列对第二数据和第三数据执行乘累加计算得到输出数据，以及将输出数据输入到数据缓存单元。

4、上述可变精度量化dnn处理器中，协处理器模块包括可变精度乘法器和可变精度加法器，可以根据待处理数据中的第一数据选择不同的精度执行计算，达到适配不同精度数据的目的。且可变精度乘法器中包括浮点乘法器、可变精度加法器中包括浮点加法器，可以实现第一浮点精度和第二浮点精度的计算，使可变精度量化dnn处理器支持片上训练，提高可变精度量化dnn处理器的吞吐量和能效比。

5、在第一方面的一种可实现方式中，微处理器集群模块还包括：微处理器核、外设互联单元、外部总线、直接内存存取单元、共享指令缓存单元、访存互联单元和协处理器接口。

6、外部总线连接外设互联单元、直接内存存取单元；外部总线还连接集群外部设备；

7、微处理器核被配置为：通过外设互联单元、直接内存存取单元获取控制指令；将控制指令转换为可识别信息，以及将可识别信息输入到共享指令缓存单元；

8、访存互联单元通过协处理器接口与协处理器模块连接；访存互联单元被配置为：通过数据缓存单元获取输出数据。

9、上述可变精度量化dnn处理器中，微处理器集群模块由多个单元组成，可以完成对量化dnn读写操作的控制、存储指令和数据、获取指令并把指令转换成处理器可以识别的信息等操作，并且连接协处理器模块，为待处理数据在协处理器模块上的计算提供支持。

10、在第一方面的一种可实现方式中，微处理器核还被配置为：

11、从访存互联单元提取输出数据；

12、将输出数据输入待训练神经网络模型，以获得待训练神经网络模型输出的识别结果；

13、根据识别结果计算训练损失；

14、如果训练损失大于或等于预设损失阈值，根据识别结果调整待训练神经网络模型的模型参数；

15、如果训练损失小于预设损失阈值，输出待训练神经网络模型的模型参数。

16、上述可变精度量化dnn处理器中，微处理器核通过执行对神经网络模型的训练过程，提高神经网络模型的精度，进而提高可变精度量化dnn处理器进行片上训练的准确性。

17、在第一方面的一种可实现方式中，协处理器模块还包括：数据流互联单元、控制单元、读单元、写单元和数据缓冲单元。

18、控制单元被配置为：响应于微处理器集群模块输入的控制信号，控制读单元从数据流互联单元中读取待处理数据；以及将待处理数据输入到数据缓冲单元；

19、数据缓冲单元被配置为：将待处理数据输入到脉动阵列；

20、脉动阵列被配置为：对待处理数据执行乘累加计算得到输出数据，以及将输出数据经数据缓冲单元输入写单元；

21、写单元被配置为：将输出数据写入数据流互联单元，以及通过协处理器接口将输出数据输入到数据缓存单元。

22、上述可变精度量化dnn处理器中，各个单元组成协处理器模块，用于获取待处理数据并对待处理数据执行计算，使整个计算及数据传输过程在协处理器模块中完成，保证协处理器模块工作内容的完整性。

23、在第一方面的一种可实现方式中，可变精度处理单元还包括：数据切分单元、选通与时序逻辑器件。

24、数据切分单元被配置为：根据第一数据将第二数据，和/或，第三数据切分，以生成切分数据，并将切分数据送入浮点乘法器，和/或，可变精度定点乘法器，和/或，浮点加法器，和/或，可变精度定点加法器中；

25、选通与时序逻辑器件被配置为：执行可变精度处理单元中的时序控制和数据传输。

26、上述可变精度量化dnn处理器中，可以将待处理的第二数据和第三数据进行切分，切分后的数据可以分为浮点数据和定点数据，进而浮点数据被送入浮点乘法器或浮点加法器，定点数据被送入可变精度定点乘法器或可变精度定点加法器，实现浮点数据和定点数据的区分；选通与时序逻辑器件可以保证可变精度处理单元按特定时序和逻辑对数据进行处理，保证可变精度量化dnn处理器的稳定性。

27、在第一方面的一种可实现方式中，可变精度定点乘法器包括：可变精度定点乘法树单元及数据拼接单元。

28、可变精度定点乘法器被配置为：对待处理数据执行两种以上并行度不同且位数不同的乘法计算；

29、可变精度定点加法器包括：至少两个位数不同的加法器及数据拼接单元；

30、可变精度定点加法器被配置为：对待处理数据执行两种以上并行度不同且位数不同的加法计算。

31、上述可变精度量化dnn处理器中，可变精度定点乘法器中的可变精度定点乘法树单元支持多种位数的定点乘法，可以计算多种并行度和位数均不同的乘法，实现不同精度计算的复用；可变精度定点加法器中包括多个位数不同的加法器，同样可以支持多种位数的定点加法，计算多种并行度和位数均不同的加法，实现不同精度计算的复用。

32、在第一方面的一种可实现方式中，浮点乘本文档来自技高网...

【技术保护点】

1.一种可变精度量化深度神经网络处理器，其特征在于，包括：协处理器模块和微处理器集群模块；

2.根据权利要求1所述的可变精度量化深度神经网络处理器，其特征在于，所述微处理器集群模块还包括：微处理器核、外设互联单元、外部总线、直接内存存取单元、共享指令缓存单元、访存互联单元和协处理器接口；

3.根据权利要求2所述的可变精度量化深度神经网络处理器，其特征在于，所述微处理器核还被配置为：

4.根据权利要求1所述的可变精度量化深度神经网络处理器，其特征在于，所述协处理器模块还包括：数据流互联单元、控制单元、读单元、写单元和数据缓冲单元；

5.根据权利要求1所述的可变精度量化深度神经网络处理器，其特征在于，所述可变精度处理单元还包括：数据切分单元、选通与时序逻辑器件；

6.根据权利要求1所述的可变精度量化深度神经网络处理器，其特征在于，所述可变精度定点乘法器包括：可变精度定点乘法树单元及数据拼接单元；

7.根据权利要求1所述的可变精度量化深度神经网络处理器，其特征在于，所述浮点乘法器包括：数据解包与打包单元、符号位检测

8.根据权利要求1所述的可变精度量化深度神经网络处理器，其特征在于，所述浮点加法器包括：数据解包与打包单元、符号位检测单元、对齐单元、指数调整单元、尾数加法器和规格化单元；

9.一种基于可变精度量化深度神经网络的数据处理方法，应用于权利要求1至8任一项所述的一种可变精度量化深度神经网络处理器，其特征在于，包括：

10.根据权利要求9所述的可变精度量化深度神经网络的数据处理方法，其特征在于，还包括：

...

【技术特征摘要】

1.一种可变精度量化深度神经网络处理器，其特征在于，包括：协处理器模块和微处理器集群模块；

3.根据权利要求2所述的可变精度量化深度神经网络处理器，其特征在于，所述微处理器核还被配置为：

5.根据权利要求1所述的可变精度量化深度神经网络处理器，其特征在于，所述可变精度处理单元还包括：数据切分单元、选通与时序逻辑器件；

6.根据权利要求...

【专利技术属性】
技术研发人员：林军，黄龙威，方超，李琼，王中风，
申请(专利权)人：南京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人