基于DMA架构的MN实现方法、装置、设备及存储介质制造方法及图纸

技术编号：37377582 阅读：13 留言：0更新日期：2023-04-27 07:20

本发明专利技术实施例提供一种基于DMA架构的MN实现方法、装置、设备及存储介质，涉及神经网络技术领域。输入MN单元中的输入数据和掩码数据的有效数据点是相同的，所以以队列形式存储输入数据和掩码数据，可以使得两种数据中的有效数据点可以根据队列位数一一对应，从而形成待用数据对；掩码数据可以有零和非零两种结果，由此可以根据掩码数据对输入数据的有效数据进行筛选，筛选其中非零掩码对应的输入数据作为有效数据输出。由此，可以降低对复杂数据的整理和筛选的难度，提高数据筛选和搬运的精确度及通用性。及通用性。及通用性。

全部详细技术资料下载

【技术实现步骤摘要】
基于DMA架构的MN实现方法、装置、设备及存储介质

[0001]本专利技术涉及神经网络
，尤其涉及一种基于DMA架构的MN实现方法、装置、设备及存储介质。

技术介绍

[0002]深度学习在图像处理、模式识别、语音识别、自然语言等领域具有广泛的应用。但是深度学习需要处理大量的数据，随着深度学习的发展，对处理器的要求也变得越来越高，传统的处理器已经很难满足深度学习的计算需求。
[0003]目前适用于深度学习加速的处理器主要包括以NVIDIA GPGPU(英伟达通用图形处理器General
‑
Purpose Graphics Processing Unit)为代表的SIMT(单指令多线程，Single Instruction Multiple Threads)架构以及以Google TPU(张量处理器，Tensor Processing Unit)为代表的专用神经网络处理器。但是，现有的处理器在对复杂数据进行整理和筛选时，处理器的性能功耗比较差或者通用性比较差，从而导致其对于复杂数据的处理难度高。
[0004]因此，如何降低目前神经网络处理器对于复杂数据的处理难度成为目前亟待解决的技术问题。

技术实现思路

[0005]本专利技术实施例提供了一种基于DMA架构的MN实现方法、装置、设备及存储介质，旨在降低目前神经网络处理器对于复杂数据的处理难度。
[0006]第一方面，本专利技术实施例提供一种基于DMA架构的MN实现方法，包括：
[0007]基于MN指令...

【技术保护点】

【技术特征摘要】
1.一种基于DMA架构的MN实现方法，其特征在于，所述方法包括：基于MN指令，获取输入数据和掩码数据，生成数据队列和掩码队列；其中，所述数据队列和所述掩码队列的队列位数一一对应；基于所述数据队列和所述掩码队列的对应关系，获得至少一个待用数据对；其中，所述待用数据对中包含一个所述输入数据和一个所述掩码数据，所述待用数据对中的所述输入数据和所述掩码数据对应同一队列位数；在所述待用数据对中存在非零掩码时，输出所述非零掩码对应的所述输入数据，获得有效数据。2.根据权利要求1所述的基于DMA架构的MN实现方法，其特征在于，所述MN指令包括掩码收集指令和非零坐标收集指令。3.根据权利要求2所述的基于DMA架构的MN实现方法，其特征在于，在所述MN指令为所述非零坐标收集指令时，所述基于MN指令，获取输入数据和掩码数据，生成数据队列和掩码队列，包括：基于坐标产生单元，计算所述非零坐标收集指令中每个有效数据点的对应坐标，生成坐标数据；获取所述输入数据和所述坐标数据，基于所述输入数据，生成所述掩码队列；基于所述坐标数据，生成所述数据队列。4.根据权利要求1所述的基于DMA架构的MN实现方法，其特征在于，所述基于所述数据队列和所述掩码队列的对应关系，获得至少一个待用数据对，包括：将所述输入数据和所述掩码数据输入到过滤单元；基于所述过滤单元中的数据选择器，将对应同一所述队列位数的所述输入数据和所述掩码数据输入到同一个过滤子单元中，获得至少一个所述待用数据对。5.根据权利要求4所述的基于DMA架构的MN实现方法，其特征在于，所述基于所述数据队列和所述掩码队列的对应关系，获得至少一个待用数据对之后，还包括：基于所述过滤子单元，筛选所述待用数据对中的零值掩码和非零掩码，以在所述至少一个所述待用数据对中确定所述有效数据。6.根据权利要求1所述的基于DMA架构的MN实现方法，其特征在于，所述在所述待用数据对中存在非零掩码...

【专利技术属性】
技术研发人员：薛雨楠，
申请(专利权)人：北京算能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人