基于人工智能设备的分层稀疏张量压缩方法技术

技术编号:19965276 阅读:51 留言:0更新日期:2019-01-03 13:21
基于人工智能设备的分层稀疏张量压缩方法,在DRAM中,不仅保存神经元表面的存储空间,还为掩码块加上一个元曲面。读取数据时,首先会读取掩码,然后计算非零数据的大小,并且只读取这些非零数据以节省DRAM带宽。而在高速缓存中,只会存储非零数据,因此所需的存储空间被减少。当处理数据时,只使用非零数据。该方法使用位元掩码来确定数据是否为零,层级压缩方案中有三层:瓦片、线和点,从DRAM读取位掩码和非零数据,通过不读取零数据来节省带宽。处理数据时,若它们的位元掩码为零,能轻松地移除瓦片数据。本发明专利技术有助于减少内存带宽和内部缓存中的存储空间,与竞争对手相比,可以获得更高的性能和功效。

Layered Sparse Tensor Compression Method Based on Artificial Intelligence Equipment

In DRAM, the layered sparse tensor compression method based on artificial intelligence equipment not only preserves the storage space of the neuron surface, but also adds a meta-surface to the mask block. When reading data, the mask is read first, then the size of non-zero data is calculated, and only these non-zero data are read to save DRAM bandwidth. In caching, only non-zero data is stored, so the required storage space is reduced. When processing data, only non-zero data is used. This method uses bit masks to determine whether the data is zero or not. There are three layers in the hierarchical compression scheme: tile, line and point. Bit masks and non-zero data are read from DRAM, and bandwidth is saved by not reading zero data. When processing data, if their bit masks are zero, tile data can be easily removed. The invention helps to reduce memory bandwidth and storage space in internal cache, and can obtain higher performance and efficiency than competitors.

【技术实现步骤摘要】
基于人工智能设备的分层稀疏张量压缩方法
本专利技术属于人工智能领域,具体涉及一种基于图形的数据的分层稀疏张量压缩方法。
技术介绍
人工智能(AI)处理是近来的热门话题,它既是计算和内存密集型,也要求高性能-功耗效率。使用CPU和GPU等当前设备加速并不容易,许多如GPU+TensorCore、TPU、CPU+FPGA和AIASIC等解决方案都试图解决这些问题。GPU+TensorCore主要着眼于解决计算密集问题,TPU着眼于计算和数据重用,CPU+FPGA/AIASIC注重提高性能-功耗效率。在人工智能处理中,由于神经元激活和权重剪枝,许多数据是零。为了使用这些稀疏性,需要专利技术一种压缩方法,能通过跳过零神经元或卷积权重来节省计算量和功耗,减少所需的缓存存储空间,并通过不传输零数据来增加DRAM带宽。当前虽然有许多类似的解决方案,但是他们只使用单层压缩方案,而这个不具有明显的优势。通过具有两层或更多层的位元掩码,如果高级掩码为0,我们可以轻松地移除高级别的数据,这意味着该分支中的全部为零,但是传统的单层掩码压缩不能够获得此结果。
技术实现思路
本专利技术针对现有技术中的不足,提供一种本文档来自技高网...

【技术保护点】
1.一种基于人工智能设备的分层稀疏张量压缩方法,其特征在于:硬件架构包括:主机、前叶引擎、顶叶引擎、渲染器引擎、枕形引擎、颞叶引擎和内存;前叶引擎从主机得到5D张量,将其分为若干组张量,并将这些组张量发送至顶叶引擎;顶叶引擎获取组张量并将其分成若干张量波,顶叶引擎将这些张量波发送到渲染器引擎,以执行输入特征渲染器,并将部分张量输出到枕形引擎;枕形引擎积累部分张量,并执行输出特征渲染器,以获得发送到颞叶引擎的最终张量;颞叶引擎进行数据压缩,并将最终张量写入内存中;硬件架构中设有分层缓存设计:颞叶引擎中设有L3缓存,颞叶引擎连接到DRAM内存控制器以从DRAM内存中获取数据;顶叶引擎中设有一个L2...

【技术特征摘要】
1.一种基于人工智能设备的分层稀疏张量压缩方法,其特征在于:硬件架构包括:主机、前叶引擎、顶叶引擎、渲染器引擎、枕形引擎、颞叶引擎和内存;前叶引擎从主机得到5D张量,将其分为若干组张量,并将这些组张量发送至顶叶引擎;顶叶引擎获取组张量并将其分成若干张量波,顶叶引擎将这些张量波发送到渲染器引擎,以执行输入特征渲染器,并将部分张量输出到枕形引擎;枕形引擎积累部分张量,并执行输出特征渲染器,以获得发送到颞叶引擎的最终张量;颞叶引擎进行数据压缩,并将最终张量写入内存中;硬件架构中设有分层缓存设计:颞叶引擎中设有L3缓存,颞叶引擎连接到DRAM内存控制器以从DRAM内存中获取数据;顶叶引擎中设有一个L2缓存和一个在神经元块中的L1缓存;在DRAM内存中,不仅保存神经元表面的存储空间,并为掩码块加上一个元曲面;读取数据时,首先读取掩码,然后计算非零数据的大小,并且只读取非零数据;在高速缓存中,只存储非零数据;处理数据时,只使用非零数据。2.如权利要求1所述的一种基于人工智能设备的分层稀疏张量压缩方法,其特征在于...

【专利技术属性】
技术研发人员:李云鹏倪岭邵平平陈洁君王永流李光周
申请(专利权)人:南京天数智芯科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1