The present invention is a flexible data stream processor and processing method for AI devices, including front lobe engine, top lobe engine group, pillow engine and temporal lobe engine. It can divide tensor into several tiles, then divide each tile into several tiles, then divide each tile into several wavebands, and then divide each waveband into several wavebands, and have the same rendering characteristics. Waves are processed in the same neuron block; AI work can be distributed to multiple parietal engines for parallel processing, and achieve weight reuse, activation reuse, weight station reuse, partial reuse and reuse.
【技术实现步骤摘要】
用于人工智能设备的灵活数据流处理器和处理方法
本专利技术是涉及人工智能
,具体的说是用于人工智能设备的灵活数据流处理器和处理方法。
技术介绍
人工智能处理是近来的热门话题,它既是计算和内存密集型,也要求高性能-功耗效率。使用CPU和GPU等当前设备加速并不容易。许多如GPU+TensorCore、TPU、CPU+FPGA和AIASIC等解决方案都试图解决这些问题。GPU+TensorCore主要着眼于解决计算密集问题,TPU着眼于计算和数据重用,CPU+FPGA/AIASIC注重提高性能-功耗效率。人工智能特征图通常可以描述为四维张量[N,C,Y,X]。这四个维度为,特征图维度:X、Y;通道维度:C;批次维度:N。内核可以是四维张量[K,C,S,R]。AI工作是给出输入特征图张量和内核张量。还可以进行其他操作,比如规范化、激活。这些可以在通用硬件运算器中支持。因此,需要一种更优的硬件架构和数据处理方法,能够更加灵活高效的处理数据流。
技术实现思路
本专利技术要解决的技术问题是提供用于人工智能设备的灵活数据流处理器和处理方法。为解决上述技术问题,本专利技术采用的技术方案为:用于人工智能设备的灵活数据流处理器,其特征是:包括前叶引擎、顶叶引擎组、枕形引擎和颞叶引擎;所述的前叶引擎内设置有瓦片块调度器,前叶引擎接收张量信息,瓦片调度器将张量分成若干个瓦片块,前叶引擎将瓦片块分配到顶叶引擎组中;所述的顶叶引擎组包括若干个顶叶引擎,顶叶引擎内设置有瓦片分派器和波块调度器,所述的瓦片分派器获取瓦片块并将其分割成若干瓦片,波块调度器获取瓦片并将其分成若干波块;所述的顶 ...
【技术保护点】
1.用于人工智能设备的灵活数据流处理器,其特征是:包括前叶引擎、顶叶引擎组、枕形引擎和颞叶引擎;所述的前叶引擎内设置有瓦片块调度器,前叶引擎接收张量信息,瓦片调度器将张量分成若干个瓦片块,前叶引擎将瓦片块分配到顶叶引擎组中;所述的顶叶引擎组包括若干个顶叶引擎,顶叶引擎内设置有瓦片分派器和波块调度器,所述的瓦片分派器获取瓦片块并将其分割成若干瓦片,波块调度器获取瓦片并将其分成若干波块;所述的顶叶引擎内还设置有若干个流感知器处理器,流感知器处理器内设置有波块分派器,波块分派器能够将波块分成若干波,流感知器处理器内还设置有神经元站,神经元站由若干个神经元块组成,波在神经元块中进行特征渲染;所述的枕形引擎接收并整理渲染后的部分张量,并输出;所述的颞叶引擎接收枕形引擎输出的张量信息,进行后处理并将最终张量写入内存中。
【技术特征摘要】
1.用于人工智能设备的灵活数据流处理器,其特征是:包括前叶引擎、顶叶引擎组、枕形引擎和颞叶引擎;所述的前叶引擎内设置有瓦片块调度器,前叶引擎接收张量信息,瓦片调度器将张量分成若干个瓦片块,前叶引擎将瓦片块分配到顶叶引擎组中;所述的顶叶引擎组包括若干个顶叶引擎,顶叶引擎内设置有瓦片分派器和波块调度器,所述的瓦片分派器获取瓦片块并将其分割成若干瓦片,波块调度器获取瓦片并将其分成若干波块;所述的顶叶引擎内还设置有若干个流感知器处理器,流感知器处理器内设置有波块分派器,波块分派器能够将波块分成若干波,流感知器处理器内还设置有神经元站,神经元站由若干个神经元块组成,波在神经元块中进行特征渲染;所述的枕形引擎接收并整理渲染后的部分张量,并输出;所述的颞叶引擎接收枕形引擎输出的张量信息,进行后处理并将最终张量写入内存中。2.根据权利要求1所述的用于人工智能设备的灵活数据流处理器,其特征在于:所述的张量信息中一个张量具有5个维度,包括特征图维度:X、Y;信道维度C、K,其中C表示输入特征映射,K表示输出特征映射;N代表批次维度。3.根据权利要求2所述的用于人工智能设备的灵活数据流处理器,其特征在于:所述的枕形引擎的架构方式为统一渲染架构,具体包括:渲染特征被发送回顶叶引擎,顶叶引擎完成渲染后,将结果发送回枕形引擎。4.根据权利要求1所述的用于人工智能设备的灵活数据流处理器,其特征在于:所述的前叶引擎以轮询调度的方式将组张量发送给顶叶引擎,所有的流式感知器处理器共享一个L2缓存和一个导出块。5.根据权利要求1所述的用于人工智能设备的灵活数据流处理器,其特征在...
【专利技术属性】
技术研发人员:倪岭,李云鹏,邵平平,邹云晓,李庆恩,
申请(专利权)人:南京天数智芯科技有限公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。