一种基于脉动阵列架构的深度学习硬件系统技术方案

技术编号：25184662 阅读：25 留言：0更新日期：2020-08-07 21:12

本申请实施例属于深度学习硬件架构技术领域，涉及一种基于脉动阵列架构的深度学习硬件系统，系统包括：数据输入及处理子系统，用于接收、存储数据并对数据进行处理，所述数据包括特征图数据、卷积核数据、配置指令数据；脉动阵列计算子系统，用于对所述特征图数据和卷积核数据进行逐行卷积运算并输出运算结果；控制子系统，用于根据所述配置指令数据控制所述脉动阵列计算子系统。脉动阵列计算子系统在控制子系统根据配置指令数据的配置和控制下进行特征图数据和卷积核数据的逐行并行卷积运算，直到特征图的最后一行，卷积运算过程中的数据搬运均发生在脉动阵列计算子系统的脉动阵列内部，降低了系统的功耗，且并行运算提高系统的计算速度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于脉动阵列架构的深度学习硬件系统
本专利技术涉及深度学习硬件架构
，尤其涉及一种基于脉动阵列架构的深度学习硬件系统。
技术介绍
当前，人工智能已经展现了其在多领域方面的独特优势，比如大数据、智能医疗、安防、先进辅助驾驶系统等。深度学习(DeepLearning)在解决高级抽象认知问题上有着显著的成果，是人工智能算法中最为有效也是使用最为广泛的算法，为“谷歌大脑”、“百度大脑”等采用，并且进入了科大讯飞语音识别、谷歌翻译、Facebook人脸识别等领域。谷歌、微软、Facebook等高端互联网公司的研究实践表明，深度学习能够在图像感知等方面达到甚至超过人类的水平。而卷积神经网络(CNN)是深度学习中最为有效、最具代表性的技术，是当前各大学和公司研究进行语音分析和图像识别研究的热点，它对图像、声音进行有效学习和识别分析，是当前和未来汽车自动驾驶、人脸识别、疾病特征判断、声音识别等信息处理的关键核心技术。在以深度学习为代表的人工智能系统实现中，一个最主要的挑战在于其庞大的运算量需要大量的能量与硬件资源支撑。为了解决更加抽象、更加复杂的学习问题，深度学习的网络规模在不断增加，计算和数据的复杂也随之剧增，比如GoogleCat系统网络具有10亿左右个神经元连接。目前使用的CPU、GPU架构系统的人工智能实现，远未能企及动物神经系统的功耗和学习能力。并且随着摩尔定律的逐渐减慢，晶体管的功耗降低以及速度的提高逐渐迎来瓶颈，通过现有架构来实现如同生物神经系统的高效、低能耗人工智能系统更是遥遥无期。在企业端...

【技术保护点】
1.一种基于脉动阵列架构的深度学习硬件系统，其特征在于，包括：/n数据输入及处理子系统，用于接收、存储数据并对数据进行处理，所述数据包括特征图数据、卷积核数据、配置指令数据；/n脉动阵列计算子系统，用于对所述特征图数据和卷积核数据进行逐行卷积运算并输出运算结果；/n控制子系统，用于根据所述配置指令数据控制所述脉动阵列计算子系统。/n

【技术特征摘要】
1.一种基于脉动阵列架构的深度学习硬件系统，其特征在于，包括：
数据输入及处理子系统，用于接收、存储数据并对数据进行处理，所述数据包括特征图数据、卷积核数据、配置指令数据；
脉动阵列计算子系统，用于对所述特征图数据和卷积核数据进行逐行卷积运算并输出运算结果；
控制子系统，用于根据所述配置指令数据控制所述脉动阵列计算子系统。

2.如权利要求1所述的硬件系统，其特征在于，所述脉动阵列计算子系统包括行处理单元和列处理单元，所述行处理单元至少包括一个处理元素，所述列处理单元至少包括一个所述处理元素。

3.如权利要求2所述的硬件系统，其特征在于，所述处理元素包括卷积SRAM和卷积寄存器文件，以及ALU运算单元。

4.如权利要求3所述的硬件系统，其特征在于，所述卷积SRAM用于存储所述卷积核数据，所述卷积寄存器文件存储所述卷积核数据的一行数据，所述ALU运算单元用于将所述特征图数据和卷积核数据进行卷积运算。

5....

【专利技术属性】
技术研发人员：雍珊珊，王新安，徐伯星，张兴，何春舅，
申请(专利权)人：北京大学深圳研究生院，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人