一种用于执行多任务卷积神经网络预测的装置和方法制造方法及图纸

技术编号:29134727 阅读:21 留言:0更新日期:2021-07-02 22:30
本发明专利技术提供一种用于执行多任务卷积神经网络预测的装置和方法,包括:控制接口、内存单元、总线复用器和加速器单元,控制接口用于接收指令输入,并发送至加速器单元;内存单元用于存储数据信息、卷积层参数和激活函数;总线复用器用于连接各单元,传输数据和指令信息;加速器单元包含:用于访问内存单元中存储的数据和指令信息的总线复用器,用于分配卷积控制指令的卷积调度器,用于预取和存信息的数据缓存器和卷积核缓存器,用于下达计算任务的卷积核控制器,用于完成卷积核运算的多组乘加阵列,完成运算后将结果输入内存单元。本发明专利技术可对用于执行多任务卷积神经网络的训练进行加速,可大程度降低训练耗时和硬件成本,有效提高执行效率和适用性。

【技术实现步骤摘要】
一种用于执行多任务卷积神经网络预测的装置和方法
本专利技术涉及计算机和图像处理领域,并且更具体地,涉及一种用于执行多任务卷积神经网络预测的装置和方法。
技术介绍
近年来计算机技术和人工智能技术高速发展,随着摩尔定律几近失效,新的芯片物理材料始终没有取得重大突破之前,常规处理器的计算性能也逼近极限,2012年AlexNet开启这一轮深度学习热潮的时候,网络只有8层,但就算只有8层也需要大量的计算,2016年153层的ResNet以及最近甚至出现了上千层的网络结构,需要更强大的计算资源来支撑网络训练。但是随着现在云计算,大数据,移动互联网,人工智能,5G的蓬勃兴起,尤其是计算机视觉技术应用中对于图像处理能力的高要求,对于处理器的算力要求越来越高,因此这两者存在的矛盾将不可避免且亟待解决。与此同时,随着图像处理算法的日益复杂,有的负责算法(程序),同时具有通用计算、并行计算、卷积计算其中的一种或者是几种,但是现世面上的并没有一种通用的硬件架构,可以在不需要增加硬件架构规模的基础上同时加速上述描述的复杂算法。随着人工智能、智能识别、超级计算等算法的日益复杂,对于具备同时加速通用计算、并行计算、卷积计算的要求也越来越紧迫。神经网络和深度学习目前为处理图像识别的许多问题提供了最佳解决方案,而基于多任务卷积神经网络(MTCNN)的图像检测技术可以解决传统算法对环境要求高、人脸要求高、检测耗时高的弊端,但依然需要硬件提供较高的算力和内存带宽,现有技术中,基于FPGA平台和RIS-V处理器的硬件可以实现小型化模块和一定程度的加速效果,但针对图像卷积计算过程,还是存在多任务处理速度慢、内存带宽占用效率低、外部数据兼容性较差、卷积运算速度慢等问题。
技术实现思路
本专利技术针对上述技术问题,提出了一种用于执行多任务卷积神经网络预测的装置和方法,通过硬件架构优化实现对多任务卷积神经网络预测的加速,将多任务卷积神经网络中的各级任务,优化处理器对卷积核计算、池化运算等复杂计算的处理过程,在小型化、高兼容性和高集成性硬件的基础上,缓解处理器的整体算力要求,并可以有效地利用内存的最大带宽,从而使得多任务卷积神经网络的训练过程更加顺畅且高速。为了实现本专利技术的目的,本专利技术采用的技术方案是:一种用于执行多任务卷积神经网络预测的装置和方法,其特征在于,所述装置包括:控制接口、内存单元、总线复用器和加速器单元,所述控制接口,用于接收指令输入,并发送至加速器单元;所述内存单元,用于存储数据信息、卷积层参数和激活函数;所述总线复用器,用于连接各单元,传输数据和指令信息;所加速器单元含数据缓存器、卷积核缓存器、卷积核控制器、卷积调度器和若干组乘加阵列,所述加速器单元用于分配处理多任务卷积神经网络执行过程中的各类任务,通过所述总线复用器访问所述内存单元中存储的数据和指令信息,所述卷积调度器通过所述总线复用器调取并分配卷积控制指令,所述数据缓存器根据卷积控制指令驱动进行数据预取和存储,所述卷积核缓存器根据卷积控制指令驱动进行卷积核预取和存储,所述卷积核控制器根据卷积控制指令驱动分别访问并读取所述数据缓存器和卷积核缓存器中相应数据信息,并将所述数据信息发送至所述乘加阵列完成卷积核运算,完成运算后通过量化回写经总线复用器将结果输入内存单元相应地址。本专利技术基于多任务卷积神经网络预测过程中的复杂计算特性,将内存访问指令和卷积运算指令独立执行,可以实现对内存访问带宽的最优化利用,可有效地减少多任务卷积神经网络预测过程的耗时。简化了多任务卷积神经网络预测的处理流程,并可以根据卷积核计算量,有目的性的配置乘加阵列的数量,有效提高了现有神经网络预测的执行效率和适用性。本专利技术提出一种用于执行多任务卷积神经网络预测的装置和方法。专利技术所述装置和方法对于提高多任务卷积神经网络预测的效率具有重要的意义,其有益效果具体体现在以下几个方面:1、本专利技术的内存和运算指令分配,能实现缓存器对数据的逐段预取和卷积运算的同时执行,从而简化了传统方法中需要先将图像数据全部读取后,再完成卷积计算的耗时处理过程。2、本专利技术对内存单元中的数据预先进行地址段化处理,便于缓存器有序地持续性访问、读取和缓存数据,可实现内存带宽负荷的有效利用,进而减少了内存带宽集中占用和内存带宽空闲。同时,该方法又能实时写入卷积结果,最大限度的利用内存带宽复,从而减少训练耗时。3、本专利技术的乘加阵列可根据具体的计算规模,更合理的进行配置数量,可以在保证计算能力的基础上,最大限度的节省装置内部的空间和硬件材料,减少成本的同时,进一步提升了细节上的能耗优化。4、本专利技术的装置和方法还具有较强的集成性,可以广泛地应用于移动设备、智能终端、各类人工智能装置等。得益于上述优点,本专利技术可以对用于执行多任务卷积神经网络的预测进行加速,不仅耗时短,且可大程度的降低人工智能设备的硬件成本,可有效提高了现有神经网络预测的执行效率和适用性,可以推广到各类多任务神经网络预测或基于多任务神经网络的图像识别系统中。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种用于执行多任务卷积神经网络预测的装置的结构示意图;图2为本专利技术实施例提供的一种用于执行多任务卷积神经网络预测的装置的硬件架构示意图;图3为本专利技术实施例提供的一种用于执行多任务卷积神经网络预测的方法流程图;图4为本专利技术实施例提供的内存数据段化存储模式示意图;图5为本专利技术实施例提供的一种组合加速单元的硬件架构示意图。具体实施方式以下描述了本专利技术的实施例。然而,应该理解,所公开的实施例仅仅是示例,并且其他实施例可以采取各种替代形式。附图不一定按比例绘制;某些功能可能被夸大或最小化以显示特定部件的细节。因此,本文公开的具体结构和功能细节不应被解释为限制性的,而仅仅是作为用于教导本领域技术人员以各种方式使用本专利技术的代表性基础。如本领域普通技术人员将理解的,参考任何一个附图所示出和描述的各种特征可以与一个或多个其他附图中所示的特征组合以产生没有明确示出或描述的实施例。所示特征的组合为典型应用提供了代表性实施例。然而,与本专利技术的教导相一致的特征的各种组合和修改对于某些特定应用或实施方式可能是期望的。为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术实施例进一步详细说明。基于上述目的,本专利技术的实施例提出了一种用于执行多任务卷积神经网络预测的装置,图1为本专利技术实时例提供的一种用于执行多任务卷积神经网络预测的装置结构示意图,如图1所示,所述装置包括:控制接口、内存单元、总线复用器和加速器单元。其中,所述控制接口,用于指令输入,并发送至并存储于所述存储单元对应数据地址。其中,所述内存单元,用于存储数据信本文档来自技高网
...

【技术保护点】
1.一种用于执行多任务卷积神经网络预测的装置和方法,其特征在于,所述装置包括:控制接口、内存单元、总线复用器和加速器单元,所述控制接口,用于接收指令输入,并发送至加速器单元;所述内存单元,用于存储数据信息、卷积层参数和激活函数;所述总线复用器,用于连接各单元,传输数据和指令信息;所述加速器单元含数据缓存器、卷积核缓存器、卷积核控制器、卷积调度器和若干组乘加阵列,所述加速器单元用于分配处理多任务卷积神经网络执行过程中的各类任务,通过所述总线复用器访问所述内存单元中存储的数据和指令信息,所述卷积调度器通过所述总线复用器调取并分配卷积控制指令,所述数据缓存器根据卷积控制指令驱动进行数据预取和存储,所述卷积核缓存器根据卷积控制指令驱动进行卷积核预取和存储,所述卷积核控制器根据卷积控制指令驱动分别访问并读取所述数据缓存器和卷积核缓存器中相应数据信息,并将所述数据信息发送至所述乘加阵列完成卷积核运算,完成运算后通过量化回写经总线复用器将结果输入内存单元相应地址。/n

【技术特征摘要】
1.一种用于执行多任务卷积神经网络预测的装置和方法,其特征在于,所述装置包括:控制接口、内存单元、总线复用器和加速器单元,所述控制接口,用于接收指令输入,并发送至加速器单元;所述内存单元,用于存储数据信息、卷积层参数和激活函数;所述总线复用器,用于连接各单元,传输数据和指令信息;所述加速器单元含数据缓存器、卷积核缓存器、卷积核控制器、卷积调度器和若干组乘加阵列,所述加速器单元用于分配处理多任务卷积神经网络执行过程中的各类任务,通过所述总线复用器访问所述内存单元中存储的数据和指令信息,所述卷积调度器通过所述总线复用器调取并分配卷积控制指令,所述数据缓存器根据卷积控制指令驱动进行数据预取和存储,所述卷积核缓存器根据卷积控制指令驱动进行卷积核预取和存储,所述卷积核控制器根据卷积控制指令驱动分别访问并读取所述数据缓存器和卷积核缓存器中相应数据信息,并将所述数据信息发送至所述乘加阵列完成卷积核运算,完成运算后通过量化回写经总线复用器将结果输入内存单元相应地址。


2.根据权利要求1所述一种用于执行多任务卷积神经网络预测的装置,其特征在于,所述内存单元为一个或多个板载内存芯片;所述总线复用器中是一个非直接分裂的拓展设备;所述加速器单元是由一组或多组缓存器和控制器以及若干组乘加阵列组成;所述乘加阵列是有多组乘法器和加法器按照特定组合构成。


3.根据权利要求1和2所述一种用于执行多任务卷积神经网络预测的装置,其特征在于,所述内存单元中的数据预先进行地址段化处理,分别存储用于执行多任务卷积神经网络预测的数据和指令信息。


4.根据权利要求1所述一种用于执行多任务卷积神经网络预测的方法,其特征在于,将用于执行多任务卷积神经网络预测的数据信息、卷积层参数和激活函数及阈值预存储于所述内存单元,用于执行多任务卷积神经网络预测的一系列指令通过所述控制接口输入到所述卷积调用器,所述卷积调用器通过总线复用器访问内存单元的数据和卷积核地址,进行数据和卷积核预取,并分别存储于数据缓存器和卷积核缓存器中,所述卷积控制器通过所述卷积调度器发出的卷积控制指令调用所述两缓存器中的卷积数据,并通过所述乘加阵列执行...

【专利技术属性】
技术研发人员:李海青吴岳侯广琦
申请(专利权)人:天津中科虹星科技有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1