【技术实现步骤摘要】
【国外来华专利技术】分布式处理用人工神经网络运算加速装置、利用其的人工神经网络加速系统、及该人工神经网络的加速方法
[0001]本专利技术涉及一种分布式处理用人工神经网络运算加速装置、利用其的人工神经网络加速系统、及该人工神经网络的加速方法。更详细地,涉及通过将人工神经网络运算所需的针对输入神经元的数据和突触权重在具有通用通信中介块的多个分布式处理用人工神经网络运算加速装置以分布的方式进行处理,从而即使不使用诸如GPGPU的大功率、高成本的硬件,也可以不仅能够满足人工神经网络运算所需的性能,还可以根据目标性能灵活地设计人工神经网络的人工神经网络运算加速装置、加速系统、及其加速方法。
技术介绍
[0002]近来,随着人工智能技术的发展,人工智能技术被引入各种工业领域。
[0003]在如上所述的人工智能技术中,深度学习(Deep Learning;深度学习)技术起着重要的作用,它基于接收多个信号作为输入而输出一个信号的感知器算法发展成为由神经元网络构成的人工神经网络技术。
[0004]其中,为了执行诸如深度学习技术的人工神经网络技术 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种分布式处理用人工神经网络运算加速装置,其作为用于处理输入神经元由层构成而形成的人工神经网络运算的加速装置,其特征在于,具有:外部主存储器,所述外部主存储器存储针对所述输入神经元的输入数据和突触权重;内部缓冲存储器,所述内部缓冲存储器对存储在所述外部主存储器的突触权重和输入数据中的构成所述人工神经网络运算的各个循环所需的突触权重和输入数据进行存储;DMA模块,所述DMA模块用于与所述外部主存储器及内部缓冲存储器直接发送和接收数据;神经网络运算装置,所述神经网络运算装置针对构成人工神经网络运算的每个循环重复地处理以下一系列顺序过程:读取存储在所述内部缓冲存储器的突触权重和输入数据、执行人工神经网络运算、将运算结果存储在所述外部主存储器;CPU,所述CPU用于控制在所述外部主存储器和内部缓冲存储器存储针对输入神经元的输入数据和突触权重的操作和所述神经网络运算装置的运行;及通用通信中介块,所述通用通信中介块可以与无关集成电路的类型地以物理方式连接的其他加速装置发送和接收针对所述输入神经元的输入数据和突触权重以及在所述神经网络运算装置执行的运算结果。2.根据权利要求1所述的分布式处理用人工神经网络运算加速装置,其特征在于,还包括:数据输入装置,所述数据输入装置由传感器接口或外围装置构成。3.根据权利要求1所述的分布式处理用人工神经网络运算加速装置,其特征在于,还具有:外部闪存,所述外部闪存存储有执行所述人工神经网络运算过程所需的所有突触权重。4.根据权利要求1所述的分布式处理用人工神经网络运算加速装置,其特征在于,当构成以物理方式连接的加速装置的集成电路的类型是片上系统或现场可编程逻辑门阵列的情况下,所述通用通信中介块均以能够进行通信中介的方式形成。5.根据权利要求4所述的分布式处理用人工神经网络运算加速装置,其特征在于,所述通用通信中介块具有:重映射模块,所述重映射模块用于在从与发送用集成电路连接的总线主接口施加的信号中,重映射指定接收用集成电路的构成要素的地址和总线ID信号的宽度。6.一种人工神经网络加速系统,其作为用于处理针对输入神经元的输入数据具有多个深度的人工神经网络运算的加速系统,其特征在于,具有:主机加速装置,所述主机加速装置与存储有所述人工神经网络运算所需的所有突触权重的闪存连接,且具有所述多个深度的个数以上的主机用通信中介块;及多个从机加速装置,所述多个从机加速装置分别具有一个以上的以物理方式连接到所述主机加速装置的主机用通信中介块的从机用通信中介块,且所述多个从机加速装置与所述多个深度的个数一对一相对应地形成,所述主机加速装置,将突触权重和输入数据以并行方式分布到与所述多个深度的各个深度相关的从机加速装置来处理人工神经网络运算,且汇总所述从机加速装置的中间运算结果来执行最终运
算。7.一种人工神经网络加速系统,其作为用于处理输入神经元由多个层构成的人工神经网络运算的加速系统,其特征在于,包括:主机加速装置,所述主机加速装置与存储有所述人工神经网络运算所需的所有突触权重的闪存连接,且具有一对以上的主机用通信中介块以用于进行发送和接收;及多个从机加速装置,为了与所述主机加速装置顺序地连接而整体上呈流水线形态,所述从机加速装置具有一对以上的从机用通信中介块以用于进行发送和接收,将针对构成所述人工神经网络运算的输入神经元的突触权重和输入数据顺序地分布到所述主机加速装置和所述从机加速装置来处理人工神经网络运算。8.根据权利要求6或7所述的人工神经网络加速系统,其特征在于,所述主机加速装置和所述从机加速装置分别可由片上系统方式及现场可编程逻辑门阵列方式中的任一种方式的集成电路构成,且无关集成电路的类型地,通过所述主机用通信中介块和所述从机用通信中介块能够在彼此间相互进行发送和接收。9.根据权利要求8所述的人工神经网络加速系统,其特征在于,所述主机加速装置和所述从机加速装置分别还具有:外部主存储器,所述外部主存储器存储针对所述输入神经元的输入数据和突触权重;内部缓冲存储器,所述内部缓冲存储器将存储在所述外部主存储器的突触权重和输入数据中的构成所述人工神经网络运算的各个循环所需的突触权重和输入数据进行存储;DMA模块,所述DMA模块用于与所述外部主存储器及内部缓冲存储器直接发送和接收数据;神经网络运算装置,所述神经网络运算装置针对构成人工神经网络运算的各个循环重复地处理以下一系列顺序过程:读取存储在所述内部缓冲存储器的突触权重和输入数据、执行人工神经网络运算、将运算结果存储在所述外部主存储器;及CPU,所述CPU用于控制在所述外部主存储器和内部缓冲存储器存储针对输入神经元的输入数据和突触权重的操作和所述神经网络运算装置的运行。10.根据权利要求8所述的人工神经网络加速系统,其特征在于,所述主机用通信中介块和所述从机用通信中介块分别具有:重映射模块,所述重映射模块用于在从与发送用集成电路连接的总线主接口施加的信号中,重映射指定接收用集成电路的构成要素的地址和总线ID信号的宽度。11.一种人工神经网络加速系统,其作为用于处理针对输入神经元的输入数据由多个(M)深度及多个(N)层构成的人工神经网络运算的加速系统,其特征在于,包括:主机加速装置,所述主机加速装置与存储有所述人工神经网络运算所需的所有突触权重的闪存连接,且具有所述多个(N)层的层数以上的主机用通信中介块;及多个从机加速装置,所述从机加速装置具有一个以上的从机用通信中介块,以用于与所述主机加速装置的主机用通信中介块连接或与其他加速装置连接,且与所述多个(M)深度及多个(N)层所需的神经网络运算的循环数(M
×
N)一对一相对应地形成。12.根据权利要求11所述的人工神经网络加速系统,其特征在于,所述主机加速装置和所述从机加速装置分别由片上系统方式及现场可编程逻辑门阵
列方式中的任一种方式的集成电路构成,且无关集成电路的类型地,通过所述主机用通信中介块和所述从机用通信中介块能够在彼此间相互进行发送和接收。13.根据权利要求12所述的人工神经网络加速系统,其特征在于,所述主机加速装置和所述从机加速装置分别还具有:外部主存储器,所述外部主存储器存储针对所述输入神经元的输入数据和突触权重;内部缓冲存储器,所述内部缓冲存储器将存储在所述外部主存储器的突触权重和输入数据中的构成所述人工神经网络运算的各个循环所需的突触权重和输入数据进行存储;DMA模块,所述DMA模块用于与所述外部主存储器及内部缓冲存储器直接发送和接收数据;神经网络运算装置,所述神经网络运算装置针对构成人工神经网络运算的各个循环重复地处理以下一系列顺序过程:读取存储在所述内部缓冲存储器的突触权重和输入数据、执行人工神经网络运算、将运算结果存储在所述外部主存储器;CPU,所述CPU用于控制在所述外部主存储器和内部缓冲存储器存储针对输入神经元的输入数据和突触权重的操作和所述神经网络运算装置的运行。14.根据权利要求12所述的人工神经网络加速系统,其特征在于,所述主机用通信中介块和所述从机用通信中介块分别具有:重映射模块,所述重映射模块用于在从与发送用集成电路连接的总线主接口施加的信号中,重映射指定接收用集成电路的构成要素的地址和总线ID信号的宽度。15.一种复合人工神经网络加速系统,其作为由权利要求6、7及11中的一个以上的人工神经网络加速系统构成多个人工神经网络的复合人工神经网络的加速系统,其特征在于,将针对输入神经元的输入数据和突触权重按照构成所述多个人工神经网络的各个人工神经网络单位划分并以分布的方式进行处理。16.一种人工神经网络加速方法,作为利用由单个集成电路构成的分布式处理用人工神经网络运算加速装置来对包括输入层和N个隐藏层而具有层结构的人工神经网络处理进行加速的方法,其特征在于,包括以下步骤:a1:当向所述加速装置施加电源,则将存储在外部闪存的针对用于人工神经网络运算的输入神经元的所有突触权重存储在外部主存储器;a2:将通过数据输入装置输入的初始输入数据经由DMA模块存储在外部主存储器;a3:按照构成人工神经网络的输入层的各个循环所需,将存储在所述外部主存储器的输入数据和与所述输入数据相对应的突触权重存储在内部缓冲存储器;a4:神经网络运算装置对应于构成所述人工神经网络的各个循环,并读取存储在所述内部缓冲存储器的突触权重和输入数据以执行人工神经网络运算,直至完成针对整个层的运算为止,并为了将该运算结果用作下一层的输入数据而存储在外部主存储器;及a5:按照各个循环所需,从所述外部主存储器读取用于针对隐藏层的人工神经网络运算的针对输入神经元的突触权重和输入数据存储在内部缓冲存储器之后,针对N个隐藏层重复执行所述步骤a4的过程。17.一种人工神经网络加速方法,其作为对包括单个主机加速装置和多个从机加速装置而针对输入神经元的输入数据具有M个深度的人工神经网络处理进行加速的方法,其特
征在于,包括以下步骤:b1:当向所述单个主机加速装置和多个从机加速装置施加电源,则将存储在外部闪存的用于人工神经网络运算的针对输入神经元的所有突触权重存储在所述主机加速装置的外部主存储器;...
【专利技术属性】
技术研发人员:李相宪,金峰正,金周赫,
申请(专利权)人:深爱智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。