System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种神经网络计算系统集成芯片技术方案_技高网

一种神经网络计算系统集成芯片技术方案

技术编号:41197922 阅读:5 留言:0更新日期:2024-05-07 22:25
本发明专利技术公开了一种神经网络计算系统集成芯片,包括一个基于FPGA的片上系统,其中,所述片上系统为具有RISC‑V_FPGA资源的片上系统,使用28nm、14nm及14nm以下工艺构建管道长配置,包括多个DSP来进行运算处理,并行运行多个管道;所述片上系统包括一个FPGA区域、一个RISC‑V内核和几个安装在支持多个内存芯片的中介层上的I/O和内存接口。本发明专利技术提供的神经网络计算系统集成芯片,由非阻塞交叉开关实现层与层之间的神经网络传递,通过卷积操作、采样操作和全连接神经网络操作,对深度神经网络进行加速。

【技术实现步骤摘要】

本专利技术涉及一种处理单元系统集成芯片,尤其涉及一种神经网络计算系统集成芯片


技术介绍

1、传统的神经网络处理图片使用gpu,本专利技术使用张量流和risc-v_fpga解决神经网络和tensorflow的计算需求。

2、risc-v_fpga是一个具有可编程连接的门、寄存器和网线的互连网络。可编程连接让制造几乎任何类型的数字电子电路成为可能。通常来说,基本块是指可编程查找表(lut)、寄存器、网线、i/o块(iob)和可编程连接(交换块),用于连接基本块和网线。lut是一种简单的方法,可以复制少量输入(通常为5个或6个)的复杂逻辑函数(由and、or、not、xor等组成)。该lut与一个寄存器相结合,该寄存器捕获并暂时保存逻辑功能的输出,以形成一个可配置逻辑块clb,即risc-v_fpga的基本构建块。其他部分是网线和可编程连接,使连接clb的方式能够执行更复杂的功能,如数学函数。还有可编程的i/o块连接(iob),连接芯片外。通常还有其他功能块,如内存和乘法器累加器(mac)和数字信号处理器(dsp),它们提供了一种比clb从头开始构建更有效的方法来实现一些常见功能。在真正的risc-v_fpga中,所有如图2的资源的数量都会大得多。为什么使用risc-v_fpga来解决用传统计算机不能解决的问题?主要原因是risc-v_fpga速度更快,这主要通过两种方式实现:流水线和并行计算单元。

3、张量是表示数据类型的n维向量或矩阵。张量中所有值的数据类型都相同,张量的形状已知。形状是矩阵的维数,如2x2x2。向量是一维张量;矩阵是二维张量。

4、图是在输入张量上连续进行的一组计算。图只是表示模型中操作的节点排列。如图3所示,两个节点之间有权重连接,输入之和到节点也有一个权重因子。确定这些权重的值是训练神经网络的一部分。

5、神经网络通常含有多个隐藏层。这里本专利技术把神经网络的隐藏层展开铺平如图3,在实际情况中,隐藏层的结构更复杂,可能是28×28矩阵,甚至是更复杂的多维张量。

6、tensorflow是一个用于深度学习和机器学习的开源库,最初由谷歌开发,使用python作为前端,并在优化的c++中高效运行。tensorflow包括keras api,这是一种高级神经网络api,提供有用的抽象工具,从而简化样本文件。tensorflow将机器学习和深度学习的模型和算法捆绑在一起。

7、tensorflow允许开发人员创建要执行的运算图,图中的每个节点表示一个数学运算,每个连接表示数据。开发人员可以专注于应用程序的总体逻辑,而不是处理底层细节。

8、tensorflow允许开发人员创建多层的大规模神经网络,主要用于分类、感知、理解、发现、预测和创造,可用于行为预测的数据分析、数据分析的大型线性模型、语音及声音识别、基于文本的应用、时间序列、视频检测语音识别系统、图像及视频的识别和标记、自动驾驶汽车、文本摘要、情绪分析和其他方面。


技术实现思路

1、本专利技术所要解决的技术问题是提供一种时序大数据人工智能核线程管道电子转移计算系统集成芯片,是一个具有risc-v_fpga资源的片上系统,使用28nm、14nm及14nm以下工艺构建管道长配置,其中包括大量dsp来进行运算处理,可以并行运行更多的管道。

2、本专利技术提供的一种核线程管道电子转移计算系统集成芯片,包括一个基于fpga的片上系统,其中,所述片上系统为具有risc-v_fpga资源的片上系统,使用28nm、14nm及14nm以下工艺构建管道长配置,包括多个dsp来进行运算处理,并行运行多个管道;所述片上系统包括一个fpga区域、一个risc-v内核和几个安装在支持多个内存芯片的中介层上的i/o和内存接口。

3、进一步地,所述片上系统使用动态控制的可配置开关块;所述开关块完全由一组寄存器控制,其中一个用于保持当前连接配置,另一个用于保存下一个配置。

4、进一步地,所述片上系统通过运行risc-v代码和risc-v_fpga内部生成的信号改变互连线结构。

5、进一步地,所述中介层设于封装基板上,所述中介层为被动半导体材料,采用四层技术并带通孔和互连迹线;中介层上由芯片来实现pcie接口、100gige接口或risc-v内核以及128gb dram。

6、进一步地,所述片上系统使用risc-v_fpga硬件实现一个i x j的非阻塞交叉开关处理神经网络模型,i、j为正整数,实现层与层之间的神经网络传递,通过卷积操作、采样操作和全连接神经网络操作,对深度神经网络进行加速。

7、进一步地,所述神经网络模型将数据分成n个部分,每个部分的深度学习算法的数学框架如下:

8、设从数据中随机抽取的小批量样本集为:

9、{(xi,yi),i=1,…,m}

10、定义样本集的经验风险函数为:

11、

12、其中θ=[θ1,θ2,…,θp]t为参数向量

13、令梯度向量为:

14、g=[g1,g2,…,gp]t

15、其中

16、设第iter+1次迭代的累积平方梯度向量为:

17、

18、其中

19、则第iter+1次迭代的解为:

20、

21、其中

22、其中δ是大于0的常数,∈为学习率,ρ为衰减率。

23、进一步地,所述神经网络模型训练过程的加速包括准备部分和迭代部分;准备部分包括:(1)加载所有属性的数据类型;(2)为第一个属性生成索引表s;(3)加载神经网络;(4)为神经网络分配内存;对于每次迭代,执行以下操作:(1)从索引表s中选择n个索引;(2)根据n条记录的数据类型生成索引矩阵;(3)使用管道方法进行从某一层到下一层的前向传播;(4)对于建立n x q个管道块,并在每个管道块中计算

24、进一步地,所述risc-v内核控制的操作包括:(1)控制步骤顺序;(2)加载和调整存储的权重因子;(3)将数据从连接的存储器读取到输入层;(4)通过非阻塞交叉开关选择哪个节点连接到哪个节点;(5)根据节点间的连接为mac步骤选择正确的权重;(6)在节点之间传输数据的节点操作计时;(7)将输出写回内存;(8)控制每次训练结束时需要的更新。

25、进一步地,所述risc-v内核对于核管道算法、卷积神经网络算法和tensorflow问题,大部分的处理工作都在管道中完成,并配置多个risc-v fpga副本,从而在不影响其他部分的情况下执行for循环中相同的操作集。

26、进一步地,for循环每次迭代执行的代码可以分解为一系列小步骤,其中a、b、c、d、e是for循环计算一次的值,a、b、c、d、e是存储当前时间步的数据单位值的寄存器;

27、a=j*s(初始3),b=k*s(初始5),c’=o[i][j][k][q本文档来自技高网...

【技术保护点】

1.一种神经网络计算系统集成芯片,包括一个基于FPGA的片上系统,其特征在于,所述片上系统为具有RISC-V_FPGA资源的片上系统,使用28nm、14nm及14nm以下工艺构建管道长配置,包括多个DSP来进行运算处理,并行运行多个管道;所述片上系统包括一个FPGA区域、一个RISC-V内核和几个安装在支持多个内存芯片的中介层上的I/O和内存接口。

2.如权利要求1所述的神经网络计算系统集成芯片,其特征在于,所述片上系统使用动态控制的可配置开关块;所述开关块完全由一组寄存器控制,其中一个用于保持当前连接配置,另一个用于保存下一个配置。

3.如权利要求2所述的神经网络计算系统集成芯片,其特征在于,所述片上系统通过运行RISC-V代码和RISC-V_FPGA内部生成的信号改变互连线结构。

4.如权利要求1所述的神经网络计算系统集成芯片,其特征在于,所述中介层设于封装基板上,所述中介层为被动半导体材料,采用四层技术并带通孔和互连迹线;中介层上由芯片来实现PCIe接口、100GigE接口或RISC-V内核以及128GB DRAM。

5.如权利要求1所述的神经网络计算系统集成芯片,其特征在于,所述片上系统使用RISC-V_FPGA硬件实现一个ixj的非阻塞交叉开关处理神经网络模型,i、j为正整数,实现层与层之间的神经网络传递,通过卷积操作、采样操作和全连接神经网络操作,对深度神经网络进行加速。

6.如权利要求5所述的神经网络计算系统集成芯片,其特征在于,所述神经网络模型将数据分成N个部分,每个部分的深度学习算法的数学框架如下:

7.如权利要求5所述的神经网络计算系统集成芯片,其特征在于,所述神经网络模型训练过程的加速包括准备部分和迭代部分;准备部分包括:(1)加载所有属性的数据类型;(2)为第一个属性生成索引表S;(3)加载神经网络;(4)为神经网络分配内存;对于每次迭代,执行以下操作:(1)从索引表S中选择n个索引;(2)根据n条记录的数据类型生成索引矩阵;(3)使用管道方法进行从某一层到下一层的前向传播;(4)对于建立n x q个管道块,并在每个管道块中计算

8.如权利要求5所述的神经网络计算系统集成芯片,其特征在于,所述RISC-V内核控制的操作包括:(1)控制步骤顺序;(2)加载和调整存储的权重因子;(3)将数据从连接的存储器读取到输入层;(4)通过非阻塞交叉开关选择哪个节点连接到哪个节点;(5)根据节点间的连接为MAC步骤选择正确的权重;(6)在节点之间传输数据的节点操作计时;(7)将输出写回内存;(8)控制每次训练结束时需要的更新。

9.如权利要求5所述的神经网络计算系统集成芯片,其特征在于,所述RISC-V内核对于核管道算法、卷积神经网络算法和TensorFlow问题,大部分的处理工作都在管道中完成,并配置多个RISC-V_FPGA副本,从而在不影响其他部分的情况下执行for循环中相同的操作集。

10.如权利要求9所述的神经网络计算系统集成芯片,其特征在于,for循环每次迭代执行的代码可以分解为一系列小步骤,其中a、b、c、d、e是for循环计算一次的值,a、b、c、d、e是存储当前时间步的数据单位值的寄存器;

...

【技术特征摘要】

1.一种神经网络计算系统集成芯片,包括一个基于fpga的片上系统,其特征在于,所述片上系统为具有risc-v_fpga资源的片上系统,使用28nm、14nm及14nm以下工艺构建管道长配置,包括多个dsp来进行运算处理,并行运行多个管道;所述片上系统包括一个fpga区域、一个risc-v内核和几个安装在支持多个内存芯片的中介层上的i/o和内存接口。

2.如权利要求1所述的神经网络计算系统集成芯片,其特征在于,所述片上系统使用动态控制的可配置开关块;所述开关块完全由一组寄存器控制,其中一个用于保持当前连接配置,另一个用于保存下一个配置。

3.如权利要求2所述的神经网络计算系统集成芯片,其特征在于,所述片上系统通过运行risc-v代码和risc-v_fpga内部生成的信号改变互连线结构。

4.如权利要求1所述的神经网络计算系统集成芯片,其特征在于,所述中介层设于封装基板上,所述中介层为被动半导体材料,采用四层技术并带通孔和互连迹线;中介层上由芯片来实现pcie接口、100gige接口或risc-v内核以及128gb dram。

5.如权利要求1所述的神经网络计算系统集成芯片,其特征在于,所述片上系统使用risc-v_fpga硬件实现一个ixj的非阻塞交叉开关处理神经网络模型,i、j为正整数,实现层与层之间的神经网络传递,通过卷积操作、采样操作和全连接神经网络操作,对深度神经网络进行加速。

6.如权利要求5所述的神经网络计算系统集成芯片,其特征在于,所述神经网络模型将数据分成n个部分,每个部分的深度学习算法的数...

【专利技术属性】
技术研发人员:蔡卓然单洪泷
申请(专利权)人:上海大象张量纳米科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1