支持多卡并行的嵌入式智能计算装置制造方法及图纸

技术编号:34331835 阅读:74 留言:0更新日期:2022-07-31 02:13
本发明专利技术提出一种支持多卡并行的嵌入式智能计算装置,包括嵌入式智能计算板卡、主控与IO板卡和RapidIO交换板卡;嵌入式智能计算装置采用高速RapidIO分布式对等网络,并采用标准VPX嵌入式智能计算系统多卡并行计算、标准VPX FPGA主控与IO板卡、标准VPX RapidIO网络交换板卡、标准VPX电源板卡、标准VPX背板,构建嵌入式智能计算系统多卡并行计算集群装置,在处理大规模数据和复杂智能算法网络时,通过该方法及装置不仅获得了系统级智能计算能力倍数增加和较好的算力可扩展性,同时可实现大规模数据密集型计算密集型场景下图像/视频数据实时计算。实时计算。实时计算。

【技术实现步骤摘要】
支持多卡并行的嵌入式智能计算装置


[0001]本专利技术涉及一种支持多卡并行的嵌入式智能计算系统设计方法及装置,属于计算机体系结构中嵌入式系统并行计算


技术介绍

[0002]随着人工智能技术迅速发展,通过执行深度学习网络算法完成计算机视觉和自然语言处理大数据自动识别分析,实现数据处理智能化升级和有效利用,给诸如安防、人脸识别、物品检测、智能家居、智慧城市等应用领域带来了显著的经济效益和业务增长。而传统以CPU、FPGA、DSP硬件计算架构为核心的数字信号处理平台在新型基于深度学习神经网络算法为代表的人工智能算法加速计算应用中面临着计算能力(以下简称算力)不足、计算效能比低、计算结果实时性无法满足等问题,为此新型人工智能专用加速处理器应运而生,比如寒武纪的MLU系列深度学习处理器、华为的昇腾系列深度学习处理器、瑞芯微RK3399系列等,但受限于单个芯片面积、功耗、成本等因素,单个智能处理器芯片集成的计算资源和计算能力有限,同时单块嵌入式计算系统板卡受限于PCB电路面积、功耗有限等苛刻约束条件,导致可集成的智能处理器芯片数量和提供系统级算力也有限,在处理大规模数据和复杂智能算法网络时,单卡形式的嵌入式智能计算系统装置仍存在计算能力不足、数据处理流程“端到端”时延无法满足实时性的问题。

技术实现思路

[0003]为了克服上述问题,本专利技术的目的是提供一种支持多卡并行的嵌入式智能计算系统设计方法及装置,该方法采用高速RapidIO分布式对等网络,并采用标准VPX嵌入式智能计算系统多卡并行计算、标准VPX FPGA主控与IO板卡、标准VPX RapidIO网络交换板卡、标准VPX电源板卡、标准VPX背板,构建嵌入式智能计算系统多卡并行计算集群装置,在处理大规模数据和复杂智能算法网络时,通过该方法及装置不仅获得了系统级智能计算能力倍数增加和较好的算力可扩展性,同时通过采用RapidIO网络交换板卡主、控与IO板卡、多卡嵌入式智能计算板卡板间高速互联和并行计算设计,由RapidIO总线完成板间高速数据传输与交换、FPGA主要负责外部数据的接入与预处理、CPU主要负责高速DDR4缓存与拷贝、深度学习智能处理器主要负责高性能推理计算的并行异构计算架构,可实现大规模数据密集型计算密集型场景下图像/视频数据实时计算。
[0004]针对现有技术的不足,本专利技术提出一种支持多卡并行的嵌入式智能计算装置,其中包括多个嵌入式智能计算板卡、一个主控与IO板卡和一个RapidIO交换板卡;
[0005]该嵌入式智能计算板卡,采用嵌入式ARM处理器和深度学习处理器的异构计算架构,集成RapidIO转PCIE的高速总线桥片模块;该嵌入式智能计算板卡通过该异构计算架构和该高速总线桥片模块,主要负责运行嵌入式Linux操作系统、嵌入式智能算法应用程序和深度学习算法网络模型终端部署,实现高速RapidIO总线图像/视频数据流的实时接收缓存和和基于卷积神经网络的深度学习算法的高性能推理加速计算;
[0006]该主控与IO板卡,采用FPGA和内存的设计架构,用于根据该设计架构提供FPGA硬件逻辑编程和外部数据流缓存、预处理和推理计算任务的分发;FPGA的IO通信接口对外实现与图像/视频外部设备通信接口的接入,对内提供RapidIO总线通信互联接口;
[0007]该RapidIO交换板卡,用于提供多路RapidIO总线通信端口和各端口内部Mesh全连接交换网络,实现该主控及IO单元板卡与所有该嵌入式智能计算板卡间点对点RapidIO网络互联。
[0008]所述的支持多卡并行的嵌入式智能计算装置,其中包括电源板卡,用于为该嵌入式智能计算板卡、该主控及IO板卡、该IO交换板提供工作电源。
[0009]所述的支持多卡并行的嵌入式智能计算装置,其中采用插卡方式将所有该嵌入式智能计算板卡、该主控与IO板卡、该RapidIO交换板卡和该电源卡通过VPX连接器安装固定在VPX背板上。
[0010]所述的支持多卡并行的嵌入式智能计算装置,其中该嵌入式智能计算板卡包括该嵌入式ARM处理器单元、该深度学习处理器、RapidIO总线通信单元、电源模块、VPX连接器;
[0011]其中该嵌入式ARM处理器单元为主控单元,采用PCIe与该深度学习处理器、该高速RapidIO总线通信单元互联,该嵌入式ARM处理器单元作为PCIE RC节点,该深度学习处理器单元和该高速RapidIO总线通信单元均作为PCIE EndPoint节点;
[0012]该深度学习处理器则作为卷积神经网络推理加速专用部件,由专用深度学习智能处理芯片、DDR显存电路与PCIe接口电路互联构成;
[0013]该高速RapidIO总线通信单元,用于提供基于PCIe总线ARM处理器架构的嵌入式智能计算系统与RapidIO交换板卡或其它RapidIO功能板卡之间高带宽、低时延基于RapidIO包交换的高速数据传输通道和RapidIO网络系统级别互联功能,该高速RapidIO总线通信单元采用RapidIO

to

PCIe桥片专用集成芯片,实现RapidIO互联和RapidIO总线协议转PCIe总线协议的相互转换;
[0014]该电源模块与该VPX连接器上输入电源互联,提供该嵌入式智能计算板卡整板工作电源电压网络;
[0015]该VPX连接器,用于提供高速RapidIO总线通信接口单元差分传输线与VPX背板互联和VPX供电输入,物理端口构成包括端口P0、端口P1、端口P2组成,其中端口P0主要用于电源输入,端口P1主要用于RapidIO X4高速信号互联,端口P2主要用于对外引出硬件调试通信接口。
[0016]所述的支持多卡并行的嵌入式智能计算装置,其中该主控与IO板卡,包括FPGA单元、DDR3内存单元、高速数据缓存、预处理与分发模块、硬件IO可编程对外通信接口、高速RapidIO总线通信互联单元、电源模块、VPX连接器;
[0017]其中该FPGA单元用于对DDR3内存单元、对外通信硬件接口通信、RapidIO总线的控制;
[0018]该数据缓存、预处理与分发模块,将数据缓存至该DDR3内存单元,并通过Verilog/VHDL硬件编程语言完成数据预处理功能,进一步以异步的方式添加RapidIO目的ID等字段,将预处理后数据打包成RapidIO NWRITE报文,通过RapidIO NWRITE报文发送至该高速RapidIO总线通信单元;
[0019]该硬件IO可编程对外通信接口,用于FPGA主控芯片与外部图像/视频设备间数据
通信;
[0020]该电源模块与该VPX连接器上输入电源互联,提供该主控与IO板卡整板工作电源电压网络;
[0021]该VPX连接器,为该FPGA单元提供高速RapidIO总线传输线、对外硬件通信接口与VPX背板互联和供电输入,物理端口构成包括端口P0、端口P1、端口P2,其中端口P0主要用于电源输入,端口P1主要用于RapidIO 本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种支持多卡并行的嵌入式智能计算装置,其特征在于,包括多个嵌入式智能计算板卡、一个主控与IO板卡和一个RapidIO交换板卡;该嵌入式智能计算板卡,采用嵌入式ARM处理器和深度学习处理器的异构计算架构,集成RapidIO转PCIE的高速总线桥片模块;该嵌入式智能计算板卡通过该异构计算架构和该高速总线桥片模块,负责运行嵌入式Linux操作系统、嵌入式智能算法应用程序和深度学习算法网络模型终端部署,实现高速RapidIO总线图像/视频数据流的实时接收与缓存,和基于卷积神经网络的深度学习算法的高性能推理加速;该主控与IO板卡,采用FPGA和DDR内存的设计架构,用于根据该设计架构提供FPGA硬件逻辑编程和外部数据流缓存、数据预处理以及根据图像数据类型或帧号分发数据至各嵌入式智能计算板卡进行并行推理计算;FPGA的IO通信接口对外实现与外部诸如图像/视频等设备通信接口的接入,对内实现RapidIO总线通信互联;该RapidIO交换板卡,用于提供多路RapidIO总线通信端口和各端口内部Mesh全连接交换网络,实现该主控及IO单元板卡与所有该嵌入式智能计算板卡间点对点RapidIO网络互联。2.如权利要求1所述的支持多卡并行的嵌入式智能计算装置,其特征在于,包括电源板卡,用于为该嵌入式智能计算板卡、该主控及IO板卡、该IO交换板提供工作电源。3.如权利要求2所述的支持多卡并行的嵌入式智能计算装置,其特征在于,采用垂直插卡方式将所有该嵌入式智能计算板卡、该主控与IO板卡、该RapidIO交换板卡和该电源卡通过VPX连接器安装固定在VPX背板上。4.如权利要求3所述的支持多卡并行的嵌入式智能计算装置,其特征在于,该嵌入式智能计算板卡包括该嵌入式ARM处理器单元、该深度学习处理器、RapidIO总线通信单元、电源模块、VPX连接器;其中该嵌入式ARM处理器单元为主控单元,采用PCIe与该深度学习处理器、该高速RapidIO总线通信单元互联,该嵌入式ARM处理器单元作为PCIE RC节点,该深度学习处理器单元和该高速RapidIO总线通信单元均作为PCIE EndPoint节点;该深度学习处理器则作为深度学习算法网络模型推理计算加速专用部件,由专用深度学习智能处理芯片、DDR显存电路与PCIe接口电路互联构成;该高速RapidIO总线通信单元,用于提供基于PCIe总线ARM处理器架构的嵌入式智能计算系统与RapidIO交换板卡或其它RapidIO功能板卡之间高带宽、低时延基于RapidIO包交换的高速数据传输通道和RapidIO网络系统级别互联功能,该高速RapidIO总线通信单元采用RapidIO

to

PCIe桥片专用集成芯片,实现RapidIO互联和RapidIO总线协议转PCIe总线协议的相互转换;该电源模块与该VPX连接器上输入电源互联,提供该嵌入式智能计算板卡整板工作电源电压网络;该VPX连接器,用于提供高速RapidIO总线通信接口单元差分传输线与VPX背板互联和VPX供电输入,物理端口构成包括端口P0、端口P1、端口P2组成,其中端口P0主要用于电源输入,端口P1主要用于RapidIO X4高速信号互联,端口P2则用于对外引出硬件调试通信接口到VPX背板。5.如权利要求3所述的支持多卡并行的嵌入式智能计算装置,其特征在于,该主控与IO
板卡,包括FP...

【专利技术属性】
技术研发人员:徐勇军吴济文赵二虎安竹林
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1