大数据运算加速系统技术方案

技术编号:21695979 阅读:55 留言:0更新日期:2019-07-24 18:18
本实用新型专利技术实施例提供一种大数据运算加速系统,包括2个以上运算芯片,运算芯片包括N个内核、N个数据通道和至少一个存储单元,数据通道包括发送接口和接收接口,内核和数据通道一一对应;2个以上运算芯片通过发送接口和接收接口进行连接传输数据;至少一个存储单元用于分布式存储数据。该系统中取消了芯片外接内存,将存储单元设置在ASIC芯片内部,减少了ASIC芯片从外部读取数据的时间,加快了芯片运算速度。多个ASIC芯片共享存储单元,这样不仅减少了存储单元的数量,也减少了ASIC运算芯片之间的连接线,简化了系统构造,减低了ASIC芯片的成本。同时,多个运算芯片之间采用serdes接口技术进行数据传输,提高了在多个ASIC芯片之间数据传输的速率。

Large Data Acceleration System

【技术实现步骤摘要】
大数据运算加速系统
本公开涉及集成电路领域,特别是涉及一种大数据运算加速系统。
技术介绍
ASIC(ApplicationSpecificIntegratedCircuits)即专用集成电路,是指应特定用户要求和特定电子系统的需要而设计、制造的集成电路。ASIC的特点是面向特定用户的需求,ASIC在批量生产时与通用集成电路相比具有体积更小、功耗更低、可靠性提高、性能提高、保密性增强、成本降低等优点。随着科技的发展,越来越多的领域,比如人工智能、安全运算等都涉及大运算量的特定计算。针对特定运算,ASIC芯片可以发挥其运算快,功耗小等特定。同时,对于这些大运算量领域,为了提高数据的处理速度和处理能力,通常需要控制N个运算芯片同时进行工作。随着数据精度的不断提升,人工智能、安全运算等领域需要对越来越大的数据进行运算,例如:现在照片的大小一般为3-7MB,但是随着数码相机和摄像机的精度增加,照片的大小可以达到10MB或者更多,而30分钟的视频可能达到1个多G的数据。而在人工智能、安全运算等领域中要求计算速度快,时延小,因此如何提高计算速度和反应时间一直是芯片设计所要求的目标。由于ASIC芯片搭配的内存一般为64MB或者128MB,而当要处理的数据在512MB以上时,ASIC芯片要多次利用内存存取数据,多次将数据从外部存储空间中搬入或者搬出内存,降低了处理速度。同时,随着数据精度的不断提升,人工智能、安全运算等领域需要对越来越大的数据进行运算,为了存储数据一般需要给ASIC芯片配置多个存储单元,例如一块ASIC芯片要配置4块2G内存;这样N个运算芯片同时工作时,就需要4N块2NG内存。但是,在多运算芯片同时工作时,数据存储量不会超过2个G,这样就造成了存储单元的浪费,提高了系统成本。在处理大量相关数据的设计中,现有技术中面临两个难题:1、是大幅度提升性能的需求。2、如果是分布式系统,那么还要解决数据相关性问题,即某个子系统中处理完的数据需要呈现给所有其他的子系统中进行确认和再处理。一般通过两种方式减少数据处理耗费的时间,一是加快处理数据逻辑的时钟;二是增加处理数据的并发块数。在工艺限制下,时钟速率的提升很有限。提升并发数目是更加有效的提升性能的方法。但提升并发数目之后,一般也相应的提高了数据带宽的要求。一般的系统中,如果数据带宽取决于DDR提供的带宽,但DDR的带宽提升并不是线性的。假设初始系统含有DDR一组,提供带宽1x。如果我们需要获得2x的带宽提升,可以实现两组DDR,但如果需要获得16x以上的带宽提升,因为物理尺寸的限制,不可能通过简单的在一个系统中例化16组DDR实现。如果需要多个ASIC芯片协同工作的话,不能直接将数据分布在不相连的多个系统中进行处理,因为这些数据都是相关的,每份在某个处理单元中完成的数据都必须在其他处理单元中进行确认和再处理,因此如果提高在多个ASIC芯片之间数据传输的速率也是必须要解决多系统互联的问题。
技术实现思路
本技术实施例的目的就是提供一种使用高速接口连接分布式存储的方式,实现多个同构系统并发处理大量相关数据。本技术实施例提供一种大数据运算加速系统,该系统中取消了芯片外接内存,将存储单元设置在ASIC芯片内部,减少了ASIC芯片从外部读取数据的时间,加快了芯片运算速度。多个ASIC芯片共享存储单元,这样不仅减少了存储单元的数量,也减少了ASIC运算芯片之间的连接线,简化了系统构造,减低了ASIC芯片的成本。同时,多个运算芯片之间采用serdes接口技术进行数据传输,提高了在多个ASIC芯片之间数据传输的速率。为达到上述目的,本技术实施例提供如下技术方案:根据本技术实施例提供的第一种大数据运算加速系统,包括2个以上运算芯片,所述运算芯片包括N个内核core、N个数据通道(lane)和存储单元,所述数据通道(lane)包括发送接口(tx)和接收接口(rx),所述内核core和数据通道(lane)一一对应,所述内核core通过数据通道(lane)发送和接收数据或者控制指令;所述运算芯片通过所述发送接口(tx)和所述接收接口(rx)进行连接,以便数据或者控制指令传输;所述2个以上运算芯片的存储单元用于分布式存储数据,运算芯片内核core可以从本运算芯片的存储单元获取数据,也可以从其他运算芯片的存储单元获取数据;其中N为大于等于4的正整数。可选的,所述运算芯片的所述发送接口(tx)和所述接收接口(rx)为serdes接口,所述运算芯片之间通过serdes接口进行通信。可选的,所述数据通道(lane)进一步包括接收地址判断单元、发送地址判断单元;接收地址判断单元一端连接于接收接口(rx),接收地址判断单元另一端连接于内核core;发送地址判断单元一端连接于发送接口(tx),发送地址判断单元另一端连接于内核core;接收地址判断单元和发送地址判断单元相互连接。可选的,接收接口(rx)接收相邻一侧运行芯片发送的数据帧,将所述数据帧发送给接收地址判断单元,接收地址判断单元将所述数据帧发送给内核core,同时将所述数据帧发送给发送地址判断单元;发送地址判断单元接收所述数据帧,将所述数据帧发送给发送接口(tx),发送接口将所述数据帧发送给相邻另一侧运行芯片。可选的,内核core产生数据帧,将所述数据帧发送给发送地址判断单元,发送地址判断单元将所述数据帧发送给发送接口(tx),发送接口(tx)将所述数据帧发送给相邻一侧的运行芯片。可选的,所述接收地址判断单元和发送地址判断单元通过先进先出存储器进行相互连接。可选的,所述存储单元包括多个存储器,所述多个存储器连接到至少一个存储控制单元;所述至少一个存储控制单元用于控制所述多个存储器的数据读取或者存储。可选的,所述存储器包括至少两个存储子单元和存储控制子单元;存储控制子单元通过接口与所述至少一个存储控制单元中的每一个连接,所述存储控制子单元用于控制所述至少两个存储子单元的数据读取或者存储。可选的,所述存储子单元为SRAM存储器。可选的,所述2个以上运算芯片连接成环形。可选的,所述2个以上运算芯片不连接外部存储单元。可选的,所述运算芯片进一步包括第一数据接口(130)与外部主机相连,用于接收外部数据或者控制指令。可选的,所述运算芯片将外部数据存储到所述2个以上运算芯片的至少一个存储单元。可选的,所述第一数据接口为UART控制单元。可选的,所述N个内核core和所述至少一个存储控制单元中的每一个相连;根据所述N个内核core的操作命令,从所述多个存储器中读写数据。可选的,内核core将产生的数据发送给所述至少一个存储控制单元,所述至少一个存储控制单元将数据发送给所述存储控制子单元,所述存储控制子单元将数据存储到存储子单元中。可选的,运算芯片内核core获取其他运算芯片发送的获取数据命令,运算芯片内核core通过数据地址判断数据是否存储在本运算芯片的存储单元中,如果存在则向所述至少一个存储控制单元发送数据读取命令;所述至少一个存储控制单元将数据读取命令发送给对应的存储控制子单元,存储控制子单元从存储子单元获取数据,存储控制子单元将所述获取数据发送给至少一个存储控制单元,至少一个存储控制单元将所述获取数据发送给内核core,内核本文档来自技高网
...

【技术保护点】
1.一种大数据运算加速系统,其特征在于,包括2个以上运算芯片,所述运算芯片包括N个内核core、N个数据通道(lane)和至少一个存储单元,所述数据通道(lane)包括发送接口(tx)和接收接口(rx),所述内核core和数据通道(lane)一一对应,所述内核core通过数据通道(lane)发送和接收数据;所述2个以上运算芯片通过所述发送接口(tx)和所述接收接口(rx)进行连接传输数据;所述至少一个存储单元用于分布式存储数据,运算芯片的每个内核core能够从所在运算芯片的存储单元获取数据,也能够从其他运算芯片的存储单元获取数据;其中N为大于等于4的正整数。

【技术特征摘要】
1.一种大数据运算加速系统,其特征在于,包括2个以上运算芯片,所述运算芯片包括N个内核core、N个数据通道(lane)和至少一个存储单元,所述数据通道(lane)包括发送接口(tx)和接收接口(rx),所述内核core和数据通道(lane)一一对应,所述内核core通过数据通道(lane)发送和接收数据;所述2个以上运算芯片通过所述发送接口(tx)和所述接收接口(rx)进行连接传输数据;所述至少一个存储单元用于分布式存储数据,运算芯片的每个内核core能够从所在运算芯片的存储单元获取数据,也能够从其他运算芯片的存储单元获取数据;其中N为大于等于4的正整数。2.根据权利要求1所述的系统,其特征在于,所述运算芯片的所述发送接口(tx)和所述接收接口(rx)为serdes接口,所述运算芯片之间通过serdes接口进行通信。3.根据权利要求1或2所述的系统,其特征在于,所述数据通道(lane)进一步包括接收地址判断单元、发送地址判断单元;接收地址判断单元一端连接于接收接口(rx),接收地址判断单元另一端连接于内核core;发送地址判断单元一端连接于发送接口(tx),发送地址判断单元另一端连接于内核core;接收地址判断单元和发送地址判断单元相互连接。4.根据权利要求3所述的系统,其特征在于,接收接口(rx)接收相邻一侧运行芯片发送的数据帧,将所述数据帧发送给接收地址判断单元,接收地址判断单元将所述数据帧发送给内核core,同时将所述数据帧发送给发送地址判断单元;发送地址判断单元接收所述数据帧,将所述数据帧发送给发送接口(tx),发送接口将所述数据帧发送给相邻另一侧运行芯片。5.根据权利要求3所述的系统,其特征在于,内核core产生数据帧,将所述数据帧发送给发送地址判断单元,发送地址判断单元将所述数据帧发送给发送接口(tx),发送接口(tx)将所述数据帧发送给相邻一侧的运行芯片。6.根据权利要求3所述的系统,其特征在于,所述接收地址判断单元和发送地址判断单元通过先进先出存储器进行相互连接。7.根据权利要求1或2所述的系统,其特征在于,所述存储单元包括多个存储器,所述多个存储器连接到至少一个存储控制单元;所述至少一个存储控制单元用于控制所述多个存储器的数据读取或者存储。8.根据权利要求7所述的系统,其特征在于,所述存储器包括至少两个存储子单元和存储控制子单元;存储控制子单元通过接口与所述至少一个存储控制单元中的每一个连接,所述存储控制子单元用于控制所述至少两个存储子单元的数据读取或者存储。9.根据权利要求8所述的系统,其特征在于,所述存储子单元为SRAM存储器。10.根据权利要求1或2所述的系统,其特征在于,所述2个以上运算芯片连接成环形。11.根据权利要求1或2所述的系统,其特征在于,所述2个以上运算芯片不连接外部存储单元。12.根据权利要求1或2所述的系统,其特征在于,所述运算芯片进一步包括第一数据接口(130)与外部主机相连,用于接收外部数据或者控制指令。13.根据权利要求12所述的系统,其特征在于,所述运算芯片将外部数据存储到所述2个以上运算芯片的至少一个存储单元。14.根据权利要求12所述的系统,其特征在于,所述第一数据接口为UART控制单元。15.根据权利要求8所述的系统,其特征在于,所述N个内核core和所述至少一个存储控制单元中的每一个相连;根据所述N个内核...

【专利技术属性】
技术研发人员:秦强
申请(专利权)人:北京比特大陆科技有限公司
类型:新型
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1