基因比对加速装置、方法及系统制造方法及图纸

技术编号:25602577 阅读:39 留言:0更新日期:2020-09-11 23:59
本发明专利技术涉及一种基因比对并行加速装置,包括:一内存器件组,该内存器件组包括多个内存器件;该每一内存器件又包括多个区域,每一该区域包括:一存储层,用于存储基因序列以及read流数据;一逻辑层,用于对所述基因序列以及所述read流数据的缓存与处理;一内存控制器,用于控制所述存储层存储的所述基因序列以及所述read流数据的访问;以及一控制单元,用于封装底层协议,实现所述内存器件的内部通信;其中,所述逻辑层还包括一片上预取单元和一处理单元阵列,所述片上预取单元从所述存储层读取所述基因序列以及所述read流数据,供所述处理单元阵列处理。

【技术实现步骤摘要】
基因比对加速装置、方法及系统
本专利技术涉及高性能计算领域,特别涉及一种基于近内存计算的基因比对并行加速装置。
技术介绍
近年来基因测序成本的下降加速了测序数据的产出,为数据处理带来了性能上的挑战。最常见的基因比对算法——BWT的序列比对算法,需要一种高性能、低能耗的处理方式,但通过对算法和现有的计算平台分析发现,传统通用处理器平台对于比对应用来说存在“过度设计”的问题,造成较严重的资源浪费,其建立在通用性和局部性之上的结构特点不仅于比对应用无益,甚至导致其性能损失。另一方面,比对应用以频繁无规则的主存储器访问为主要特点,对主存的带宽性能有一定要求,虽然在现有平台上受限于计算资源而无法表现出来,但若为其提供高效的计算设备(如定制计算系统)时,现有“分立式”主存结构将难以为其提供充足的访存带宽。因此,探索如何深入挖掘应用内在特征,通过数据通路和并行结构定制提升计算效率,从而获得最优的性能和能耗效率,成为当务之急。现代通用处理器核心一般具有复杂的指令流水线和指令调度与控制系统,为了利用程序局部性,还会加入层次化cache系统,尽管这种核心对传统程序展现了良好的性能,但对基于BWT的序列比对应用效率却很低。首先,序列比对计算操作简单,少数简单操作即可完成,这造成通用核心的过度设计问题,浪费了片上资源;其次,序列比对频繁进行无规则主存访问,无局部性特征,使得cache系统失;更重要的,通用核心的过度设计以及cache一致性等问题限制了核心数目扩展,阻碍了比对应用大规模并行处理潜力的发挥。因此,通用处理器对序列比对的计算效率较低,且会造成资源浪费、能耗损失。
技术实现思路
为了解决上述技术问题,本专利技术目的在于提供了一种基于近内存计算结构的基因比对的并行加速装置。通过近内存计算结构的设计,将计算单元移至主存储器内,利用3D堆叠技术提供的更高且可扩展的内存带宽,并降低数据移动延迟和能耗开销。具体地说,本专利技术公开了一种基因比对并行加速装置,包括:一内存器件组,该内存器件组包括多个内存器件;该每一内存器件又包括多个区域,每一该区域包括:一存储层,用于存储基因序列以及read流数据;一逻辑层,用于对所述基因序列以及所述read流数据的缓存与处理;一内存控制器,用于控制所述存储层存储的所述基因序列以及所述read流数据的访问;以及一控制单元,用于封装底层协议,实现所述内存器件的内部通信;其中,所述逻辑层还包括一片上预取单元和一处理单元阵列,所述片上预取单元从所述存储层读取所述基因序列以及所述read流数据,供所述处理单元阵列处理。上述加速装置,其中,所述内存器件为混合存储立方体(HMC),多个该混合存储立方体(HMC)组成一混合存储立方体组,所述混合存储立方体(HMC)之间通过互联链路进行通信。上述加速装置,其中,所述控制单元为一DRAM控制器。上述加速装置,其中,所述混合存储立方体组包括16个混合存储立方体(HMC)。上述加速装置,其中,每一所述混合存储立方体(HMC)被垂直划分为32个区域,该32个区域被平均分成2个区域组。上述加速装置,其中,各该所述区域之间通过片上网络连接,并通过该片上网络的接口实现各该区域之间消息的接收和转发。上述加速装置,其中,所述2个区域组独立并行运行。上述加速装置,其中,所述区域组用于存储所述基因序列数据,所述区域组存储的所述基因序列数据被划分为16块连续区间,分别存储于该区域组的各所述区域的所述存储层。上述加速装置,其中,每一所述区域中的所述处理单元阵列包括4个处理单元。上述加速装置,其中,所述处理单元阵列中的每一所述处理单元又包括一计算子单元、一片上存储子单元以及一调度子单元,其中所述片上存储子单元包括一寄存器堆、一片上高速暂存存储器以及一FIFO存储器。上述加速装置,其中,所述各区域之间通信时,源区域向目的区域发送一处理请求后,所述目的区域的所述调度子单元为该处理请求分配一发射槽,所述目的区域的所述计算单元和所述片上存储子单元继续处理其他所述源区域发送的处理请求。上述加速装置,其中,所述片上预取单元还包括一访存单元,该访存单元位于所述处理单元阵列之前,用于为所述处理单元阵列读取数据。上述加速装置,其中,所述片上预取单元读取数据时,所述调度子单元将所述处理请求进行地址转换得到一内存地址,然后将该内存地址发送给所述片上预取单元,所述片上预取单元根据该内存地址在所述存储层获取数据,并将该数据送至所述处理单元阵列的数据缓存中。为了实现本专利技术的另一专利技术目的,本专利技术还提供一种基于近内存计算的基因比对并行加速方法,应用上述任一项所述的加速装置,包括:步骤一、获取基因序列以及read流数据,并将所述基因序列以及所述read流数据存储于所述内存器件的所述存储层;步骤二、所述片上预取单元从所述存储层预取所述基因序列以及所述read流数据,供所述处理单元阵列进行处理;其中,所述内存控制器控制所述片上预取单元对所述存储层的数据的预取,所述控制单元控制所述内存器件的内部通信。通过优化处理的并发度和带宽利用率,极大地提高算法的执行效率。为了实现本专利技术的另一专利技术目的,本专利技术还提供一种用于基因比对的数据处理系统,包括上述的加速装置。其可以充分利用并行加速装置在性能和功耗等方面的优势。为了实现本专利技术的另一专利技术目的,本专利技术还提供了一种存储介质,用于存储一种用于执行上述加速方法的计算机程序。为让本专利技术的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。附图说明图1(a)为本专利技术的近内存计算加速装置的总体结构图;图1(b)为本专利技术的混合存储立方体(HMC)的结构示意图;图1(c)为本专利技术的混合存储立方体(HMC)中区域(Vault)的逻辑层的结构示意图;图1(d)为本专利技术的混合存储立方体(HMC)中区域(Vault)的逻辑层的结构方块图;图2为本专利技术的混合存储立方体(HMC)内存器件组内各区域互连结构图;图3(a)为现有技术中处理单元的计算与访存紧耦合的结构图;图3(b)为本专利技术的处理单元PE的计算与访存解耦合的结构图。具体实施方式请参考图1(a)至图1(d),图1a)至图1(d)所示为本专利技术的近内存计算加速装置的总体结构图。其中,如图1(a)所示,近内存计算加速装置基于内存器件混合存储立方体(HMC),由16个HMC“立方”构成,提供了128GB的内存容量,这些HMC可以通过互联链路进行通信,但得益于BWT的基因比对应用场景中read间的独立并发性,这些HMC单独存储基因组参考序列以及read流数据。如图1(b)所示,每个HMC内存器件被垂直的分为32个区域(称为Vault),这些Vault被片上网络连接起来。每个HMC的32个Vault划分为2组,每组16个Vault,每组的Vault上都可以存储一份参考序列数据,而不同的组可以独立并行执行。...

【技术保护点】
1.一种基因比对并行加速装置,其特征在于,包括:/n一内存器件组,该内存器件组包括多个内存器件;该每一内存器件又包括多个区域,每一该区域包括:/n一存储层,用于存储基因序列以及read流数据;/n一逻辑层,用于对所述基因序列以及所述read流数据的缓存与处理;/n一内存控制器,用于控制所述存储层存储的所述基因序列以及所述read流数据的访问;以及/n一控制单元,用于封装底层协议,实现所述内存器件的内部通信;/n其中,所述逻辑层还包括一片上预取单元和一处理单元阵列,所述片上预取单元从所述存储层读取所述基因序列以及所述read流数据,供所述处理单元阵列处理。/n

【技术特征摘要】
20190524 CN 20191044103321.一种基因比对并行加速装置,其特征在于,包括:
一内存器件组,该内存器件组包括多个内存器件;该每一内存器件又包括多个区域,每一该区域包括:
一存储层,用于存储基因序列以及read流数据;
一逻辑层,用于对所述基因序列以及所述read流数据的缓存与处理;
一内存控制器,用于控制所述存储层存储的所述基因序列以及所述read流数据的访问;以及
一控制单元,用于封装底层协议,实现所述内存器件的内部通信;
其中,所述逻辑层还包括一片上预取单元和一处理单元阵列,所述片上预取单元从所述存储层读取所述基因序列以及所述read流数据,供所述处理单元阵列处理。


2.根据权利要求1所述的加速装置,其特征在于,所述内存器件为一混合存储立方体(HMC),多个该混合存储立方体(HMC)组成一混合存储立方体组,所述混合存储立方体(HMC)之间通过互联链路进行通信。


3.根据权利要求2所述的加速装置,其特征在于,所述控制单元为一DRAM控制器。


4.根据权利要求2所述的加速装置,其特征在于,所述混合存储立方体组包括16个混合存储立方体(HMC)。


5.根据权利要求4所述的加速装置,其特征在于,每一所述混合存储立方体(HMC)被垂直划分为32个区域,该32个区域被平均分成2个区域组。


6.根据权利要求5所述的加速装置,其特征在于,各该所述区域之间通过片上网络连接,并通过该片上网络的接口实现各该区域之间消息的接收和转发。


7.根据权利要求5所述的加速装置,其特征在于,所述2个区域组独立并行运行。


8.根据权利要求7所述的加速装置,其特征在于,所述区域组用于存储所述基因序列数据,所述区域组存储的所述基因序列数据被划分为16块连续区间,分别存储于该区域组的各所述区域的所述存储层。

<...

【专利技术属性】
技术研发人员:谭光明王元戎张中海
申请(专利权)人:北京哲源科技有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1