System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种全基因组关联分析算法实现系统及实现方法技术方案_技高网

一种全基因组关联分析算法实现系统及实现方法技术方案

技术编号:40630978 阅读:6 留言:0更新日期:2024-03-13 21:16
本发明专利技术公开了一种全基因组关联分析算法实现系统及实现方法,涉及基因测序技术领域。通过软硬件协同设计的方法,搭建中央处理器和现场可编程门阵列异构计算平台,针对全基因组关联分析算法两个不同的计算阶段,采用独特的设计方法进行访存与计算并行度的优化,将全基因组关联分析算法中计算密集且适配现场可编程门阵列硬件架构特性的计算任务卸载到现场可编程门阵列加速器上进行计算加速,能够增强全基因组关联分析算法计算平台的性能,满足不同全基因组关联分析算法计算需求的同时还具有较低的功耗特性,从而能够提升计算平台的算力和能效性,使其满足基因组数据分析的实际应用需求。

【技术实现步骤摘要】

本专利技术涉及基因测序,尤其涉及一种全基因组关联分析算法实现系统及实现方法


技术介绍

1、近年来,基因组测序技术朝着速度更快、成本更低、序列更长的方向发展,由于基因组测序成本的降低,大规模的人类基因检测成为可能,使得基因组测序技术得以在产前诊断、个性化医疗等技术上广泛应用。

2、全基因组关联研究(genome-wide association study,gwas)是基因大数据领域的一个重要应用,可以发现疾病与基因之间未知的关联关系。为探究此关联关系,可采用单变量分析技术对每个单核苷酸多态性(single nucleotide polymorphism,snp)进行逐一检查。然而单变量方法可能存在遗漏,因此gwas算法采用了多变量相互作用分析机制以发现更多的重要关联。但是与单变量分析技术相比,多变量相互作用分析的计算复杂度较高,即使是最简单的两两相互作用分析,其计算复杂度也是呈指数增长,更不用说三个及以上的穷尽搜索,因此,为完成gwas算法的计算任务,仅靠目前主流的cpu处理器难以胜任。

3、随着技术的不断革新,基因组数据也出现爆炸式增长。据统计,在过去的十年里,大约每七个月产生的基因数据总量便会翻一番,其数据增长速度远超过moore定律中处理器计算能力的增长速度,例如illumina novaseq 6000系统在大约两天的时间内就能以30倍基因组覆盖率对大约48个人类全基因组实现测序,而在48核英特尔处理器上分析单个人类基因组的测序数据就需近32个cpu小时,传统的计算平台和方法已经远不能满足海量基因组数据的存储、处理和分析需求。

4、为提高数据处理速度,许多研究工作采用分布式并行cpu来进行gwas算法的运算。由于cpu是通用处理器,并非针对gwas算法而设计,采用cpu来运行gwas算法效率较低,且成本较高。gpu相较于cpu具有更高的并行性,因此可大幅度提高gwas算法的计算速度。但gpu的功耗较高,大规模的使用将会导致较高的计算成本,因此限制了其在许多领域中的大规模使用。


技术实现思路

1、本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术提出一种全基因组关联分析算法实现系统及实现方法。能够提升计算平台的算力和能效性。

2、一方面,本专利技术实施例提供了一种全基因组关联分析算法实现系统,包括中央处理器和现场可编程门阵列,所述现场可编程门阵列包括块随机存储器、处理模块和筛选模块;

3、所述中央处理器用于接收全基因组关联分析指令并发送多个单核苷酸多态性数据;

4、所述现场可编程门阵列的块随机存储器用于接收并存储多个所述单核苷酸多态性数据,其中,存储于块随机存储器的单核苷酸多态性数据包括多个不同基因型的位矩阵数据,多个所述位矩阵数据存储于同一地址块中;

5、所述现场可编程门阵列的处理模块用于读出块随机存储器中的单核苷酸多态性数据,并对读出的单核苷酸多态性数据进行两两配对,得到多个单核苷酸多态性数据的联列表,其中,每一个单核苷酸多态性数据的联列表的对应的配对分析过程采用并行计算;

6、所述现场可编程门阵列的筛选模块用于根据单核苷酸多态性数据的联列表筛选出关联的单核苷酸多态性对;

7、所述中央处理器用于读取所述现场可编程门阵列输出的多个单核苷酸多态性对,整合多个所述单核苷酸多态性对得到全基因组关联分析结果,并显示所述全基因组关联分析结果。

8、根据本专利技术一些实施例,单核苷酸多态性数据还包括数据编号,所述数据编号和所述多个不同基因型的位矩阵数据通过拼接构成所述单核苷酸多态性数据,所述单核苷酸多态性数据的数据长度与所述现场可编程门阵列的块随机存储器的位宽相同。

9、根据本专利技术一些实施例,所述现场可编程门阵列的处理模块包括脉动阵列,所述脉动阵列包括多个串联的处理单元,每个所述处理单元负责计算一个单核苷酸多态性数据的所有联列表;

10、所述处理模块用于将多个单核苷酸多态性数据从第一个处理单元开始依次给所有处理单元,以使每个处理单元计算自身对应的单核苷酸多态性与当前进入的单核苷酸多态性数据组成联列表。

11、根据本专利技术一些实施例,每个所述处理单元基于当前进入的单核苷酸多态性数据完成联列表的计算后,并将所述单核苷酸多态性数据暂存一个时钟周期后再传输给下一个处理单元。

12、根据本专利技术一些实施例,所述处理模块还包括选择单元,所述选择单元用于按照脉动阵列中的处理单元串联顺序读取每个处理单元针对同一个单核苷酸多态性数据的联列表。

13、根据本专利技术一些实施例,所述处理模块还包括数据缓存器,所述数据缓存器用于依次存储所述选择单元获取的联列表,或用于依次输出存储的联列表。

14、根据本专利技术一些实施例,所述筛选模块包括四个计算模块、四个流水线寄存器和流水线控制器,一个计算模块对应一个流水线寄存器;所述流水线控制器用于从所述处理模块读取单核苷酸多态性数据的联列表,并根据计算模块的工作状态在不同流水线寄存器之间调度数据;

15、四个所述计算模块分别为边缘概率计算模块、部分和计算模块、加法树模块和综合比较模块。

16、根据本专利技术一些实施例,所述中央处理器与所述现场可编程门阵列之间通过应用编程结构实现数据交互。

17、另一方面,本专利技术实施例还提供了一种全基因组关联分析算法实现方法,应用于所述的全基因组关联分析算法实现系统的中央处理器中,所述全基因组关联分析算法实现方法包括以下步骤:

18、接收全基因组关联分析指令并发送单核苷酸多态性数据,以控制所述现场可编程门阵列运行得到关联的单核苷酸多态性对;

19、读取所述现场可编程门阵列输出的多个单核苷酸多态性对;

20、整合多个所述单核苷酸多态性对得到全基因组关联分析结果,并显示所述全基因组关联分析结果。

21、另一方面,本专利技术实施例还提供了一种全基因组关联分析算法实现方法,应用于所述的全基因组关联分析算法实现系统的现场可编程门阵列中,所述全基因组关联分析算法实现方法包括以下步骤:

22、根据来自中央处理器的全基因组关联分析指令和单核苷酸多态性数据,通过块随机存储器接收并存储多个所述单核苷酸多态性数据,其中,存储于块随机存储器的单核苷酸多态性数据包括多个不同基因型的位矩阵数据,多个所述位矩阵数据存储于同一地址块中;

23、通过处理模块读出块随机存储器中的单核苷酸多态性数据,并对读出的单核苷酸多态性数据进行两两配对,得到多个单核苷酸多态性数据的联列表,其中,每一个单核苷酸多态性数据的联列表的对应的配对分析过程采用并行计算;

24、根据单核苷酸多态性数据的联列表筛选出关联的单核苷酸多态性对;

25、向中央处理器输出单核苷酸多态性对。

26、本专利技术上述的技术方案至少具有如下优点或有益效果之一:

27、通过软硬件协同设计的方法,搭建中央处理器和现场可编程门阵列异本文档来自技高网...

【技术保护点】

1.一种全基因组关联分析算法实现系统,其特征在于,包括中央处理器和现场可编程门阵列,所述现场可编程门阵列包括块随机存储器、处理模块和筛选模块;

2.根据权利要求1所述的全基因组关联分析算法实现系统,其特征在于,单核苷酸多态性数据还包括数据编号,所述数据编号和所述多个不同基因型的位矩阵数据通过拼接构成所述单核苷酸多态性数据,所述单核苷酸多态性数据的数据长度与所述现场可编程门阵列的块随机存储器的位宽相同。

3.根据权利要求1所述的全基因组关联分析算法实现系统,其特征在于,所述现场可编程门阵列的处理模块包括脉动阵列,所述脉动阵列包括多个串联的处理单元,每个所述处理单元负责计算一个单核苷酸多态性数据的所有联列表;

4.根据权利要求3所述的全基因组关联分析算法实现系统,其特征在于,每个所述处理单元基于当前进入的单核苷酸多态性数据完成联列表的计算后,并将所述单核苷酸多态性数据暂存一个时钟周期后再传输给下一个处理单元。

5.根据权利要求3所述的全基因组关联分析算法实现系统,其特征在于,所述处理模块还包括选择单元,所述选择单元用于按照脉动阵列中的处理单元串联顺序读取每个处理单元针对同一个单核苷酸多态性数据的联列表。

6.根据权利要求5所述的全基因组关联分析算法实现系统,其特征在于,所述处理模块还包括数据缓存器,所述数据缓存器用于依次存储所述选择单元获取的联列表,或用于依次输出存储的联列表。

7.根据权利要求1所述的全基因组关联分析算法实现系统,其特征在于,所述筛选模块包括四个计算模块、四个流水线寄存器和流水线控制器,一个计算模块对应一个流水线寄存器;所述流水线控制器用于从所述处理模块读取单核苷酸多态性数据的联列表,并根据计算模块的工作状态在不同流水线寄存器之间调度数据;

8.根据权利要求1所述的全基因组关联分析算法实现系统,其特征在于,所述中央处理器与所述现场可编程门阵列之间通过应用编程结构实现数据交互。

9.一种全基因组关联分析算法实现方法,其特征在于,应用于权利要求1所述的全基因组关联分析算法实现系统的中央处理器中,所述全基因组关联分析算法实现方法包括以下步骤:

10.一种全基因组关联分析算法实现方法,其特征在于,应用于权利要求1所述的全基因组关联分析算法实现系统的现场可编程门阵列中,所述全基因组关联分析算法实现方法包括以下步骤:

...

【技术特征摘要】

1.一种全基因组关联分析算法实现系统,其特征在于,包括中央处理器和现场可编程门阵列,所述现场可编程门阵列包括块随机存储器、处理模块和筛选模块;

2.根据权利要求1所述的全基因组关联分析算法实现系统,其特征在于,单核苷酸多态性数据还包括数据编号,所述数据编号和所述多个不同基因型的位矩阵数据通过拼接构成所述单核苷酸多态性数据,所述单核苷酸多态性数据的数据长度与所述现场可编程门阵列的块随机存储器的位宽相同。

3.根据权利要求1所述的全基因组关联分析算法实现系统,其特征在于,所述现场可编程门阵列的处理模块包括脉动阵列,所述脉动阵列包括多个串联的处理单元,每个所述处理单元负责计算一个单核苷酸多态性数据的所有联列表;

4.根据权利要求3所述的全基因组关联分析算法实现系统,其特征在于,每个所述处理单元基于当前进入的单核苷酸多态性数据完成联列表的计算后,并将所述单核苷酸多态性数据暂存一个时钟周期后再传输给下一个处理单元。

5.根据权利要求3所述的全基因组关联分析算法实现系统,其特征在于,所述处理模块还包括选择单元,所述选择单元用于按照脉动阵列中的处理单元串联顺序读取每个处理单元针对同...

【专利技术属性】
技术研发人员:柳星何彩霞祝文捷张敏杰
申请(专利权)人:武汉理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1