System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基因变异检测方法及系统技术方案_技高网

基因变异检测方法及系统技术方案

技术编号:41336451 阅读:7 留言:0更新日期:2024-05-20 09:55
本发明专利技术公开了一种基因变异检测方法及系统,该方法包括:根据参考序列和测序DNA序列的对比结果确定变异活跃区域;利用每个变异活跃区域包含的短读序列构建德布莱英图,对德布莱英图中节点记录包含该节点对应序列的短读序列;对于每一变异活跃区域,通过对德布莱英图进行遍历得到多个候选单倍型序列,基于德布莱英图中的节点对应序列的短读序列,得到多个匹配对;根据多个匹配对,将成对隐马尔可夫模型的前向算法计算任务分为多个独立的子任务;并行计算多个子任务,获得每个子任务计算的相似程度;对多个子任务计算的相似程度进行综合分析,得到每个匹配对的相似程度;基于相似程度,确定最有可能的变异类型。本发明专利技术可以提高基因变异检测效率。

【技术实现步骤摘要】

本专利技术涉及生物信息学,尤其涉及一种基因变异检测方法及系统


技术介绍

1、本部分旨在为权利要求书中陈述的本专利技术实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

2、变异检测是生物信息学中的重要任务,其通过将测序得到的给定个体的dna序列与参考dna序列进行对比得到该给定个体的基因变异信息。变异检测可以推动对基因组学的理解,并能够为未来精准医疗的发展铺平道路。但是分析大规模基因组数据需要耗费大量时间和计算资源。在传统的cpu平台上对单个人类个体进行基因变异检测要花费7.5天,远远小于基因测序产生dna序列的速度。随着测序技术的发展,特别是当具有高通量特性的ngs技术出现后,产生的dna数据量不断增加,进一步拉大了数据产生和数据处理速度之间的差距。因此加速变异检测的分析过程变得至关重要。

3、目前进行变异检测的流程需要用到局部组装和成对隐马尔可夫模型(pairhmm),局部组装占据了变异检测总时间的13%,成对隐马尔可夫模型计算占据了变异检测总时间的70%。因此,提升局部组装和成对隐马尔可夫模型计算的速度成为了加速变异检测的核心。

4、现有的对变异检测进行加速的工作主要分为以下两类:

5、(1)基于脉动阵列的成对隐马尔可夫模型加速方法

6、成对隐马尔可夫模型前向算法定义了三个大小相同的待计算矩阵m,i,d。矩阵中的每个单元的计算都依赖其左上,左边和上方三个相邻单元的计算结果。但是同一个对角线上的不同单元之间没有数据依赖关系。目前常见的加速方法往往基于一维脉动阵列,其包含若干个相连的pe。在成对隐马尔可夫模型前向算法计算过程中,脉动阵列利用对角线上的不同单元之间没有数据依赖这一特性,分配pe对同一个对角线上的不同单元同时进行计算。当前对角线计算完成后,脉动阵列会在下个周期对矩阵中下一条对角线上的单元进行计算,直至矩阵中所有单元计算完毕。该方法能够提升计算并行性,从而达到加速的效果。但是该方法所带来的加速效果往往是有限的。一方面,使用脉动阵列按对角线处理会在计算过程中引起pe的等待和空闲,降低了硬件利用率;另一方面,该类方法没有减少总的计算量,导致目前所实现的加速性能已经接近这类方法的极限。

7、(2)基于成对隐马尔可夫模型剪枝的加速方法

8、成对隐马尔可夫模型前向算法的计算结果是该短读和单倍型的所有比对情况的可能性之和。事实上,其中一些比对情况出现的可能性很小,对最终结果的贡献近似为0。因此这些比对情况的可能性计算可以忽略,从而可以减少成对隐马尔可夫模型前向算法总的计算量,达到加速的目的。其中带状成对隐马尔可夫模型(banded-pairhmm)将所需计算的单元限制在矩阵中间的带状区域内,认为超出该带状区域的比对情况出现的概率是极低的,从而舍弃这部分单元的计算。但是该方法中带状区域的宽度的选择会影响加速效果和变异检测精度。而不同的短读-单倍型对具有不同的长度特征,这使得同时兼顾加速性能和精度的宽度选择较为困难。剪枝成对隐马尔可夫模型(pruning-based pairhmm)先使用定点数运算对比对情况进行扫描,根据扫描结果回溯出对最终结果贡献较大的若干种比对情况,并再次使用pairhmm对这些对比情况对应的单元进行计算。该方法忽略了局部组装中蕴含的短读-单倍型对的比对信息,引入了额外的计算,降低了剪枝带来的性能提升。

9、综上,目前需要一种加速基因变异检测的有效方案。


技术实现思路

1、本专利技术实施例提供一种基因变异检测方法,可通过提升局部组装和成对隐马尔可夫模型计算的速度加速基因变异检测,该方法包括:

2、根据参考序列和测序dna序列的对比结果确定变异活跃区域;

3、利用每个变异活跃区域包含的短读序列构建德布莱英图,同时对德布莱英图中每一节点记录包含该节点对应序列的短读序列;

4、对于每一个变异活跃区域,通过对德布莱英图进行遍历得到多个候选单倍型序列,并基于德布莱英图中的节点对应序列的短读序列,得到多个匹配对,每个匹配对包括一个候选单倍型序列和一个短读序列的匹配信息;

5、根据多个匹配对,将成对隐马尔可夫模型的前向算法计算任务分为多个独立的子任务;

6、并行计算多个子任务,获得每个子任务计算的相似程度;

7、对多个子任务计算的相似程度进行综合分析,得到每个匹配对的相似程度,相似程度代表了每个短读序列对对应的单倍型序列所蕴含的变异类型的支持程度;

8、基于相似程度,确定最有可能的变异类型。

9、本专利技术实施例还提供一种基因变异检测系统,可通过提升局部组装和成对隐马尔可夫模型计算的速度加速基因变异检测,该系统包括:

10、变异活跃区域确定模块,用于根据参考序列和测序dna序列的对比结果确定变异活跃区域;

11、局部组装加速器,用于利用每个变异活跃区域包含的短读序列构建德布莱英图,同时对德布莱英图中每一节点记录包含该节点对应序列的短读序列;对于每一个变异活跃区域,通过对德布莱英图进行遍历得到多个候选单倍型序列,并基于德布莱英图中的节点对应序列的短读序列,得到多个匹配对,每个匹配对包括一个候选单倍型序列和一个短读序列的匹配信息;根据多个匹配对,将成对隐马尔可夫模型的前向算法计算任务分为多个独立的子任务;

12、成对隐马尔可夫模型加速器,用于并行计算多个子任务,获得每个子任务计算的相似程度;对多个子任务计算的相似程度进行综合分析,得到每个匹配对的相似程度,相似程度代表了每个短读序列对对应的单倍型序列所蕴含的变异类型的支持程度;

13、变异类型确定模块,用于基于相似程度,确定最有可能的变异类型。

14、本专利技术实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基因变异检测方法。

15、本专利技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基因变异检测方法。

16、本专利技术实施例中,根据参考序列和测序dna序列的对比结果确定变异活跃区域;利用每个变异活跃区域包含的短读序列构建德布莱英图,同时对德布莱英图中每一节点记录包含该节点对应序列的短读序列;对于每一个变异活跃区域,通过对德布莱英图进行遍历得到多个候选单倍型序列,并基于德布莱英图中的节点对应序列的短读序列,得到多个匹配对,每个匹配对包括一个候选单倍型序列和一个短读序列的匹配信息;根据多个匹配对,将成对隐马尔可夫模型的前向算法计算任务分为多个独立的子任务;并行计算多个子任务,获得每个子任务计算的相似程度;对多个子任务计算的相似程度进行综合分析,得到每个匹配对的相似程度,相似程度代表了每个短读序列对对应的单倍型序列所蕴含的变异类型的支持程度;基于相似程度,确定最有可能的变异类型。区别与已有的剪枝方法,本专利技术实施例提出的方法没有引入额外的计算过程,本文档来自技高网...

【技术保护点】

1.一种基因变异检测方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,对德布莱英图中每一节点记录包含该节点对应序列的短读序列,包括:

3.如权利要求1所述的方法,其特征在于,对于每一个变异活跃区域,通过对德布莱英图进行遍历得到多个候选单倍型序列,并基于德布莱英图中的节点对应序列的短读序列,得到多个匹配对,包括:

4.如权利要求1所述的方法,其特征在于,根据多个匹配对,将成对隐马尔可夫模型的前向算法计算任务分为多个独立的子任务,包括:

5.如权利要求4所述的方法,其特征在于,并行计算多个子任务,获得每个子任务计算的相似程度,包括:

6.如权利要求5所述的方法,其特征在于,根据非匹配子序列对中的短读子序列与单倍型子序列的长度差,进行成对隐马尔可夫模型的前向算法计算,获得每个子任务计算的相似程度,包括:

7.如权利要求4所述的方法,其特征在于,对多个子任务计算的相似程度进行综合分析,得到每个匹配对的相似程度,包括:

8.一种基因变异检测系统,其特征在于,包括:

9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一所述方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至7任一所述方法。

...

【技术特征摘要】

1.一种基因变异检测方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,对德布莱英图中每一节点记录包含该节点对应序列的短读序列,包括:

3.如权利要求1所述的方法,其特征在于,对于每一个变异活跃区域,通过对德布莱英图进行遍历得到多个候选单倍型序列,并基于德布莱英图中的节点对应序列的短读序列,得到多个匹配对,包括:

4.如权利要求1所述的方法,其特征在于,根据多个匹配对,将成对隐马尔可夫模型的前向算法计算任务分为多个独立的子任务,包括:

5.如权利要求4所述的方法,其特征在于,并行计算多个子任务,获得每个子任务计算的相似程度,包括:

6.如权利要求5所述的方法,其特征在...

【专利技术属性】
技术研发人员:郭孟豪陈龙龙朱建峰魏少军
申请(专利权)人:北京超弦存储器研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1