一种基于超长基因组的变异检测方法及检测系统技术方案

技术编号:13175710 阅读:126 留言:0更新日期:2016-05-10 19:09
本发明专利技术涉及一种基于超长基因组的变异检测算法,简称VariationBlast算法,在得到长序列的情况下,大尺度结构变异通常可以通过序列与参考基因组进行比对来检测到,因为跨越结构变异的序列会产生比对上参考序列的部分片段,然后通过序列部分片段与相对应的参考序列片段之间的比较,结构变异的精确点位可以被检测到,VariationBlast是通过逐次对比对方法来检测每一个序列与参考基因组序列之间的比对,然后把所有代表结构变异的序列进行分类与筛选最后从比对的位点与方向得到可能的结构变异以及它们各自的类型。

【技术实现步骤摘要】

本专利技术涉及基因序列结构变异检测,具体涉及到一种基于超长基因组的变异检测算法及检测系统。
技术介绍
上世纪九十年代启动的人类基因组计划(HGP),加上随之而来的千人基因组计划,DNA元件百科全书计划(EN⑶DE)等的实施加快了基因组时代的发展。第二代、三代DNA促使许多物种的基因组测序计划得以成功完成,从而积累了大量的生物数据。这些生物大数据必须通过适当的分析手段才能挖掘出具有潜在理论价值和应用价值的信息。基因组序列多态性,是指物种群体内及群体间DNA序列和结构的差异。人类的这些基因组差异决定了不同种族、群体和个体间基因组的差异或多态性。基因组多样性包括单核苷酸多态性(Singlenucleotide polymorphism, SNP)、小片断插入和缺失(small indel);基因组结构变异通常指DNA序列长度大于lkb的基因组差异,包括DNA片段插入(insert1n)与缺失(delet1n)、移位(transposit1n)、倒位(invers1n)以及DNA拷贝数目变化(Copynumber variat1ns,CNVs)等。结构变异由于覆盖的核苷酸总数远超过SNP的总数,因此对个体表型的影响可能更大。科学家们开发了很多用于预测基因组结构变异的软件,而且这些软件已被广泛应用到人类基因组多态性研究中。但是已开发的绝大多数软件只能有效地预测基因组单核苷酸多态性,小片段结构变异,以及结构变异中某种或某几种类型。这些软件对某些大尺度的结构变异(例如,长片段插入、缺失序列等)不能很好的挖掘,以至不同软件预测结果之间的差异很大。常用的变异检测软件,例如Pinde 1、Breakdancer、CNVnator等都无法检测大型的基因组变异,少部分算法可以检测到基因组大型缺失,但是几乎所有的算法流程都无法鉴定出大型插入、移位、倒置等大型的基因组结构变异。本专利技术中开发的Variat1nBlast算法,有效地将具有高灵敏度的比对算法和图形理论相结合,实现了碱基水平检测基因组变异,变异检测范围可以从最小的单核苷酸改变到大型复杂的基因组结构变异。
技术实现思路
本专利技术提供一种基于超长基因组的变异检测算法,简称Variat1nBlast算法,解决了现有算法不能准确检测大型超长基因组的结构变异的问题。本专利技术解决上述技术问题的技术方案如下:—种基于超长基因组的变异检测算法,包括以下步骤:S1、采用局部序列比对算法,检测出测序片段和参考序列间存在的所有匹配,得到局部匹配事件,每一个局部匹配事件均包括测序片段和参考序列上的参考片段;S2、将所有局部匹配事件中的测序片段按照比对至参考序列的位置进行排序,将测序片段比对至参考序列上的位置重叠或顺次相连的局部匹配事件分到一个组,有多少能够相连或重叠的测序片段,就有多少个组;S3、对每一个组内的局部匹配事件按照不同的排序方式进行评分,建立一个用来表示每一个组内的所有局部匹配事件之间不同的排序方式的图形模型,根据评分情况确定每一组内的局部匹配事件的最佳排序方式;S4、按照最佳排序方式将每一个组内的局部匹配事件中的测序片段进行串联,一个组得到一个测序序列read; S5、将每一组的测序序列read和参考序列进彳丁对比,在测序序列;read上和参考序列不匹配的区域添加gap区域在参考序列上和测序序列read不匹配的区域添加gap区域,gap区域即空白区域,用于使测序序列read和参考序列的匹配区域位置完全对应,便于确认变异的类型;S6、对添加了gap区域后的最终测序序列进行结构变异检测。本专利技术的有益效果是:能够充分利用由不断提高(例如测序长度不断增加)的第二代以及第三代DNA测序技术所带来的可能性,利用测序结果检测各种尺度的结构变异,包括其它软件所不能够预测的大尺度插入以及所有现有软件都忽略的复合变异。本专利技术的Variat1nBlast将大大提高基因组变异和结构变异预测的灵敏度、效率和准确度,可以有效地应用于来自不同物种、不同复杂度的基因组序列,从而为各个领域的科学研究和应用提供强急需的强有力的支撑。在上述技术方案的基础上,本专利技术还可以做如下改进。进一步的,述步骤S1里采用的局部序列比对算法,为BLASTn、MegaBlast、BLASTz、(31'088_111&1:(311、131^\1'和《01131&81:算法中的一种。进一步的,所述步骤S2中需要同时考虑了测序片段两条链上的情况,来建立局部匹配事件之间的关系模型。采用上述进一步方案的有益效果是:本专利技术可检测出倒置等结构变异。进一步的,所述步骤S4中的具体实现为:S4.1、根据打分情况确定每一组内的局部匹配事件的最佳排序方式后,将每一组内的局部匹配事件按照最佳排序方式进行排序,并将所有局部匹配事件中的测序片段串联成一个基础测序序列;S4.2、对基础测序序列中的相邻的测序片段的重叠部分进行剔除,得到测序序列reado进一步的,所述步骤S4.2中,对基础测序序列中的相邻的测序片段的重叠部分进行剔除的方法是,若相邻两个测序片段之间存在重叠部分,分别将两个测序片段的重叠部分和对应的参考片段进行对比,选取匹配度更高的一个重叠部分进行保留,并把另一个重置部分剔除。进一步的,步骤S4.2中对基础测序序列中的相邻的测序片段的重叠部分进行剔除后,还包括将基础测序序列和参考序列进行对比,若存在缺失片段,检测剩余未归入组内的测序片段与缺失片段的匹配度,选取匹配度最高的测序片段放入相应的基础测序序列内,再得到每一组的测序序列read的步骤。采用上述进一步方案的有益效果是:本专利技术可检测出转座结构变异。进一步的,步骤S3中,将符合线性连接关系的局部匹配事件分到一个组时,每一个组内的局部匹配事件的重叠度不大于阈值t。进一步的,所述步骤S3的具体实现为:S3.1、将每个组内的局部匹配事件中的测序片段按照比对至参考序列的位置进行排序,所有的局部匹配事件按照位置从前到后依次排列;S3.2、按照所有的局部匹配事件均可以与位置排在其后的局部匹配事件连接的条件,按照所有的可能性建立排序方式,构建有向非循环图形模型;S3.3、设图形模型中,在前局部匹配事件和在后局部匹配事件之间的关系为边e,则每个边e的减分Length(e) =P(e)-R(e),一个边e的减分越少,则评分越高;其中,P(e)代表边e的减分、R(e)代表边e的得分;R(e)=PID*len,PID在后的局部匹配事件的匹配质量,len是在后局部匹配事件的长度; P(e)=a*P_skip(e)+P*(P_ext(e)+P_sep(e));α和β为权重系数,可根据所分析的物种设定不同的值;跳过中间节点的边的减分P_skip(e) =min(PIDi*lem),其中i为所有被跳过的局部对比序列的序号,边e有线性连接和非线性连接两种情况,若两个局部匹配事件中测序片段比对至参考序列的位置相邻则属于线性连接,不相邻则属于非线性连接,P_ext(e)表示边e是线性连接时,测序片段和参考序列无法比对的区域,P_ext(e)=PID1-j* 1 em-j,i和j代表没有比上参考序列的起始和终止位点;P_seP(e)表示边e是非线性连接时,测序片段和参考序列无法比对的区域,P_sep(e) 本文档来自技高网
...

【技术保护点】
一种基于超长基因组的变异检测算法,其特征在于,包括以下步骤:S1、采用局部序列比对算法,检测出测序片段和参考序列间存在的所有匹配,得到局部匹配事件,每一个局部匹配事件均包括测序片段和参考序列上的参考片段;S2、将所有局部匹配事件中的测序片段按照比对至参考序列的位置进行排序,将测序片段比对至参考序列上的位置重叠或顺次相连的局部匹配事件分到一个组;S3、对每一个组内的局部匹配事件按照不同的排序方式进行评分,建立一个用来表示每一个组内的所有局部匹配事件之间不同的排序方式的图形模型,根据评分情况确定每一组内的局部匹配事件的最佳排序方式;S4、按照最佳排序方式将每一个组内的局部匹配事件中的测序片段进行串联,一个组得到一个测序序列read;S5、将每一组的测序序列read和参考序列进行对比,在测序序列read上和参考序列不匹配的区域添加gap区域,在参考序列上和测序序列read不匹配的区域添加gap区域,用于使测序序列read和参考序列的匹配区域的位置完全对应;S6、对添加了gap区域后的最终测序序列进行结构变异检测。

【技术特征摘要】

【专利技术属性】
技术研发人员:朱世杰
申请(专利权)人:武汉菲沙基因信息有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1