一种构建超长连续DNA序列的基因组组装方法技术

技术编号:19357367 阅读:82 留言:0更新日期:2018-11-07 20:12
本发明专利技术公开了一种构建超长连续DNA序列的基因组组装方法,S1,找出每对已知DNA序列之间的重叠区域;S2,从任一个锚定序列片段的一个自由末端开始,用跟其有重叠的Read序列对其进行延伸,循环多次,直至遇到能够比对到另一不同的锚定序列片段末端的Read序列,获得一条或多条通路序列;S3,从所有的通路序列中选择最多一条作为连接起始锚定序列片段末端到另一个终点锚定序列片段末端的有效连接序列;S4,利用该有效连接序列连接起始和相应的终点锚定序列片段;连接后作为新的锚定序列片段或记录剩余的锚定序列片段的自由末端,转到S2;重复步骤S2‑S4,最终形成超长连续的DNA序列。本发明专利技术更有利于复原整条染色体及整个基因组的序列。

A genomic assembly method for constructing super long continuous DNA sequences

The invention discloses a genome assembly method for constructing super-long continuous DNA sequences, S1, to find out the overlapping regions between each pair of known DNA sequences; S2, starting from a free end of any anchored sequence fragment, extends it with overlapping Read sequences, circulates many times until it meets the possibility of alignment to another. The Read sequence at the end of different anchoring sequence fragments obtains one or more pathway sequences; S3 selects at most one of all pathway sequences as an effective connection sequence from the end of the initial anchoring sequence fragment to the end of the anchoring sequence fragment at the other end; S4 uses this effective connection sequence to connect the start and the corresponding. Endpoint anchoring sequence fragments; connect as the free end of new anchoring sequence fragments or record the remaining anchoring sequence fragments, and transfer to S2; repeat 2 The invention is more conducive to restoring whole chromosome and whole genome sequence.

【技术实现步骤摘要】
一种构建超长连续DNA序列的基因组组装方法
本专利技术涉及一种构建超长连续DNA序列的基因组组装方法,属于基因组组装

技术介绍
测序仪通过对基因组片段的测序产生了随机的读出序列(Read,读序)。这些Read在基因组上的分布是随机的。基因组组装的过程就是把这些Read按照正确的顺序排列和连接,组装成碱基连续的DNA片段(Contig),最终复原整条染色体及整个基因组的序列。这个组装的过程一般包括三步:连续片段(Contig)的组装,有缺口的非连续片段(Scaffold)的组装,缺口的补齐(GF)。基因组组装的困难来源于基因组存在的大量重复序列(即序列相似或一样的两个/段或多个/段序列)。重复序列在基因组中可分为两个大类:串联重复序列和散布重复序列。串联重复是一组头尾直接相连的非常相似的重复单位组成的序列,通过局部重复产生。典型的串联重复序列包括rDNA、着丝粒重复序列等。散布重复序列是分布于基因组中不同位置的非局部重复序列。在有些重复序列中,串联重复和非串联重复序列都有,这些区域很长,形成复杂重复序列。测序产生的来源于不同重复序列拷贝的Read具有序列上的相似性。目前单分子测序Read的长度N50一般大于10-15kb,最长达到了100kb以上。若是一个重复序列加上其两端的单考贝序列一起被一条Read全部覆盖,则这个区域不存在组装的问题。而当前需要解决的是超出了Read平均或N50长度的重复序列的组装问题。对于长单分子测序数据现在最常用的基因组组装方法采用了基于Overlap-Layout-Consensus(OLC)(Myersetal.2000,Science287,2196–2204)或StringGraph(SG)(Myers2005,Bioinformatics21Suppl2,ii79-85)的策略。OLC方法也可以简洁地用SG来描述,统称为SG类方法。现有的SG类方法常用软件包括PBcR(Berlinetal.2015,Nat.Biotechnol.33,623–30)、CANU(Korenetal.2017,GenomeRes.27,722–736)、FALCON(Chinetal.2016,Nat.Methods13,1050–1054)、MECAT(Xiaoetal.2017,Nat.Methods.doi:10.1038/nmeth.4432)等。SG方法中的关键是利用可传递性简化路径(Transitivereduction,TU)的方法来去除多余的Read(所有的序列特别相似的Read被压缩成一条)。即在构建所有Read的重叠图后,利用TU将很多节点的进出边数简化到一条。这样在很多路径上就会没有分支。若是一个Read节点在简化后图中的重叠边度数大于1,则称之为交叉节点,其他的节点为内部节点。没有交叉节点的一个通路就可以形成一条Contig,在SG中可被进一步压缩到一起。交叉节点代表了单考贝序列区域和重复序列区域的连接之处(这个节点上的Read包括了两种类型序列的各一部分);测序仪在测出Read序列的时候会犯错误,导致其测出带有测序错误的Read序列,这些序列错误包括碱基的插入、缺失、变异,或是来源于不同位置的序列的嵌合体,这些错误也可能导致额外的交叉节点序列。由于测序错误的存在,导致没有一个统一的标准来区分Read序列之间的差异到底是由测序错误引起,还是来源于重复序列的不同拷贝而引起的。在这个路径简化的过程中,单考贝区域被简化成一长串Read形成的单一路径,连接到一起形成单考贝序列Contig;而一段重复序列也可以被压缩成一串Read形成的单一路径,形成重复序列Contig。由于序列比较时要允许错误,导致来源于不同重复序列拷贝的Read会被压缩到一起,也导致不同拷贝的重复序列变成一个,因而不能区分开。但是由于交叉节点的存在,形成的重复序列Contig在被压缩的起点和终点位置断开,导致组装出的Contig的碎片化,进而导致无法真正复原整个原始基因组序列。
技术实现思路
本专利技术的目的在于,提供一种构建超长连续DNA序列的基因组组装方法,它可以有效解决现有技术中存在的问题,尤其是现有技术中将相似的多段重复序列压缩成一串Read形成的单一路径;由于来源于不同重复序列拷贝的Read会被压缩到一起,导致不同拷贝的重复序列变成一个,因而不能区分开;而且由于交叉节点的存在,形成的重复序列Contig在被压缩的起点和终点位置断开,导致组装出的Contig的碎片化的问题。为解决上述技术问题,本专利技术采用如下的技术方案:一种构建超长连续DNA序列的基因组组装方法,包括以下步骤:S1,将所有的已知DNA序列进行两两比较,找出每对序列之间相似的重叠区域;其中,所述的已知DNA序列包括锚定序列片段(即用于锚定的序列片段,可包括多种类型,比如从DNA序列上截取的某一段或几段特定的序列片段,和/或已经组装好的某一段或几段特定的序列片段,和/或从随机测序Read序列中选出的某一个或几个特定的Read序列等)和随机测序Read序列;所述的锚定序列片段至少包括两个;所述的将所有的已知DNA序列进行两两比较,包括将所有的锚定序列片段与所有的随机测序Read序列进行两两比较,以及将所有的随机测序Read序列进行两两比较;S2,从任意一个锚定序列片段的一个自由末端(如Es)开始,用跟其有重叠的随机测序Read序列对该锚定序列片段进行延伸,形成一到多个延长的序列;再对这些延长的序列采用同样的方法利用随机测序Read序列继续进行延伸,每个序列的延伸循环多次,直至遇到能够比对到另一个不同的锚定序列片段末端的随机测序Read序列,则从起始锚定序列片段一端开始的延伸结束,获得连接起始锚定序列片段的一端到另一个或多个不同的终点锚定序列片段末端的一个或多个通路序列,所述的一个或多个通路序列形成序列集合A(即序列集合A中的通路序列连接了起始锚定序列片段末端Es到其它一或多个不同的终点锚定序列片段末端Ee1,…,Eek);S3,根据所述的序列集合A中的通路序列,选择最多一条序列作为连接起始锚定序列片段末端(如Es)到另一个终点锚定序列片段末端的有效连接序列(从一个起始锚定序列片段末端开始可以不存在有效连接序列);S4,利用所述的有效连接序列连接起始锚定序列片段(如末端Es)和相应的终点锚定序列片段;将连接后的序列片段作为新的锚定序列片段或记录剩余的锚定序列片段的自由末端,转到S2;不断重复步骤S2-S4,从而最终形成超长连续的DNA序列。本专利技术中,任意两个锚定序列片段都不完全相同,从而可以尽量避免冲突末端的出现。一个序列有两个末端,每个末端可定义为一段特定长度(比如1-50kb)的序列,那么所述末端对应的一段特定长度(比如1-50kb)的序列即为末端序列。实际操作中,可通过序列比对的方式去除相似的末端序列(比如一致性>98%),序列缩短后产生新的可用的末端。优选的,步骤S2中,在选择候选延伸序列之前,还包括:设定一个全局序列相似性最低阈值SImin;对任一序列X来说,首先判断跟其重叠的序列在重叠区域的序列相似性值是否大于等于所述最低阈值SImin,如果是,则选用这些重叠序列来延伸序列X,否则放弃选用这些重叠序列本文档来自技高网
...

【技术保护点】
1.一种构建超长连续DNA序列的基因组组装方法,其特征在于,包括以下步骤:S1,将所有的已知DNA序列进行两两比较,找出每对序列之间相似的重叠区域;其中,所述的已知DNA序列包括锚定序列片段和随机测序Read序列;所述的锚定序列片段至少包括两个;所述的将所有的已知DNA序列进行两两比较,包括将所有的锚定序列片段与所有的随机测序Read序列进行两两比较,以及将所有的随机测序Read序列进行两两比较;S2,从任意一个锚定序列片段的一个自由末端开始,用跟其有重叠的随机测序Read序列对该锚定序列片段进行延伸,形成一到多个延长的序列;再对这些延长的序列采用同样的方法利用随机测序Read序列继续进行延伸,每个序列的延伸循环多次,直至遇到能够比对到另一个不同的锚定序列片段末端的随机测序Read序列,则从起始锚定序列片段一端开始的延伸结束,获得连接起始锚定序列片段的一端到另一个或多个不同的终点锚定序列片段末端的一个或多个通路序列,所述的一个或多个通路序列形成序列集合A;S3,根据所述的序列集合A中的通路序列,选择最多一条序列作为连接起始锚定序列片段末端到另一个终点锚定序列片段末端的有效连接序列;S4,利用所述的有效连接序列连接起始锚定序列片段和相应的终点锚定序列片段;将连接后的序列片段作为新的锚定序列片段或记录剩余的锚定序列片段的自由末端,转到S2;不断重复步骤S2‑S4,从而最终形成超长连续的DNA序列。...

【技术特征摘要】
1.一种构建超长连续DNA序列的基因组组装方法,其特征在于,包括以下步骤:S1,将所有的已知DNA序列进行两两比较,找出每对序列之间相似的重叠区域;其中,所述的已知DNA序列包括锚定序列片段和随机测序Read序列;所述的锚定序列片段至少包括两个;所述的将所有的已知DNA序列进行两两比较,包括将所有的锚定序列片段与所有的随机测序Read序列进行两两比较,以及将所有的随机测序Read序列进行两两比较;S2,从任意一个锚定序列片段的一个自由末端开始,用跟其有重叠的随机测序Read序列对该锚定序列片段进行延伸,形成一到多个延长的序列;再对这些延长的序列采用同样的方法利用随机测序Read序列继续进行延伸,每个序列的延伸循环多次,直至遇到能够比对到另一个不同的锚定序列片段末端的随机测序Read序列,则从起始锚定序列片段一端开始的延伸结束,获得连接起始锚定序列片段的一端到另一个或多个不同的终点锚定序列片段末端的一个或多个通路序列,所述的一个或多个通路序列形成序列集合A;S3,根据所述的序列集合A中的通路序列,选择最多一条序列作为连接起始锚定序列片段末端到另一个终点锚定序列片段末端的有效连接序列;S4,利用所述的有效连接序列连接起始锚定序列片段和相应的终点锚定序列片段;将连接后的序列片段作为新的锚定序列片段或记录剩余的锚定序列片段的自由末端,转到S2;不断重复步骤S2-S4,从而最终形成超长连续的DNA序列。2.根据权利要求1所述的构建超长连续DNA序列的基因组组装方法,其特征在于,步骤S2中,在选择候选延伸序列之前,还包括:设定一个全局序列相似性最低阈值SImin;对任一序列X来说,首先判断跟其重叠的序列在重叠区域的序列相似性值是否大于等于所述最低阈值SImin,如果是,则选用这些重叠序列来延伸序列X,否则放弃选用这些重叠序列来延伸序列X。3.根据权利要求2所述的构建超长连续DNA序列的基因组组装方法,其特征在于,所述的全局序列相似性最低阈值SImin参考全基因组水平上的测序Read序列准确率值α进行设定,其中,所述的全基因组水平上的测序Read序列准确率值α通过以下方式计算获得:取已知的每条序列的具有最高重叠分数的重叠序列,最多取平均测序深度的条数;计算所有重叠区域的平均序列一致性值,作为全基因组水平上的测序Read序列准确率值α。4.根据权利要求1所述的构建超长连续DNA序列的基因组组装方法,其特征在于,步骤S2中,对序列末端进行延伸时,每一步都选择重叠分数最高的序列;或者延伸分数最高的序列;或者随机选择一个序列;或者为上述任意两种或上述三种方式的结合;其中,随机选择序列时,任意一个序列被选中的概率根据其重叠分数或延伸分数确定。5.根据权利要求3或4所述的构建超长连续DNA序列的基因组组装方法,其特征在于,对于末端重叠的两条序列X1和X2,其重叠区域的重叠分数OS为:OS=(OL1+OL2)*SI/2;其中,OL1,OL2分别为序列X1和X2中其重叠区域的长度,SI为序列X1和X2之间的重叠区域的序列一致性值;X2对X1的延伸分数ES2为:ES2=OS+EL2/2-(OH1+OH2)/2,其中OH1,OH2分别是两条序列末端错配悬空区域的长度,EL2是X2对X1的延伸长度。6.根据权利要求1所述的构建超长连续DNA序列的基因组组装方法,其特征在于,步骤S3包括:S31,将所述的序列集合A按照终点锚定序列片段的不同,划分为一或多个通路序列子集合A1,A2,…,Ak,每个子集合中包括一条或多条通路序列;S32,根据每个通路序列子集合Ai中的通路序列获得一条序列作为这个子集合的代表性序列并计算这个子集合的有效通路序列数目,其中,1≤i≤k;S33,在所有的通路序列子集合的代表性序列中,选择最多一条作为连接起始锚定序列片段末端到另一个终点锚定序列片段末端的有效连接序列。7.根据权利要求6所述的构建超长连续DNA序列的基因组组装方法,其特征在于,步骤S32包括:S321,将每个通路序列子集合Ai分成一或多个组Ai1,…Aig,其中1≤i≤k;S322,从每个组中选出序列长度的出现频率为最高值及小于最高值一定范围的序列,形成序列集合Bi1,…,Big,其中序列集合Bi1与Ai1对应,其他集合...

【专利技术属性】
技术研发人员:梁承志杜会龙
申请(专利权)人:中国科学院遗传与发育生物学研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1