高杂合基因组的组装方法技术

技术编号:10512487 阅读:226 留言:0更新日期:2014-10-08 13:38
本发明专利技术公开了一种高杂合基因组的组装方法。该组装方法包括根据待测物种的体细胞基因组序列信息构建德布鲁因图的步骤和简化德布鲁因图的步骤,简化德布鲁因图的步骤包括以下步骤:对待测物种的生殖细胞的单细胞基因组进行测序;比对体细胞基因组的序列信息与生殖细胞的单细胞基因组的序列信息,找到体细胞基因组序列中的杂合位点的序列信息;以及根据杂合位点的序列信息,简化德布鲁因图。本发明专利技术的组装方法通过利用生殖细胞单细胞的基因组序列信息找出高杂合基因组中的杂合位点,并在简化德布鲁因图的时候进行辅助组装,解决了现有技术在组装拼接中的杂合位点难以简化的问题,从而实现高杂合基因组的拼接组装。

【技术实现步骤摘要】
高杂合基因组的组装方法
本专利技术涉及生物
,具体而言,涉及一种高杂合基因组的组装方法。
技术介绍
DNA(脱氧核糖核酸)测序,是广泛应用于生物学研究中的一种重要的实验技术,在DNA双螺旋结构学说发表之后就开始有相关的报道,但是操作流程复杂而没有形成规模。在1977年,末端终止测序法在Sanger的研究努力下诞生了,该方法相对之前的方法既简便又快速,而且通过后续不断的改良,成为了2007年前DNA测序的主流。然而Sanger测序也存在自身的缺点,费用高、通量低和耗时长。因此随着科学技术的不断发展,借助于化学和物理等其他学科的技术更新,第二代测序技术开始逐渐取代Sanger测序的霸主地位,完成了一些模式生物重测序和非模式生物的基因组测序。目前,第二代测序技术应用最广泛的是要以Illumina测序平台为基础的测序技术。边合成边测序是Illumina测序平台的基本原理,当DNA聚合酶合成互补链的时候通过添加不同的dNTP(脱氧三磷酸核苷酸)释放不同的荧光信号,通过捕捉和计算机软件处理这些荧光信号即可以获得测序中的DNA的序列信息。利用第二代测序技术完成模式生物或非模式生物的基因组测序的过程基本包括以下步骤:测序文库构建。首先提取待测物种二倍体体细胞的基因组DNA,然后将基因组DNA随机片段化,而在基因组测序中,会构建不同梯度的插入片段大小,以便提供更多片段信息进行后续的组装。锚定桥接和预扩增。测序的反应是在Illumina测序平台的玻璃管中进行,单链接头被固定在表面,上一个步骤得到的基因组DNA片段经过变性成单链后与测序通道上的接头引物结合形成桥状结构。单链桥型待测片段会被扩增成双链桥型片段,在变性过程中释放出互补的单链会被锚定到附件的固相表面,数次循环之后,会在固相表面形成上百万条成簇分布的双链待测片段。测序。在固相表面的每一个测序簇延伸互补链的时,每次加入一个被荧光标记的dNTP(脱氧三磷酸核苷酸)会发射出不同的荧光,Illumina测序仪通过接收这些荧光信号和将其用计算机软件处理后,就能准确地获得待测片段的序列信息。数据处理。Illumina测序得到的序列的每一个碱基都会有相应的测序质量,测序质量低,说明该碱基测错的概率就大。因此,通常在基因组装之前对这些原始数据进行处理,通过设置不同的阈值过滤质量较低的序列。基因组组装。通过将过滤得到的测序数据输入计算机软件中,例如已经发表的针对二代测序的组装软件SOAPdenovo,这些软件首先将测序的DNA片段进行打断及合并处理,通过序列相似性,构建出德布鲁因(deBruijn)图结构,然后简化德布鲁因图,再利用序列之间的配对关系构建出基因组的组装序列结果。现有的技术主要是针对简单基因组的,简单基因组是一般指杂合率不超过千分之五的基因组,例如哺乳类、鸟类和一般栽培作物。一般认为采用常规的组装方法组装杂合度高达0.5%的基因组序列时有一定难度,而杂合度高达1%以上的基因组序列则很难组装,例如一般的水产类基因组的杂合率一般超过百分之一,而这些高杂合位点在组装过程中构建的德布鲁因图难以得到简化,针对二代测序的组装软件会在这些高杂合位点断开,从而造成组装得到的序列过短,难以达到组装拼接的要求。因此,急需建立一种能够适应杂合率超过百分之一的高杂合基因组的组装方法。
技术实现思路
本专利技术旨在提供一种高杂合基因组的组装方法,以解决现有技术无法对高杂合基因组的测序数据进行组装拼接的问题。本专利技术中的“高杂合基因组”是指杂合度高达1%以上的基因组。为了实现上述目的,根据本专利技术的一个方面,提供了一种高杂合基因组的组装方法,该组装方法包括根据待测物种的体细胞基因组序列信息构建德布鲁因图的步骤、简化德布鲁因图的步骤、以及根据简化后的德布鲁因图,拼接得到高杂合基因组的组装序列的步骤,简化德布鲁因图的步骤包括以下步骤:对待测物种的生殖细胞的单细胞基因组进行测序;比对体细胞基因组的序列信息与生殖细胞的单细胞基因组的序列信息,找到体细胞基因组序列中的杂合位点的序列信息;以及根据杂合位点的序列信息,简化德布鲁因图。进一步地,杂合位点的序列信息包括与生殖细胞的单细胞基因组的序列信息的亲本来源一致的杂合位点的序列信息和与生殖细胞的单细胞基因组的序列信息的亲本来源不一致的杂合位点的序列信息。进一步地,根据杂合位点的序列信息,简化德布鲁因图的步骤中,采用与生殖细胞的单细胞基因组的序列信息的亲本来源不一致的杂合位点的序列信息进行组装。进一步地,在比对体细胞基因组的序列信息与生殖细胞单细胞基因组的序列信息,找到杂合位点的序列信息的步骤之前,进一步还包括,分别对体细胞基因组的序列信息与生殖细胞单细胞基因组的序列信息进行过滤低质量序列的步骤。进一步地,过滤低质量序列的步骤通过设置阈值进行过滤。进一步地,对体细胞基因组序列信息和生殖细胞单细胞基因组序列信息通过设置相同的阈值进行过滤低质量序列。进一步地,对待测物种的生殖细胞单细胞基因组进行测序的步骤之前,进一步包括构建测序文库的步骤,构建测序文库的步骤包括:提取待测物种的生殖细胞的单细胞的基因组DNA;以及对待测物种的生殖细胞的单细胞的基因组DNA进行直接片段化,形成测序文库;其中,测序文库为不大于500bp的短片段文库。进一步地,组装方法在简化德布鲁因图的步骤之前,还包括对待测物种的体细胞基因组进行测序的步骤;对待测物种的体细胞基因组进行测序的步骤包括:提取待测物种的体细胞的基因组DNA;以及对待测物种的体细胞基因组DNA进行直接片段化和环化之后再进行片段化,形成测序文库;其中,测序文库包括不大于500bp的短片段文库和2Kb~10Kb的长片段文库。进一步地,不大于500bp的短片段文库包括180bp文库和500bp文库。进一步地,2Kb~10Kb的长片段文库包括2Kbp、5Kbp和10Kbp文库;进一步地,上述组装方法在根据简化后的所述德布鲁因图,拼接得到高杂合基因组的组装序列的步骤中利用序列互补配对的关系进行拼接,得到高杂合基因组的组装序列。应用本专利技术的技术方案,通过引入生殖细胞单细胞测序技术来解决高杂合基因组的组装拼接问题。通过将生殖细胞的单细胞基因组的序列信息与体细胞的基因组的序列信息进行比对,找出杂合位点及其序列信息,并利用这些杂合位点的序列信息,在简化体细胞测序数据构建的德布鲁因图的时候进行辅助组装,解决了现有技术在组装拼接中的杂合位点难以简化的问题,从而实现高杂合基因组的拼接组装。附图说明构成本申请的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1示出了本专利技术的生殖细胞的单细胞基因组DNA和二倍体细胞的基因组DNA建库和测序步骤;图2示出了本专利技术的生殖细胞的单细胞基因组序列信息在辅助组装中对杂合位点进行分离的过程;以及图3示出了现有技术和本专利技术在高杂合基因组装拼接中解决杂合位点时的两种不同方法。具体实施方式需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本专利技术。为了解决现有技术无法对高杂合基因组的测序数据进行组装拼接的问题,在本专利技术一种典型的实施方式中,提供了一种高杂合基因本文档来自技高网
...
高杂合基因组的组装方法

【技术保护点】
一种高杂合基因组的组装方法,所述组装方法包括根据待测物种的体细胞基因组序列信息构建德布鲁因图的步骤、简化所述德布鲁因图以及根据简化后的所述德布鲁因图,拼接得到高杂合基因组的组装序列的步骤,其特征在于,简化所述德布鲁因图的步骤包括以下步骤:对待测物种的生殖细胞的单细胞基因组进行测序;比对所述体细胞基因组的序列信息与所述生殖细胞的单细胞基因组的序列信息,找到所述体细胞基因组序列中的杂合位点的序列信息;以及根据所述杂合位点的序列信息,简化所述德布鲁因图。

【技术特征摘要】
1.一种高杂合基因组的组装方法,所述组装方法包括根据待测物种的体细胞基因组序列信息构建德布鲁因图的步骤、简化所述德布鲁因图以及根据简化后的所述德布鲁因图,拼接得到高杂合基因组的组装序列的步骤,其特征在于,简化所述德布鲁因图的步骤包括以下步骤:对待测物种的生殖细胞的单细胞基因组进行测序;比对所述体细胞基因组的序列信息与所述生殖细胞的单细胞基因组的序列信息,找到所述体细胞基因组序列中的杂合位点的序列信息;以及根据所述杂合位点的序列信息,简化所述德布鲁因图;所述高杂合基因组是指杂合度高达1%以上的基因组。2.根据权利要求1所述的组装方法,其特征在于,所述杂合位点的序列信息包括与所述生殖细胞的单细胞基因组的序列信息的亲本来源一致的杂合位点的序列信息和与所述生殖细胞的单细胞基因组的序列信息的亲本来源不一致的杂合位点的序列信息。3.根据权利要求2所述的组装方法,其特征在于,根据所述杂合位点的序列信息,简化所述德布鲁因图的步骤中,采用与所述生殖细胞的单细胞基因组的序列信息的亲本来源不一致的杂合位点的序列信息进行组装。4.根据权利要求1所述的组装方法,其特征在于,在所述比对体细胞基因组的序列信息与生殖细胞单细胞基因组的序列信息,找到杂合位点的序列信息的步骤之前,进一步还包括,分别对所述体细胞基因组的序列信息与生殖细胞的单细胞基因组的序列信息进行过滤低质量序列的步骤。5.根据权利要求4所述的组装方法,其特征在于,所述过滤低质量序列的步骤通过设置阈值进行过滤。6.根据权利要求5所述的...

【专利技术属性】
技术研发人员:张锦波江文恺李季孙小庆张晓杰唐新春
申请(专利权)人:北京诺禾致源生物信息科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1