一种获得更准确的染色体水平基因组的方法技术

技术编号:28737099 阅读:86 留言:0更新日期:2021-06-06 11:46
本发明专利技术公开了一种使用Hi

【技术实现步骤摘要】
一种获得更准确的染色体水平基因组的方法


[0001]本专利技术涉及生物信息学
,具体涉及一种使用Hi

C技术对第二代测序大片段文库构建的基因组scaffold进行校正,进而获得更准确的染色体水平基因组的方法。

技术介绍

[0002]长期以来,DNA测序技术一直是分子生物学相关研究中最常用的技术手段之一,从一定程度上推动了该领域的快速发展。第二代DNA测序技术又称大量并行测序技术(massive parallel sequencing,MPS)、高通量测序技术(high—throughput sequencing,HTS),第二代测序技术低成本、可实现99%以上的准确度,1次可对几百、几千个样本的几十万至几百万条DNA分子同时进行快速测序分析。
[0003]随着高通量测序技术的发展,大量的物种基因组序列被公布,在这些已公布的基因组序列中,很多是采用二代小片段pair

end文库和大片段mate

pair文库相结合的建库方式进行测序的。不论是二代小片段pair

end文库还是大片段mate

pair文库,得到的测序reads均为双端一一配对对应的短reads,reads的长度依赖于测序的illumina平台,一般在100bp~150bp不等。小片段pair

end文库的测序数据用于基于k

mer的overlap组装得到碱基连续的contig序列,大片段mate

pair文库用于将连续的contig序列连接成中间用gap填充的scaffold序列。
[0004]利用大片段的mate

pair文库测序得到的序列是一一配对的双端reads;因此基因组组装软件可以根据双端reads的配对关系,将这些reads比对到利用小片段pair

end文库数据组装得到的contig结果中,以比对结果为依据,将有大量双端mate

pair reads支持的contig连接成中间有gap填充的连续的scaffold。gap以字符N填充,而字符N的长度由组装软件根据参数设置的,以及软件推算的大片段mate

pair文库的insert size最终决定。
[0005]在没有其他技术手段的情况下,利用大片段mate

pair文库连接形成大片段的scaffold基因组序列,能够在一定程度上减少小片段pair

end文库组装得到的contig的数目,延长其长度,从而从整体上提升基因组的组装指标。后续又可以再利用小片段pair

end文库的数据map到得到的scaffold水平的基因组上,进一步依据map到字符N填充的gap上的reads信息,将部分gap填充成真实的A/G/C/T碱基,从而缩短甚至填充gap,进一步提升组装指标。在过去没有其他技术手段的情况下,该方法是唯一可以获得更完整的基因组组装结果的方法。
[0006]但是,由于mate

pair文库的大小不是固定不变的,而只是一个区间范围,且reads一般在100bp~150bp不等,测序长度较短。短的测序长度导致将reads map到contig上后,有些reads出现不止一个比对结果,特别是一些高度重复的基因组区域,由于这些序列在基因组中重复出现,对应这些区域的测序reads无法成功跨过重复区域,就会出现多个比对结果,但最终选取的只能是其中一个结果,但最终选取的不一定是正确的,且很难判断正确与否。这些都会导致最终依靠mate

pair文库的reads比对信息得到的scaffold组装结果中经常出现将本不是连续的contig被错误的连接到一起的情况出现。依赖于这些错误连接的
scaffold进行的后期gap补洞结果,也就自然是错误的,这些错误会对后续的共线性分析、基因组结构变异分析等比较基因组学分析造成不良影响。并且这种scaffold程度的组装结果达不到染色体水平,极大的限制了该物种基因组的后续利用。
[0007]Hi

C技术是3C技术(Chromosome ConformationCapture染色体构象捕获)的一种衍生技术。2009年,Job Dekker研究团队利用Hi

C技术通过测量人类正常淋巴细胞染色体中基因座空间交互信息,首次提出Hi

C技术的概念。Hi

C是结合3C技术和高通量测序技术捕获基因组的三维结构的技术。Hi

C是真正基因组范围3C衍生技术,是唯一一种以整个细胞核为研究对象,研究整个染色质中DNA在空间位置上的关系的技术。Hi

C技术的一个重要应用就是辅助基因组组装。根据染色体内部的互作概率显著高于染色体之间的互作概率,将不同的contig或者scaffold分成不同的染色体;根据在同一条染色体上,互作概率随着互作距离的增加而减少将同条染色体的contig或者scaffold进行排序和定向,其结果的准确性要比传统基于mate

pair大片段文库获得的scaffold高的多。
[0008]随着测序技术的发展,现在更多的物种采用三代PacBio测序技术和Hi

C技术进行全基因组测序,通过三代PacBio测序技术可以获得更长的测序读长,通过Hi

C技术可以进一步将基因组组装到染色体水平。但是这些方法都是针对重新测序的物种,无法通过这些方法对过去已通过第二代测序技术获得的大量的基因组中的scaffold连接错误进行纠正。

技术实现思路

[0009]本专利技术的目的是为解决以上提出的问题,为减少通过二代mate

pair文库获得的scaffold的连接错误,提供一种使用Hi

C技术对第二代测序大片段文库构建的基因组scaffold进行校正,进而获得更准确的染色体水平基因组的方法。
[0010]本专利技术基于的前期数据是通过第二代测序数据组装软件得到的中间具有gap的scaffold组装结果。所述前期数据可来源于公共数据库,也可来源于研究人员根据第二代测序数据利用常用的公开基因组组装软件得到的结果,是在前期准备的数据,不属于本专利技术的范畴。
[0011]本专利技术的方法是通过以下步骤实现的:
[0012](1)将第二代测序结果组装得到的基因组scaffold打断成没有gap的contig结果,使用基因组组装软件,利用通过Hi

C技术得到的测序数据,将所述contig结果挂载到染色体水平;
[0013](2)记录步骤(1)得到的基于Hi

C数据的挂载结果中,每条染色体中各个contig的顺序;
[0014](3)使用第二代测序数据组本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种获得更准确的染色体水平基因组的方法,其特征在于,包括以下步骤:(1)将第二代测序结果组装得到的基因组scaffold打断成没有gap的contig结果,使用基因组组装软件,利用通过Hi

C技术得到的测序数据,将所述contig结果挂载到染色体水平;(2)记录步骤(1)得到的基于Hi

C数据的挂载结果中,每条染色体中各个contig的顺序;(3)使用第二代测序数据组装软件,将步骤(1)中所述的contig结果基于大片段(mate

pair)文库,构建得到基因组scaffold,记录在各scaffold中各个contig的顺序;(4)将步骤(2)和步骤(3)中记录的两套版本的contig顺序进行一致性比对,对步骤(3)的基因组scaffold中各个contig的顺序进行校正,保留与步骤(2)的结果一致的contig连接顺序,将与步骤(2)的结果不一致的contig顺序打断,得到更新后的scaffold/contig组装结果;(5)使用基因组组装软件,利用通过Hi

C技术得到的测序数据,将步骤(4)得到的更新后的scaffold/contig组装结果再次挂载到染色体水平,记录挂载结果中每条染色体中各个contig的顺序;(6)使用第二代测序数据组装软件,将步骤(4)得到的更新后的scaffold/contig组装结果,再次基于大片段(mate

pair)文库,利用开源组装软件,构建得到新的基因组scaffold,记录在各scaffold中各个contig的顺序;(7)将步骤(5)和步骤(6)中记录的两套版本的contig顺序再次进行一致性比对,对步骤(6)的基因组scaffold中各个co...

【专利技术属性】
技术研发人员:尹玲曲俊杰
申请(专利权)人:广西壮族自治区农业科学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1