一种基于三代PacBio测序数据的补洞方法技术

技术编号:14311705 阅读:36 留言:0更新日期:2016-12-27 20:34
本发明专利技术提出了一种基于三代PacBio测序数据的补洞方法,大大降低了补洞过程中的比对时间,基因组补洞的速度得到明显提高。通过相应软件,将三代PacBio测序数据比对上基因组中洞的两端,截取比对上的三代PacBio测序数据的部分区域,并依据该数据所属的洞对截取的数据进行聚类,使用dazcon软件进行纠错,用纠错后的数据进行序列连接。

【技术实现步骤摘要】

本专利技术涉及生物信息
,具体涉及DNA组装的补洞方法,它使用三代PacBio测序数据来进行基因组数据的补洞。
技术介绍
三代PacBio测序以长读长著称,目前测序使用的P6-C4试剂,可使测序数据的平均读长达到10-15k,并且测序没有明显的GC偏向性,理论上能很好地对基因组进行补洞。目前基于三代PacBio测序数据补洞的软件,有PBjelly,但它是基于blasr比对软件的,由于blasr软件比对速度非常慢,导致整个构建scaffold的时间也非常漫长。特别是对于大于1G的基因组,测序深度大于10X的情况,通常需要耗费几个月的时间。
技术实现思路
本专利技术的目的是解决以上提出的问题,提出了一种基于三代PacBio测序数据的补洞方法,大大降低了补洞过程中的比对时间,基因组补洞的速度得到明显提高。通过相应软件,将三代PacBio测序数据比对上基因组中洞的两端,截取比对上的三代PacBio测序数据的部分区域,并依据该数据所属的洞对截取的数据进行聚类,使用dazcon软件进行纠错,用纠错后的数据进行序列连接。本专利技术是通过以下技术方案实现的:本专利技术是一种基于三代PacBio测序数据的补洞方法,所述补洞方法包括以下步骤:(1)从contig中提取unique-kmer;(2)使用unique-kmer作为seed,进行比对,并截取比对上的区域;(3)对比对上的区域进行聚类和纠错;(4)使用纠错后的数据进行连接。作为优化,在步骤(1)使用Jellyfish软件对二代Illumina测序数据进行k-mer统计,把出现一次的k-mer作为unique-kmer,使用比特文件或GATB开源包,对这些unique-kmer进行存储。作为优化,对于k≤17,使用一个大小为2G的比特文件(*.bit文件)来存储,而对于k>17的情况,把unique-kmer存入GATB开源包中的(*.h5)文件中。作为优化,所述步骤(2)包括以下步骤:2.1使用unique-kmer作为seed;2.2事先对seed的比对关系进行聚类,算出最优的比对范围;如果两条read能比对得上,那么它们具有共线性,并且这些seed之间的斜率为1,将聚到最多点的直线作为比对上的区域。2.3分区域进行比对;首先将比对的整体区域划分成100bp的小区域,假设划分为n个区域,共有a个碱基,再对这些小区域进行LCS相似度计算,假设相似度大于0.8的区域有b个,这些小区域总体的相似碱基为c个,分以下两个维度评价相似度:区域相似度=b/n碱基相似度=c/a最后只保留两个评价相似度的值都大于0.7的比对数据。作为优化,所述步骤(3)和(4)包括以下步骤:3.1将比对上的区域前后延伸一定长度(可以设定为500bp)进行截取,并记录这个区域所对应的洞;3.2将截取的区域,按所属的洞进行聚类;3.3对每一个聚类的数据使用dazcon软件进行纠错,再对数据进行连接。与现有的软件相比,本方法的优点在于:1、从contig中提取出unique-kmer,提高准确率,降低对比时间。在基因组中,存在许多重复序列,有些短重复序列甚至出现成百上千次,从而会影响比对软件的准确度,增加比对的时间。为了提高比对的准确度,降低比对时间,本法提取在contig中只出现一次的k-mer,作为unique-kmer,在比对中只用unique-kmer作为比对使用的seed。这里使用Jellyfish软件来进行k-mer统计,并筛选出unique-kmer。2、将三代PacBio测序数据比对上基因组中洞的两端,并截取数据,节约内存,节约对比时间,提高准确度。很多比对方法,都使用了最长公共子序列(LCS)的算法,本法进行比对,也是使用这个算法,但是做了以下三方面的改进:1)使用unique-kmer作为seed2)事先对seed的比对关系进行聚类,算出最优的比对范围。如果两条read能比对得上,那么它们具有共线性,并且这些seed之间的斜率为1。我们将聚到最多点的直线作为比对上的区域。3)分区域进行比对。大多比对软件都是直接对整体区域进行最长公共子序列(LCS)计算,但对于较大的比对区域来说,例如大于100k的比对区域,对整体区域进行计算,不仅浪费内存而且会耗费大量时间。本法所做的改进解决了以上问题,同时准确度也得到明显的提升。对于进行比对的三代Pacbio测序数据,选取比对上的区域两端各自延伸一定长度(通常设定为500bp)的部分进行截取,这样就可以保证三代PacBio测序数据与比对上的洞两端的DNA序列有共同的区域。3、对比对上的三代PacBio测序数据进行聚类,纠错并连接,节约纠错时间。将上一步骤截取的数据依据各自所属的洞进行聚类,使用dazcon软件对每个洞的聚类数据纠错,并依据纠错后的数据和洞两端的存在的共同序列,进行序列连接,完成补洞。这样做的优点是只对洞的区域进行纠错,不必对整条序列进行纠错,从而大大地节约了纠错时间。附图说明图1:本专利技术流程图。具体实施方式下面结合附图对本专利技术的实施例进行进一步详细说明:实施例:1、从contig中提取unique-kmer,在步骤(1)使用Jellyfish软件对二代Illumina测序数据进行k-mer统计,把出现一次的k-mer作为unique-kmer,对于k≤17,使用一个大小为2G的比特文件(*.bit文件)来存储,而对于k>17的情况,把unique-kmer存入GATB开源包中的(*.h5)文件中。其中,将所有的数据打断成长度为k的片断称为k-mer,二代Illumina测序数据是指通过Illumina公司测序仪获得的二代测序数据。根据上述方法编写了程序,用法如下:将contig路径,放入一个文件file.lst中然后运行程序,来获取unique-kmer:因为选取k=17,将结果存入比特文件中:k17.bit2、使用unique-kmer作为seed,进行比对,并截取比对上的区域;2.1使用unique-kmer作为seed;2.2事先对seed的比对关系进行聚类,算出最优的比对范围;如果两条read能比对得上,那么它们具有共线性,并且这些seed之间的斜率为1,将聚到最多点的直线作为比对上的区域。2.3分区域进行比对。首先将比对的整体区域划分成100bp的小区域,假设划分为n个区域,共有a个碱基,再对这些小区域进行LCS相似度计算,假设相似度大于0.8的区域有b个,这些小区域总体的相似碱基为c个,分以下两个维度评价相似度:区域相似度=b/n碱基相似度=c/a最后只保留两个评价相似度的值都大于0.7的比对数据。3、对比对上的区域进行聚类和纠错,使用纠错后的数据进行连接。3.1将比对上的区域前后延伸一定长度(可以设定为500bp)进行截取,并记录这个区域所对应的洞;3.2将截取的区域,按所属的洞进行聚类;3.3对每一个聚类的数据使用dazcon软件进行纠错,再对数据进行连接。根据上述比对和补洞的方法,讲比对和补洞方法写成一个流程,方便调用,用法如下:配制input.cfg的说明:以上所述的仅是本专利技术的优选实施方式,应当指出,对于本
中的普通技术人员来说,在不脱离本专利技术核心技术特征的前提下,还可以做出若干改进和润饰,本文档来自技高网
...

【技术保护点】
一种基于三代PacBio测序数据的补洞方法,其特征在于,所述补洞方法包括以下步骤:(1)从contig中提取unique‑kmer;(2)使用unique‑kmer作为seed,进行比对,并截取比对上的区域;(3)对比对上的区域进行聚类和纠错;(4)使用纠错后的数据进行连接。

【技术特征摘要】
1.一种基于三代PacBio测序数据的补洞方法,其特征在于,所述补洞方法包括以下步骤:(1)从contig中提取unique-kmer;(2)使用unique-kmer作为seed,进行比对,并截取比对上的区域;(3)对比对上的区域进行聚类和纠错;(4)使用纠错后的数据进行连接。2.根据权利要求书1所述的基于三代PacBio测序数据的补洞方法,其特征在于,在步骤(1)使用Jellyfish软件对二代Illumina测序数据进行k-mer统计,把出现一次的k-mer作为unique-kmer,使用比特文件或GATB开源包,对这些unique-kmer进行存储。3.根据权利要求书2所述的基于三代PacBio测序数据的补洞方法,其特征在于,对于k≤17,使用一个大小为2G的比特文件(*.bit文件)来存储,而对于k>17的情况,把unique-kmer存入GATB开源包中的(*.h5)文件中。4.根据权利要求书1所述的基于三代PacBio测序数据的补洞方法,其特征在...

【专利技术属性】
技术研发人员:詹东亮蔡庆乐王兆宝罗亚丹范崇仪王军一范玉美
申请(专利权)人:杭州和壹基因科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1