一种基于三代PacBio测序数据的补洞方法技术

技术编号：14311705 阅读：36 留言：0更新日期：2016-12-27 20:34

本发明专利技术提出了一种基于三代PacBio测序数据的补洞方法，大大降低了补洞过程中的比对时间，基因组补洞的速度得到明显提高。通过相应软件，将三代PacBio测序数据比对上基因组中洞的两端，截取比对上的三代PacBio测序数据的部分区域，并依据该数据所属的洞对截取的数据进行聚类，使用dazcon软件进行纠错，用纠错后的数据进行序列连接。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及生物信息
,具体涉及DNA组装的补洞方法，它使用三代PacBio测序数据来进行基因组数据的补洞。
技术介绍
三代PacBio测序以长读长著称，目前测序使用的P6-C4试剂，可使测序数据的平均读长达到10-15k，并且测序没有明显的GC偏向性，理论上能很好地对基因组进行补洞。目前基于三代PacBio测序数据补洞的软件，有PBjelly，但它是基于blasr比对软件的，由于blasr软件比对速度非常慢，导致整个构建scaffold的时间也非常漫长。特别是对于大于1G的基因组，测序深度大于10X的情况，通常需要耗费几个月的时间。
技术实现思路
本专利技术的目的是解决以上提出的问题，提出了一种基于三代PacBio测序数据的补洞方法，大大降低了补洞过程中的比对时间，基因组补洞的速度得到明显提高。通过相应软件，将三代PacBio测序数据比对上基因组中洞的两端，截取比对上的三代PacBio测序数据的部分区域，并依据该数据所属的洞对截取的数据进行聚类，使用dazcon软件进行纠错，用纠错后的数据进行序列连接。本专利技术是通过以下技术方案实现的：本专利技术是一种基于三代PacBio测序数据的补洞方法，所述补洞方法包括以下步骤：(1)从contig中提取unique-kmer；(2)使用unique-kmer作为seed，进行比对，并截取比对上的区域；(3)对比对上的区域进行聚类和纠错；(4)使用纠错后的数据进行连接。作为优化，在步骤(1)使用Jellyfish软件对二代Illumina测序数据进行k-mer统计，把出现一次的k-mer作为unique-km...

【技术保护点】
一种基于三代PacBio测序数据的补洞方法，其特征在于，所述补洞方法包括以下步骤：(1)从contig中提取unique‑kmer；(2)使用unique‑kmer作为seed，进行比对，并截取比对上的区域；(3)对比对上的区域进行聚类和纠错；(4)使用纠错后的数据进行连接。

【技术特征摘要】
1.一种基于三代PacBio测序数据的补洞方法，其特征在于，所述补洞方法包括以下步骤：(1)从contig中提取unique-kmer；(2)使用unique-kmer作为seed，进行比对，并截取比对上的区域；(3)对比对上的区域进行聚类和纠错；(4)使用纠错后的数据进行连接。2.根据权利要求书1所述的基于三代PacBio测序数据的补洞方法，其特征在于，在步骤(1)使用Jellyfish软件对二代Illumina测序数据进行k-mer统计，把出现一次的k-mer作为unique-kmer，使用比特文件或GATB开源包，对这些unique-kmer进行存储。3.根据权利要求书2所述的基于三代PacBio测序数据的补洞方法，其特征在于，对于k≤17，使用一个大小为2G的比特文件(*.bit文件)来存储，而对于k＞17的情况，把unique-kmer存入GATB开源包中的(*.h5)文件中。4.根据权利要求书1所述的基于三代PacBio测序数据的补洞方法，其特征在...

【专利技术属性】
技术研发人员：詹东亮，蔡庆乐，王兆宝，罗亚丹，范崇仪，王军一，范玉美，
申请(专利权)人：杭州和壹基因科技有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人