一种基于DNA变异检测的三代数据校正方法技术

技术编号:19058126 阅读:268 留言:0更新日期:2018-09-29 12:25
本发明专利技术提供了属于生物信息技术领域的一种基于DNA变异检测的三代数据校正方法,首先将三代测序数据处理后作为参考序列数据,然后将二代测序数据处理后与其进行比对,得到比对文件。对比对文件进行变异分析检测,可以得到二代测序数据相对于三代测序数据的变异信息,利用变异信息完成对三代测序数据的校正。将DNA变异检测方法应用到三代测序数据纠错中,联合使用二代测序数据与三代测序数据,降低三代数据校正的成本,程序采用多线程的思想,加快三代数据的校正速度。本发明专利技术通过联合校正技术解决三代测序技术中存在的高错误率和高成本问题,为后续的三代测序数据变异检测方面奠定基础。

【技术实现步骤摘要】
一种基于DNA变异检测的三代数据校正方法
本专利技术属于生物信息
,具体来说,涉及一种基于DNA变异检测的三代数据校正方法。
技术介绍
随着三代测序技术的发展,测序数据的片段长度不断提高,同时随着精准医疗的提出与发展,测序数据的规模呈现爆炸性的增长。现阶段正是二代测序技术向三代测序技术的过渡阶段,由于三代测序技术中存在的一些缺陷,制约着三代测序技术的发展与应用。现在采用的是三代测序数据校正软件主要有FALCON和PBcR两种,它们使用三代数据自纠错的方法对测序数据进行校正,主要分为两步:①将参考模板序列与候选序列进行两两比对获得参考模板序列的多重比对结果;②通过多重序列比对结果推断正确结果。三代数据自纠错方法对测序深度有较高要求,增大了测序的成本,而且这两款软件进行自纠错时所需要的时间较长,这主要是由于自比对算法Daligner和MHAP导致的。
技术实现思路
为解决上述技术问题,本专利技术提供了一种基于DNA变异检测的三代数据校正方法,首先将三代测序数据处理后作为参考序列数据,然后将二代测序数据处理后与其进行比对,得到比对文件。对比对文件进行变异分析检测,可以得到二代测序数据相对于三代测序数据的变异信息,利用变异信息完成对三代测序数据的校正。本专利技术通过联合校正技术解决三代测序技术中存在的高错误率和高成本问题,为后续的三代测序数据变异检测方面奠定基础。一种基于DNA变异检测的三代数据校正方法,其特征在于,包括以下步骤:(a)数据格式转换,包括并行的线程1和线程2:线程1:将原始三代fastq数据进行处理转换为fasta格式数据并保存,并对其建立索引得到三代fasta参考序列集合;线程2:得到作为数据比对的二代fastq初始序列集合;(b)DNA变异检测:将二代fastq初始序列集合与三代fasta参考序列集合使用bwa-mem算法进行比对,得到比对结果所生产的bam文件;对bam文件进行质量控制,根据bam文件中的序列质量信息,去除低质量的序列,然后进行序列去重;对去重后的文件进行IndelRealigner,对到indel附近的reads进行局部重新比对;对bam文件中的reads进行碱基质量值的重新校正,使最后输出的bam文件中reads的质量值接近真实值,以此作为三代数据校正所使用的数据集合;使用DNAseq对此数据进行变异检测,得到二代Illumina数据与三代数据之间的变异信息,即三代数据中存在的测序错误的位置;(c)mapping区域碱基校正。优选的,所述线程1中,将原始三代fastq数据转换为fasta格式数据之前除低质量序列和接头序列。优选的,所述线程2中,具体过程为:去除二代Illumina测序数据中的primer和adapter,并且根据read的质量信息,将低质量的read去除。优选的,所述步骤(b)DNA变异检测中,对bam文件进行序列去重是去除PCR扩增中被过量扩增,非基因组中存在且不能作为校正的依据的序列。优选的,所述步骤(c)mapping区域碱基校正具体过程为:提取三代序列的名称、变异位点、三代数据此位点碱基序列、二代数据此位点碱基序列四列数据按照序列名称分别保存,对三代数据每条序列根据每个变异位点的三代和二代碱基序列,进行替换,将三代碱基序列替换为二代碱基序列,完成三代数据的校正。本专利技术的技术优势:1、本专利技术将DNA变异检测方法应用到三代测序数据纠错中,联合使用二代测序数据与三代测序数据,降低三代数据校正的成本,程序采用多线程的思想,加快三代数据的校正速度。2、由于三代测序技术的准确度较低,测序数据的可信度偏小,同时,三代测序的成本较高,制约着三代测序技术的应用前景。使用二代测序数据对三代测序数据进行校正,有利于提高三代测序的准确度,降低三代测序的成本,方便进行后续的数据分析。3、通过本专利技术可实现快速高效的三代数据校正,解决了现有技术中三代测序数据错误率高和后续研究需求大之间的矛盾,提高三代测序数据在拼接和变异检测方面的可用性。附图说明图1是实施例1中基于DNA变异检测的三代数据校正方法的逻辑流程图。具体实施方式下面结合具体的实施例对本专利技术所述的一种基于DNA变异检测的三代数据校正方法做进一步说明,但是本专利技术的保护范围并不限于此。针对三代测序技术中存在的高成本高错误率方面的问题,利用二代测序数据成本低准确度高方面的优势,提出了如图1所示的一种三代测序数据的校正方法,包括如下三个模块:(a)数据格式转换模块:将原始三代fastq数据进行处理,去除低质量序列和接头序列,然后转换为fasta格式数据并保存,并对其建立索引,作为二代Illumina测序数据的参考基因组,去除二代Illumina测序数据中的primer和adapter,并且根据read的质量信息,将低质量的read去除,作为数据比对的序列集合。(b)DNA变异检测模块:将二代Illumina测序数据与三代测序数据数据生成的fasta数据使用bwa-mem算法进行比对,得到比对结果所生产的bam文件。对bam文件进行质量控制,根据bam文件中的序列质量信息,去除低质量的序列,然后进行序列去重。由于PCR扩增会使一些序列被过量扩增,这些扩增的序列会比对到相同的位置上,二这些过量扩增的序列并非基因组中存在的序列,不能作为校正的依据,所以需要去除此类序列。由于在indel附近的比对会存在大量的碱基错配,容易在校正过程被认为是测序错误所产生的错误碱基,需要对去重后的文件进行IndelRealigner,即对比对到indel附近的reads进行局部重新比对,将错误率降到最低。为了进一步精确查找到三代测序数据中错误测序所在的位置,需要对bam文件中的reads进行碱基质量值的重新校正,使最后输出的bam文件中reads的质量值接近真实值,以此作为三代数据校正所使用的数据集合。使用DNAseq对此数据进行变异检测,得到二代Illumina数据与三代数据之间的变异信息,即三代数据中存在的测序错误的位置。(c)mapping区域碱基校正模块:提取三代序列的名称、变异位点、三代数据此位点碱基序列、二代数据此位点碱基序列四列数据按照序列名称分别保存,对三代数据每条序列根据每个变异位点的三代和二代碱基序列,进行替换,将三代碱基序列替换为二代碱基序列,即可完成三代数据的校正。实施例1测试所用的三代数据是由PacBio公司提供的85X大肠杆菌(EscherichiacoliK12MG1655Methylome)测序数据(下载地址:https://github.com/PacificBiosciences/DevNet/wiki/Datasets),所用二代数据是从NCBI的sra数据库下载的编号为ERR022075的290X的大肠杆菌Illumina(EscherichiacoliK12MG1655Methylome)测序数据,所选的参考基因组是从NCBI的Genome数据库下载的EscherichiacoliK12MG1655的标准参考基因,(下载地址:https://www.ncbi.nlm.nih.gov/genome/167?genome_assembly_id=161521)。设置PacBio数据的覆盖度梯度分别为10X,本文档来自技高网...

【技术保护点】
1.一种基于DNA变异检测的三代数据校正方法,其特征在于,包括以下步骤:(a)数据格式转换,包括并行的线程1和线程2:线程1:将原始三代fastq数据进行处理转换为fasta格式数据并保存,并对其建立索引得到三代fasta参考序列集合;线程2:得到作为数据比对的二代fastq初始序列集合;(b)DNA变异检测:将二代fastq初始序列集合与三代fasta参考序列集合使用bwa‑mem算法进行比对,得到比对结果所生产的bam文件;对bam文件进行质量控制,根据bam文件中的序列质量信息,去除低质量的序列,然后进行序列去重;对去重后的文件进行Indel Realigner,对到indel附近的reads进行局部重新比对;对bam文件中的reads进行碱基质量值的重新校正,使最后输出的bam文件中reads的质量值接近真实值,以此作为三代数据校正所使用的数据集合;使用DNAseq对此数据进行变异检测,得到二代Illumina数据与三代数据之间的变异信息,即三代数据中存在的测序错误的位置;(c)mapping区域碱基校正。

【技术特征摘要】
1.一种基于DNA变异检测的三代数据校正方法,其特征在于,包括以下步骤:(a)数据格式转换,包括并行的线程1和线程2:线程1:将原始三代fastq数据进行处理转换为fasta格式数据并保存,并对其建立索引得到三代fasta参考序列集合;线程2:得到作为数据比对的二代fastq初始序列集合;(b)DNA变异检测:将二代fastq初始序列集合与三代fasta参考序列集合使用bwa-mem算法进行比对,得到比对结果所生产的bam文件;对bam文件进行质量控制,根据bam文件中的序列质量信息,去除低质量的序列,然后进行序列去重;对去重后的文件进行IndelRealigner,对到indel附近的reads进行局部重新比对;对bam文件中的reads进行碱基质量值的重新校正,使最后输出的bam文件中reads的质量值接近真实值,以此作为三代数据校正所使用的数据集合;使用DNAseq对此数据进行变异检测,得到二代Illumina数据与三代数据之间的变异信息,即三代数据中存在的测序错误的位置;(c)mapping区域碱基校正。2.根据权利要求...

【专利技术属性】
技术研发人员:高敬阳高峰陈禹保
申请(专利权)人:北京化工大学北京市计算中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1