一种序列的校正方法及其校正装置制造方法及图纸

技术编号:22136581 阅读:34 留言:0更新日期:2019-09-18 10:06
本申请公开了一种序列的校正方法及其校正装置,涉及生物信息技术领域,具体而言,该校正方法通过对待校正序列进行校正,通过k‑mer方式对待校正序列进行划分,从正序统计每个最后位点上每一种碱基对应的k‑mer片段的概率,从反序,将待校正序列上最后一个位点的碱基替换为获得最高概率的k‑mer片段的碱基,根据最后一个位点的碱基对应的最高概率的k‑mer片段,确认倒数第二个位点的碱基,依次类推,得到第一校正序列。该校正方法能过在有效的时间内,对待校正序列进行校正,得到精确度更高的基因序列。

A Sequence Correction Method and Its Correction Device

【技术实现步骤摘要】
一种序列的校正方法及其校正装置
本专利技术涉及生物信息
,具体而言,涉及一种序列的校正方法及其校正装置。
技术介绍
从1977年,第一代DNA测序技术(Sanger)发展至今三十多年时间,测序技术已经取得了相当大的发展,现有通用的测序技术有:一代测序、二代测序和三代测序。通过测序技术得到的初步结果通常为多个测序片段,其中,二代测序具有准确性高,耗时短的优点,但现有基于二代测序数据的序列校正方法存在耗时长,准确度不高等问题。
技术实现思路
本专利技术提供了一种序列的校正方法,该校正方法能够有效避免或减少现有技术在对待校正序列的校正过程中,出现的耗时长,准确度不高等技术问题。具体地,本申请提供的一种序列的校正方法,其包括:将测序得到的多个测序片段与待校正序列进行比对,将多个测序片段排列至待校正序列上相对应的位置,获得第一排列结果。需要说明的是,多个测序片段可以为二代序列、三代测序或其测序结果优化后的结果,还可以为后续发展的其他测序技术对基因序列的测序结果。待校正序列可以包括任何需要校正的序列,例如,通过使用现有测序技术获得的多个测序片段组装得到的基因序列;多个测序片段组装得到的基因序列的部分有效序列;或校正后的校正序列等。现有测序技术优选为二代或三代测序技术。在本专利技术的优选实施例中,待校正序列包括:测序片段组装后的基因序列、含有低质量区域的序列、含有低覆盖区域的序列、第一校正序列、第二校正序列、第三校正序列或第四校正序列。进一步地,以k-mer的方式对上述待校正序列进行划分,得到多个k-mer片段,基于第一排列结果,对测序片段进行对应的k-mer划分。确认每个k-mer片段的最后位点对应的测序片段,基于第一排列结果,从正序统计每个k-mer片段最后位点上每一种碱基对应的k-mer片段的概率。具体地,序列上每一个位点,都存在5种可能,分别为A、T、C、G或缺失(使用“-”表示)。测序结果中存在上百万条测序片段(reads),而测序是通常随机打断的,在这些reads的位置不清楚的情况下,需要根据测序片段重叠的部分来尽量还原测序序列。k-mer,monomericunit(mer),相当于nt或者bp,100merDNA相当于每一条链有100nt,那么整条链就是100bp。一般长短为m的reads可以分成m-k+1个k-mers。在本专利技术实施例中,以k-mer为3举例说明,以k-mer为3对上述待校正序列进行划分,得到多个3-mer片段,比如位点1、2、3为第一个k-mer,位点2、3、4为第二个k-mer,依次类推。本申请根据碱基组合的形式来校正序列,从正序确认每个k-mer片段的最后位点,最后位点上可能存在A、T、C和G四种碱基,以及缺失的情况。从正序统计每个位点上每一种碱基对应的k-mer片段的概率包括:基于第一排列结果,每一个k-mer片段的最后位点上的每一种碱基均可能对应出现一种或多个组合的k-mer片段,对每个位点上每种碱基对应的k-mer片段进行统计,得到每个位点上对应的每种碱基及其对应k-mer片段的出现的概率。从反序,将待校正序列上最末碱基替换为获得最高概率的k-mer片段对应的最后位点的碱基,根据最末碱基对应的最高概率的k-mer片段,确认倒数第二位点的碱基;将倒数第二位点的碱基作为下一个k-mer片段的最后位点,根据倒数第二位点碱基对应的最高概率的k-mer片段,确认倒数第三位点的碱基,依次类推,得到第一校正序列。需要说明的,采用第一、第二、第三或第四来标记校正序列只是为了更清楚的描述。例如,采用上述正序统计,反序校正的方法校正了一次的序列为第一校正序列,再次采用正序统计,反序校正的方法校正后的序列为更准确的第一校正序列,名称相同,但序列本身与第一次校正的序列并不一样。具体地,最末碱基为序列上最后一个位点的碱基。基于正序计算的概率结果,确认待校正序列最末位点获得最高概率k-mer片段对应的最末碱基,如果出现两种、三种或四种碱基并列获得最高概率,则随机选择其中一种。在一些优选实施例中,统计每个k-mer片段中,最后位点上每一种碱基对应的k-mer片段的概率包括:按照计算公式,计算每个最后位点上每一种碱基对应的k-mer片段的分值,分值越高,概率越大,计算公式包括:score(p,b)=max{score(p-1,b∈{A,T,C,G,-})+countk_mer}-C;其中,p为最后位点在待校正序列上的位置,b为碱基A、T、G、C或缺失,score(p,b)为p位置上碱基b的分值,score(p-1,b)为p-1位置上碱基b的分值;countk-mer为该k-mer对应的特定碱基组合出现的次数;C为k-mer区域的有效测序深度。优选地,将第一校正序列作为待校正序列,进行迭代校正。待校正序列的序列不同,可能会导致多个测序片段在待校正序列上排列分布的不同,从而影响后续的校正结果。提高待校正序列的精确性,能提升排列结果的准确度,从而进一步提高后续的校正结果。优选地,在一些优选的实施例中,以k-mer方式对待校正序列进行划分为:以k-mer按照预设值为3的方式对待校正序列进行划分。k-mer的预设值不同,可能对后续的校正的结果产生影响,本专利技术的校正方法中,k-mer为3时,校正结果更加精确。进一步地,在一些实施例中,本专利技术提供的校正方法还低质量校正。具体地,低质量校正包括:在待校正序列上,根据第一排列结果,将所有最后位点上,获得最高概率k-mer片段对应的碱基占该位点上k-mer片段总数的比值小于低质量占比预设值的位点,标记为低质量位点。需要说明的是,在低质量校正中,k-mer片段的概率采用的是由上述正序统计中计算出来的概率。进一步地,低质量校正包括对低质量位点进行低质量区间校正:将待校正序列上出现两个以上的低质量位点,且两个以上低质量位点之间最大间隔长度小于或等于低质量间隔预设值的区间划分为低质量区间,将低质量区间的序列替换为该区间内出现概率最高的测序片段的序列,得到第二校正序列。如果出现并列最高测序片段的情况,则随机选择。进一步地,将低质量区间的序列替换为该区间内出现概率最高的测序片段的序列具体包括:将多个测序片段排列至第一校正序列上相对应的位置,获得第二排列结果;基于第二排列结果,确定低质量区间内重复次数最多的测序片段,将待校正序列上低质量区间内的序列校正为重复次数最多的测序片段对应的序列,得到第二校正序列。优选地,低质量占比预设值为80%;优选地,低质量间隔预设值小于等于测序片段的长度;优选地,低质量间隔预设值为50碱基。优选地,校正方法还包括将第二校正序列作为待校正序列,进行迭代校正。进一步地,低质量区间的校正具有快速、高效的优点,能够在短时间内大量将可能发生的错误的位点继续校正。在一些优选实施例中,上述校正方法还包括:将与前后相邻低质量位点的间隔距离大于低质量间隔预设值的低质量位点的碱基进行低质量位点校正,获得第三校正序列;优选地,低质量位点校正包括:将与前后相邻低质量位点的间隔距离大于低质量间隔预设值的低质量位点的碱基串联成低质量长序列;将多个测序片段排列至第二校正序列上相对应的位置,挑选出与低质量长序列对应的排列,获得第三排列结果;以k-mer方式对低质量长序列进行划分,得到本文档来自技高网...

【技术保护点】
1.一种序列的校正方法,其特征在于,其包括:将多个测序片段与待校正序列进行比对,将多个所述测序片段排列至所述待校正序列上相对应的位置,获得第一排列结果;以k‑mer方式对所述待校正序列进行划分,得到多个k‑mer片段;基于所述第一排列结果,对所述测序片段进行对应的k‑mer划分;确认每个所述k‑mer片段的最后位点对应的测序片段,基于所述第一排列结果,从正序统计每个所述最后位点上每一种碱基对应的k‑mer片段的概率;从反序,将所述待校正序列上最末碱基替换为获得最高所述概率的k‑mer片段的碱基,根据最末碱基对应的最高概率的k‑mer片段,确认倒数第二位点的碱基;将所述倒数第二位点的碱基作为下一个k‑mer片段的最后位点,根据所述倒数第二位点碱基对应的最高概率的k‑mer片段,确认倒数第三位点的碱基,依次类推,得到第一校正序列。

【技术特征摘要】
1.一种序列的校正方法,其特征在于,其包括:将多个测序片段与待校正序列进行比对,将多个所述测序片段排列至所述待校正序列上相对应的位置,获得第一排列结果;以k-mer方式对所述待校正序列进行划分,得到多个k-mer片段;基于所述第一排列结果,对所述测序片段进行对应的k-mer划分;确认每个所述k-mer片段的最后位点对应的测序片段,基于所述第一排列结果,从正序统计每个所述最后位点上每一种碱基对应的k-mer片段的概率;从反序,将所述待校正序列上最末碱基替换为获得最高所述概率的k-mer片段的碱基,根据最末碱基对应的最高概率的k-mer片段,确认倒数第二位点的碱基;将所述倒数第二位点的碱基作为下一个k-mer片段的最后位点,根据所述倒数第二位点碱基对应的最高概率的k-mer片段,确认倒数第三位点的碱基,依次类推,得到第一校正序列。2.根据权利要求1所述的校正方法,其特征在于,将所述第一校正序列作为所述待校正序列,进行迭代校正。3.根据权利要求1所述的校正方法,其特征在于,所述统计每个所述最后位点上每一种碱基对应的k-mer片段的概率包括:按照计算公式,计算每个所述最后位点上每一种碱基对应的k-mer片段的分值,所述分值越高,所述概率越大,所述计算公式为:score(p,b)=max{score(p-1,b∈{A,T,C,G,-})+countk_mer}-C;其中,p为所述最后位点在待校正序列上的位置,b为碱基A、T、G、C或缺失,score(p,b)为p位置上碱基b的分值,score(p-1,b)为p-1位置上碱基b的分值;countk-mer为该k-mer对应的碱基组合出现的次数;C为k-mer区域的有效测序深度。4.根据权利要求3所述的校正方法,其特征在于,所述以k-mer方式对所述待校正序列进行划分为:以k-mer按照预设值为3的方式对所述待校正序列进行划分。5.根据权利要求1所述的校正方法,其特征在于,所述校正方法还包括低质量校正:所述低质量校正包括:在所述待校正序列上,根据第一排列结果,将每个所述最后位点上,获得最高所述概率的k-mer片段对应的碱基占该位点上k-mer片段总数的比值小于低质量占比预设值的位点,标记为低质量位点;低质量校正包括对所述低质量位点进行区间校正:将所述待校正序列上出现两个以上所述低质量位点,且两个以上所述低质量位点之间最大间隔长度小于或等于低质量间隔预设值的区间划分为低质量区间,将所述低质量区间的序列替换为该区间内出现概率最高的测序片段的序列,得到第二校正序列;优选地,所述将所述低质量区间的序列替换为该区间内出现概率最高的测序片段的序列包括:将多个所述测序片段排列至所述第一校正序列上相对应的位置,获得第二排列结果;基于所述第二排列结果,确定所述低质量区间内重复次数最多的测序片段,将所述待校正序列上所述低质量区间内的序列校正为所述重复次数最多的测序片段对应的序列;优选地,所述低质量占比预设值为80%;优选地,所述低质量间隔预设值小于等于所述测序片段的长度;优选地,所述低质量间隔预设值为50碱基。6.根据权利要求5所述的序列的校正方法,其特征在于,将所述第二校正序列作为所述待校正序列,进行迭代校正。7.根据权利要求5所述的序列的校正方法,其特征在于,所述低质量校正还包括:将与前后相邻所述低质量位点的间隔距离大于所述低质量间隔预设值的低质量位点的碱基进行低质量位点校正,获得第三校正序列;优选地,所述低质量位点校正包括:将所述与前后相邻所述低质量位点的间隔距离大于所述低质量间隔预设值的低质量位点的碱基串联成低质量长序列;将多个所述测序片段排列至所述第二校正序列上相对应的位置,挑选出与所述低质量长序列对应的排列,获得第三排列结果;以k-mer方式对所述低质量长序列进行...

【专利技术属性】
技术研发人员:胡江刘山林汪德鹏
申请(专利权)人:武汉未来组生物科技有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1