【技术实现步骤摘要】
一种序列的校正方法及其校正装置
本专利技术涉及生物信息
,具体而言,涉及一种序列的校正方法及其校正装置。
技术介绍
从1977年,第一代DNA测序技术(Sanger)发展至今三十多年时间,测序技术已经取得了相当大的发展,现有通用的测序技术有:一代测序、二代测序和三代测序。通过测序技术得到的初步结果通常为多个测序片段,其中,二代测序具有准确性高,耗时短的优点,但现有基于二代测序数据的序列校正方法存在耗时长,准确度不高等问题。
技术实现思路
本专利技术提供了一种序列的校正方法,该校正方法能够有效避免或减少现有技术在对待校正序列的校正过程中,出现的耗时长,准确度不高等技术问题。具体地,本申请提供的一种序列的校正方法,其包括:将测序得到的多个测序片段与待校正序列进行比对,将多个测序片段排列至待校正序列上相对应的位置,获得第一排列结果。需要说明的是,多个测序片段可以为二代序列、三代测序或其测序结果优化后的结果,还可以为后续发展的其他测序技术对基因序列的测序结果。待校正序列可以包括任何需要校正的序列,例如,通过使用现有测序技术获得的多个测序片段组装得到的基因序列;多个测序片段组装得到的基因序列的部分有效序列;或校正后的校正序列等。现有测序技术优选为二代或三代测序技术。在本专利技术的优选实施例中,待校正序列包括:测序片段组装后的基因序列、含有低质量区域的序列、含有低覆盖区域的序列、第一校正序列、第二校正序列、第三校正序列或第四校正序列。进一步地,以k-mer的方式对上述待校正序列进行划分,得到多个k-mer片段,基于第一排列结果,对测序片段进行对应的k-mer划分。确 ...
【技术保护点】
1.一种序列的校正方法,其特征在于,其包括:将多个测序片段与待校正序列进行比对,将多个所述测序片段排列至所述待校正序列上相对应的位置,获得第一排列结果;以k‑mer方式对所述待校正序列进行划分,得到多个k‑mer片段;基于所述第一排列结果,对所述测序片段进行对应的k‑mer划分;确认每个所述k‑mer片段的最后位点对应的测序片段,基于所述第一排列结果,从正序统计每个所述最后位点上每一种碱基对应的k‑mer片段的概率;从反序,将所述待校正序列上最末碱基替换为获得最高所述概率的k‑mer片段的碱基,根据最末碱基对应的最高概率的k‑mer片段,确认倒数第二位点的碱基;将所述倒数第二位点的碱基作为下一个k‑mer片段的最后位点,根据所述倒数第二位点碱基对应的最高概率的k‑mer片段,确认倒数第三位点的碱基,依次类推,得到第一校正序列。
【技术特征摘要】
1.一种序列的校正方法,其特征在于,其包括:将多个测序片段与待校正序列进行比对,将多个所述测序片段排列至所述待校正序列上相对应的位置,获得第一排列结果;以k-mer方式对所述待校正序列进行划分,得到多个k-mer片段;基于所述第一排列结果,对所述测序片段进行对应的k-mer划分;确认每个所述k-mer片段的最后位点对应的测序片段,基于所述第一排列结果,从正序统计每个所述最后位点上每一种碱基对应的k-mer片段的概率;从反序,将所述待校正序列上最末碱基替换为获得最高所述概率的k-mer片段的碱基,根据最末碱基对应的最高概率的k-mer片段,确认倒数第二位点的碱基;将所述倒数第二位点的碱基作为下一个k-mer片段的最后位点,根据所述倒数第二位点碱基对应的最高概率的k-mer片段,确认倒数第三位点的碱基,依次类推,得到第一校正序列。2.根据权利要求1所述的校正方法,其特征在于,将所述第一校正序列作为所述待校正序列,进行迭代校正。3.根据权利要求1所述的校正方法,其特征在于,所述统计每个所述最后位点上每一种碱基对应的k-mer片段的概率包括:按照计算公式,计算每个所述最后位点上每一种碱基对应的k-mer片段的分值,所述分值越高,所述概率越大,所述计算公式为:score(p,b)=max{score(p-1,b∈{A,T,C,G,-})+countk_mer}-C;其中,p为所述最后位点在待校正序列上的位置,b为碱基A、T、G、C或缺失,score(p,b)为p位置上碱基b的分值,score(p-1,b)为p-1位置上碱基b的分值;countk-mer为该k-mer对应的碱基组合出现的次数;C为k-mer区域的有效测序深度。4.根据权利要求3所述的校正方法,其特征在于,所述以k-mer方式对所述待校正序列进行划分为:以k-mer按照预设值为3的方式对所述待校正序列进行划分。5.根据权利要求1所述的校正方法,其特征在于,所述校正方法还包括低质量校正:所述低质量校正包括:在所述待校正序列上,根据第一排列结果,将每个所述最后位点上,获得最高所述概率的k-mer片段对应的碱基占该位点上k-mer片段总数的比值小于低质量占比预设值的位点,标记为低质量位点;低质量校正包括对所述低质量位点进行区间校正:将所述待校正序列上出现两个以上所述低质量位点,且两个以上所述低质量位点之间最大间隔长度小于或等于低质量间隔预设值的区间划分为低质量区间,将所述低质量区间的序列替换为该区间内出现概率最高的测序片段的序列,得到第二校正序列;优选地,所述将所述低质量区间的序列替换为该区间内出现概率最高的测序片段的序列包括:将多个所述测序片段排列至所述第一校正序列上相对应的位置,获得第二排列结果;基于所述第二排列结果,确定所述低质量区间内重复次数最多的测序片段,将所述待校正序列上所述低质量区间内的序列校正为所述重复次数最多的测序片段对应的序列;优选地,所述低质量占比预设值为80%;优选地,所述低质量间隔预设值小于等于所述测序片段的长度;优选地,所述低质量间隔预设值为50碱基。6.根据权利要求5所述的序列的校正方法,其特征在于,将所述第二校正序列作为所述待校正序列,进行迭代校正。7.根据权利要求5所述的序列的校正方法,其特征在于,所述低质量校正还包括:将与前后相邻所述低质量位点的间隔距离大于所述低质量间隔预设值的低质量位点的碱基进行低质量位点校正,获得第三校正序列;优选地,所述低质量位点校正包括:将所述与前后相邻所述低质量位点的间隔距离大于所述低质量间隔预设值的低质量位点的碱基串联成低质量长序列;将多个所述测序片段排列至所述第二校正序列上相对应的位置,挑选出与所述低质量长序列对应的排列,获得第三排列结果;以k-mer方式对所述低质量长序列进行...
【专利技术属性】
技术研发人员:胡江,刘山林,汪德鹏,
申请(专利权)人:武汉未来组生物科技有限公司,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。