一种优化的kraken2算法及其在二代测序中的应用制造技术

技术编号:30436243 阅读:45 留言:0更新日期:2021-10-24 17:37
本发明专利技术提供了一种基于kraken2单条序列kmer评分和整体基于taxonomy结构统计的生信分析方法,所述方法能够降低生信分析假阳性,提高物种检测准确度,适用于二代宏基因组测序分析。分析。分析。

【技术实现步骤摘要】
一种优化的kraken2算法及其在二代测序中的应用


[0001]本专利技术涉及生物信息学领域,特别是涉及一种优化的kraken2算法及其在二代测序中的应用。

技术介绍

[0002]宏基因组群落复杂庞大,需要对大量的DNA进行测序,Illumina二代测序技术是一种大规模平行测序技术,具有通量高,测序准确度高,时效短等特点,正好完美的匹配了宏基因组学的需求,成就了宏基因组学在感染检测的广泛应用。
[0003]测序之后微生物群落的物种检测,是宏基因组学研究中的最为重要工作,只有准确可靠地对微生物群落进行精确定位,才能关联宏基因组与研究的关联,比如研究患者的发病是否是某种微生物感染(如某个人怀疑是疟疾,那么需要准确地检测出其血液中存在疟原虫才能最终给出明确诊断),宏基因组分析是一种快速,准确,先进的检测技术,目前在感染类疾病辅助诊断中发挥了重要作用。
[0004]Kraken2应用于Illumina二代宏基因组测序,具有分析速度快,灵敏度高的特点,但是特异度较低,往往会检测出很多假阳性结果,这是因为kraken2算法的特点。根据taxid与seqid关系,对选取的参考基因组序列快速构建固定长度的kmers(默认为35bp的读长),优先构建某个层级的特异kmers,比如肺炎链球菌Streptococcus pneumoniae,kraken2会优先构建该物种的特异kmers,而链球菌属Streptococcus多个物种也存在某个kmer,则将该kmer定位到链球菌属下,同样的原理,某个kmer存在于链球菌科Streptococcaceae下多个属,则将该kmer定位在链球菌科下。鉴于kraken2的算法,对于某种DNA序列较高的微生物,虽然会有一定的概率会发生错误比对,但是基本上不会干扰该物种的检出。由于二代测序具有读长短的特点,因此很容易出现序列发生错误比对,或者无法精确比对(比如某条来自肺炎链球菌的序列,错误比对到Streptococcus mitis,或者只能比对到Streptococcus属层级),这是影响物种检测准确度的最重要因素。
[0005]除此之外,由于数据库包含的序列很多,比如质粒/载体等也在内,因此比对这部分比对的结果也会给出输出,这部分结果基本上是无意义的(也可以算作假阳性检出)。
[0006]鉴于此,提出本专利技术。

技术实现思路

[0007]本专利技术的目的是寻求一种能够降低测序分析假阳性,能够提高物种检测的准确度,适用于Illumina二代宏基因组测序的生信分析方法。
[0008]为实现上述目的,本专利技术提出如下技术方案:
[0009]本专利技术首先提供了一种基于kraken2单条序列kmer评分和整体基于taxonomy结构统计的生信分析方法,所述方法包括如下步骤:
[0010]1)NGS测序数据使用kraken2进行序列比对,得到每条序列的taxid

kmer结果;
[0011]2)基于taxonomy数据库建立taxid的层级关系,根据步骤1)taxid

kmer结果获得
taxid,并关联taxonomy层级,再根据定位规则重定位taxid;
[0012]3)根据每条序列经过步骤2)定位的taxid和步骤1)的taxid

kmer比对结果,计算每条序列的kmer score;
[0013]4)根据kmer score和taxonomy层级,对比对结果进行整体计算;
[0014]进一步的,还包括
[0015]5)根据4)的整体计算结果进行物种层级检测。
[0016]进一步的,所述步骤2)中层级关系包括血清型/亚型、种、属和/或科的一种或多种层级关系。
[0017]进一步的,所述步骤2)中定位规则包括如下:
[0018]通常情况下接受kraken2给出的taxid定位,以下情况除外:
[0019]某条序列根据taxid

kmer结果获得唯一taxid且taxid低于种层级,则定位为该taxid所属的种层级taxid;
[0020]某条序列根据taxid

kmer结果获得超过2个taxid时,分3种情况:
[0021]所有taxid,关联到种层级上只出现1个,其他taxid属于该种的血清型/亚型、属、科层级,则定位到该种层级taxid;
[0022]所有taxid,关联到种层级超过2个且属于同一属,则最终定位到属层级taxid;
[0023]所有taxid,关联到属层级超过2个(属层级没有分类也在内)且属于同一科,则最终定位到科层级taxid;
[0024]进一步的,所述步骤3)中所述计算的规则包括:
[0025]最终定位到科层级taxid以下的序列,其kmer score=(科taxid kmers+属taxid kmers+种taxid kmers+亚型/血清型taxid kmers)/总kmers;
[0026]最终定位到科层级taxid以上的序列,kmer score设定为0。
[0027]进一步的,所述步骤4)中整体计算包括:
[0028]a、设定一个过滤cutoff阈值,对每条序列根据kmer score进行过滤;
[0029]b、对a中经过过滤的序列,统计taxid的reads;
[0030]所述taxid的reads是一个样本出现的taxid的序列总数;
[0031]c、设定一个过滤阈值threshold,对b中定位到种层级的taxid进行过滤,计算其属相对比值,排除低于阈值的种层级taxid;
[0032]所述属相对比值为某个种层级taxid reads相对于同属reads最高的种层级taxid reads的比值;
[0033]进一步的,还包括:
[0034]d、经c过滤的种层级taxid,若缺乏属分类,则计算科相对比值,排除低于过滤阈值threshold种层级taxid;
[0035]所述科相对比值为某个种层级taxid reads相对于同科reads最高的种层级taxid reads的比值;
[0036]更进一步的,还包括:
[0037]e、经c,d过滤保留的种层级taxid reads校正1,计算属相对比值,将属层级taxid reads按照属相对比值计算种层级taxid属校正reads;
[0038]所述属相对比值为经c,d过滤后同属的种层级taxid reads总和,之后计算各种层
级taxid reads相对于总和的比例;
[0039]所述属层级taxid reads包括b中属层级taxid reads和c中未通过过滤阈值threshold的该属关联种层级taxid并入的reads;
[0040]f、经c,d过滤的种层级taxid reads校正2,计算科相对比值,将科层级taxid reads本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种生信分析方法,其特征在于,包括如下步骤:1)序列比对:NGS测序数据使用kraken2进行序列比对,获得每条序列taxid

kmer结果;2)基于taxonomy数据库建立taxid层级关系:根据步骤1)taxid

kmer结果关联taxonomy层级,根据定位规则重定位taxid;3)计算每条序列kmer score:根据每条序列经过步骤2)重定位的taxid和步骤1)的taxid

kmer结果计算每条序列kmer score;4)对比对结果进行整体计算:根据kmer score和taxonomy层级进行整体计算。2.权利要求1所述的生信分析方法,其特征在于,所述方法进一步包括:5)物种taxid检测:根据4)的整体计算结果进行物种taxid检测。3.权利要求1

2任一所述的生信分析方法,其特征在于,所述步骤2)中层级关系包括血清型/亚型、种、属、科的一种或多种。4.权利要求1

3任一所述的生信分析方法,其特征在于,所述步骤3)中所述kmer score计算规则如下:最终定位到科层级taxid以下的序列,kmer score=(科taxid kmers+属taxid kmers+种taxid kmers+亚型/血清型taxid kmers)/总kmers;最终定位到科层级taxid以上的序列,kmer score为0。5.权利要求1

4任一所述的生信分析方法,其特征在于,所述步骤2)中重定位规则包括:通常情况下接受kraken2给出的taxid定位,以下情况进行重定位:某条序列根据taxid

kmer结果获得唯一taxid且taxid低于种层级,则定位为该taxid所属的种层级taxid;某条序列根据taxid

kmer结果获得超过2个taxid时,分3种情况:所有taxid,关联到种层级上只出现1个,其他taxid属于该种的血清型/亚型、属、或科层级,则定位到该种层级taxid;所有taxid,关联到种层级超过2个且属于同一属,则最终定位到属层级taxid;所有taxid,关联到属层级超过2个且属于同一科,则最终定位到科层级taxid。6.权利要求1

5任一所述的生信分析方法,其特征在于,所述步骤4)中整体计算包括:a、设定一个过滤cutoff阈值,对每条序列根据...

【专利技术属性】
技术研发人员:张岩李振中任用李诗濛郭昊梁相志陈莉戴岩李珊顾菊
申请(专利权)人:江苏先声医疗器械有限公司南京先声诊断技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1