【技术实现步骤摘要】
一种优化的kraken2算法及其在二代测序中的应用
[0001]本专利技术涉及生物信息学领域,特别是涉及一种优化的kraken2算法及其在二代测序中的应用。
技术介绍
[0002]宏基因组群落复杂庞大,需要对大量的DNA进行测序,Illumina二代测序技术是一种大规模平行测序技术,具有通量高,测序准确度高,时效短等特点,正好完美的匹配了宏基因组学的需求,成就了宏基因组学在感染检测的广泛应用。
[0003]测序之后微生物群落的物种检测,是宏基因组学研究中的最为重要工作,只有准确可靠地对微生物群落进行精确定位,才能关联宏基因组与研究的关联,比如研究患者的发病是否是某种微生物感染(如某个人怀疑是疟疾,那么需要准确地检测出其血液中存在疟原虫才能最终给出明确诊断),宏基因组分析是一种快速,准确,先进的检测技术,目前在感染类疾病辅助诊断中发挥了重要作用。
[0004]Kraken2应用于Illumina二代宏基因组测序,具有分析速度快,灵敏度高的特点,但是特异度较低,往往会检测出很多假阳性结果,这是因为kraken2算法的特点。根据taxid与seqid关系,对选取的参考基因组序列快速构建固定长度的kmers(默认为35bp的读长),优先构建某个层级的特异kmers,比如肺炎链球菌Streptococcus pneumoniae,kraken2会优先构建该物种的特异kmers,而链球菌属Streptococcus多个物种也存在某个kmer,则将该kmer定位到链球菌属下,同样的原理,某个kmer存在于链球菌科S ...
【技术保护点】
【技术特征摘要】
1.一种生信分析方法,其特征在于,包括如下步骤:1)序列比对:NGS测序数据使用kraken2进行序列比对,获得每条序列taxid
‑
kmer结果;2)基于taxonomy数据库建立taxid层级关系:根据步骤1)taxid
‑
kmer结果关联taxonomy层级,根据定位规则重定位taxid;3)计算每条序列kmer score:根据每条序列经过步骤2)重定位的taxid和步骤1)的taxid
‑
kmer结果计算每条序列kmer score;4)对比对结果进行整体计算:根据kmer score和taxonomy层级进行整体计算。2.权利要求1所述的生信分析方法,其特征在于,所述方法进一步包括:5)物种taxid检测:根据4)的整体计算结果进行物种taxid检测。3.权利要求1
‑
2任一所述的生信分析方法,其特征在于,所述步骤2)中层级关系包括血清型/亚型、种、属、科的一种或多种。4.权利要求1
‑
3任一所述的生信分析方法,其特征在于,所述步骤3)中所述kmer score计算规则如下:最终定位到科层级taxid以下的序列,kmer score=(科taxid kmers+属taxid kmers+种taxid kmers+亚型/血清型taxid kmers)/总kmers;最终定位到科层级taxid以上的序列,kmer score为0。5.权利要求1
‑
4任一所述的生信分析方法,其特征在于,所述步骤2)中重定位规则包括:通常情况下接受kraken2给出的taxid定位,以下情况进行重定位:某条序列根据taxid
‑
kmer结果获得唯一taxid且taxid低于种层级,则定位为该taxid所属的种层级taxid;某条序列根据taxid
‑
kmer结果获得超过2个taxid时,分3种情况:所有taxid,关联到种层级上只出现1个,其他taxid属于该种的血清型/亚型、属、或科层级,则定位到该种层级taxid;所有taxid,关联到种层级超过2个且属于同一属,则最终定位到属层级taxid;所有taxid,关联到属层级超过2个且属于同一科,则最终定位到科层级taxid。6.权利要求1
‑
5任一所述的生信分析方法,其特征在于,所述步骤4)中整体计算包括:a、设定一个过滤cutoff阈值,对每条序列根据...
【专利技术属性】
技术研发人员:张岩,李振中,任用,李诗濛,郭昊,梁相志,陈莉,戴岩,李珊,顾菊,
申请(专利权)人:江苏先声医疗器械有限公司南京先声诊断技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。