一种宏基因组多重比对序列重分配的方法及应用技术

技术编号:37295061 阅读:44 留言:0更新日期:2023-04-21 22:41
本申请属于生信分析技术领域,具体涉及一种宏基因组多重比对序列重分配方法及应用。所述方法对宏基因组测序数据快速分类,基于分类树报告提取小宏基因组参考序列数据库,通过快速比对划分最小分类单元及比对序列独立子集,模拟计算唯一比对率,构建多重比对序列重分配概率模型,进而实现快速准确的物种序列丰度评估。估。估。

【技术实现步骤摘要】
一种宏基因组多重比对序列重分配的方法及应用


本申请属于生物信息学
,具体涉及一种宏基因组多重比对序列重分配的方法及应用。
技术背景
宏基因组测序(metagenomics next generation sequencing,mNGS)是一种不依赖于培养,通过无偏采样,快速准确检测病原体的新型诊断技术。在检测不明原因,难培养及共感染病原体中,mNGS具有明显优势,是未来十年病原检测领域重要工具。物种鉴定和丰度估计是mNGS生物信息学分析关键环节,其准确性直接影响病原检测的灵敏度和特异度。由于mNGS病原比对数据库为宏参考基因组,比对结果中包含大量多重比对序列,因此,对多重比对序列进行有效重分配既是mNGS生信分析的重难点,也是病原检测效能提升的优化点。目前,常用物种鉴定和丰度估计方法包括:Blast,Kraken2+Bracken,MetaPhIAn2等。其中Blast方法基于局部比对,准确度高,但运行效率低,无多重比对序列重分配功能;Kraken2基于Kmer和LCA映射,运行效率高,但在物种水平的分辨率低,大量多重比对序列被标识到物种本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种宏基因组多重比对序列重分配的方法,其特征在于,包括如下步骤:1)快速分类:基于参考序列数据库,对宏基因组测序数据进行快速分类,得到分类树报告;2)提取小库:基于分类树报告,从完整宏基因组参考序列数据库中提取目标参考序列,得到小宏基因组参考序列数据库;3)快速比对:基于小宏基因组参考序列数据库,对宏基因组测序数据进行快速比对,得到序列比对信息;4)划分子集:基于序列比对信息,划分最小分类单元和比对序列均封闭的独立子集;5)构建模型:基于小宏基因组参考序列数据库和独立子集,模拟计算独立子集内每个最小分类单元唯一比对率,构建多重比对序列重分配概率模型;6)序列重分配:基于多重比对序列重分配概率模型和序列比对信息,计算每条多重比对序列后验分配概率,将后验分配概率作为随机函数参数为该条序列重分配最小分类单元标识;优选的,还包括如下步骤:步骤7)丰度估计:基于唯一比对序列和多重比对序列重分配结果评估物种丰度。2.权利要求1所述的宏基因组多重比对序列重分配方法及应用,其特征在于,所述1)中,所述快速分类采用Kraken2对宏基因组测序数据进行快速分类;优选的,所述参考序列数据库为完整宏基因组参考序列数据库;所述完整宏基因组参考序列数据库为去冗余去低质量的nt数据库+专业病毒库+专业寄生虫库。3.权利要求1

2任一所述的方法,其特征在于,所述2)中,所述提取是按照宏基因组参考序列纳入标准进行提取;优选的,所述参考序列纳入标准包括:a、分类树报告中列出的所有物种在完整宏基因组参考序列数据库中收录的参考序列;b、分类树报告中列出的所有物种所包含的所有物种亚型,血清型和株在完整宏基因组参考序列数据库中收录的参考序列;c、分类树报告中列出的未分配序列数>1000的科所包含的所有物种、物种亚型、血清型和株在完整宏基因组参考序列数据库中收录的参考序列;d、分类树报告中列出的未分配序列数>100的属所包含的所有物种、物种亚型、血清型和株在完整宏基因组参考序列数据库中收录的参考序列。4.权利要求1

3任一所述的方法,其特征在于,所述3)中,所述比对为采用minimap2对宏基因组测序数据进行快速比对,得到序列比对信息;优选的,所述序列比对信息包括:a、序列比对的结果,包括比对序列名称、参考序列名称...

【专利技术属性】
技术研发人员:宋纯张岩郭祖乐刘俊锋郭昊李诗濛任用
申请(专利权)人:江苏先声医学诊断有限公司南京先声诊断技术有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1