一种宏基因组多重比对序列重分配的方法及应用技术

技术编号:37295061 阅读:37 留言:0更新日期:2023-04-21 22:41
本申请属于生信分析技术领域,具体涉及一种宏基因组多重比对序列重分配方法及应用。所述方法对宏基因组测序数据快速分类,基于分类树报告提取小宏基因组参考序列数据库,通过快速比对划分最小分类单元及比对序列独立子集,模拟计算唯一比对率,构建多重比对序列重分配概率模型,进而实现快速准确的物种序列丰度评估。估。估。

【技术实现步骤摘要】
一种宏基因组多重比对序列重分配的方法及应用


本申请属于生物信息学
,具体涉及一种宏基因组多重比对序列重分配的方法及应用。
技术背景
宏基因组测序(metagenomics next generation sequencing,mNGS)是一种不依赖于培养,通过无偏采样,快速准确检测病原体的新型诊断技术。在检测不明原因,难培养及共感染病原体中,mNGS具有明显优势,是未来十年病原检测领域重要工具。物种鉴定和丰度估计是mNGS生物信息学分析关键环节,其准确性直接影响病原检测的灵敏度和特异度。由于mNGS病原比对数据库为宏参考基因组,比对结果中包含大量多重比对序列,因此,对多重比对序列进行有效重分配既是mNGS生信分析的重难点,也是病原检测效能提升的优化点。目前,常用物种鉴定和丰度估计方法包括:Blast,Kraken2+Bracken,MetaPhIAn2等。其中Blast方法基于局部比对,准确度高,但运行效率低,无多重比对序列重分配功能;Kraken2基于Kmer和LCA映射,运行效率高,但在物种水平的分辨率低,大量多重比对序列被标识到物种水平之上;Bracken序列丰度重估计模块存在一定缺陷,如:对低丰度或无唯一比对序列的物种会出现漏检,自下而上(株到种水平)序列重分配不依赖于概率分配模型;MetaPhIAn2仅依赖于Marker基因序列,特异度高,但灵敏度低。因此,充分挖掘宏基因组参考序列数据库和mNGS唯一比对序列信息,对多重比对序列进行重分配,可有效提高物种鉴定和丰度估计准确性。鉴于此,提出本申请。/>
技术实现思路

为解决上述技术问题,本申请通过生物信息学分析研究,建立一套宏基因组多重比对序列重分配方法,该方法可显著提高物种鉴定和丰度估计的准确性,有效提升病原检测效能。具体的,本申请提出如下技术方案:本申请首先提供一种宏基因组多重比对序列重分配的方法,包括如下步骤:1)快速分类:基于参考序列数据库,对宏基因组测序数据进行快速分类,得到分类树报告;2)提取小库:基于分类树报告,从完整宏基因组参考序列数据库中提取目标参考序列,得到小宏基因组参考序列数据库;3)快速比对:基于小宏基因组参考序列数据库,对宏基因组测序数据进行快速比对,得到序列比对信息;4)划分子集:基于序列比对信息,划分最小分类单元和比对序列均封闭的独立子集;
5)构建模型:基于小宏基因组参考序列数据库和独立子集,模拟计算独立子集内每个最小分类单元唯一比对率,构建多重比对序列重分配概率模型;6)序列重分配:基于多重比对序列重分配概率模型和序列比对信息,计算每条多重比对序列后验分配概率,将后验分配概率作为随机函数参数为该条序列重分配最小分类单元标识;优选的,该方法还包括如下步骤:步骤7)丰度估计:基于唯一比对序列和多重比对序列重分配结果评估物种丰度。进一步的,所述1)具体为:基于完整宏基因组参考序列数据库,采用Kraken2对宏基因组测序数据进行快速分类,得到分类树报告;优选的,所述参考序列数据库为完整宏基因组参考序列数据库;所述完整宏基因组参考序列数据库为去冗余去低质量的nt数据库+专业病毒库+专业寄生虫库。更优选的,所述宏基因组测序数据为去除人源序列,以及去出低质量序列后的测序数据;进一步的,所述Kraken2参数优选设置为confidence=0.5;更优选的,所述Kraken2分类树报告信息包括:各分类层级水平分类树信息(分类名称,分类编号),分类到该层级水平及以下的总序列数,分类到该层级水平的序列数以及分类到该层级水平以下的序列数。进一步的,所述2)中,所述提取是按照宏基因组参考序列纳入标准进行提取;优选的,所述参考序列纳入标准包括:a、分类树报告中列出的所有物种在完整宏基因组参考序列数据库中收录的参考序列;b、上述列出的所有物种所包含的所有物种亚型,血清型和株在完整宏基因组参考序列数据库中收录的参考序列;c、分类树报告中列出的未分配序列数>1000的科所包含的所有物种,物种亚型,血清型和株在完整宏基因组参考序列数据库中收录的参考序列;d、分类树报告中列出的未分配序列数>100的属所包含的所有物种,物种亚型,血清型和株在完整宏基因组参考序列数据库中收录的参考序列。进一步的,所述3)中的比对为采用minimap2对宏基因组测序数据进行快速比对;优选的,所述序列比对信息包括:a、序列比对的结果,包括:比对序列名称、参考序列名称、最小分类单元名称、比对位置、比对质量、详细比对信息;b、最小分类单元,包括:物种、物种亚型、血清型和株。进一步的,所述4)中的独立子集包括以下任一或多个特点:a、独立子集与独立子集间最小分类单元无交集;b、独立子集与独立子集间序列无交集;c、所有独立子集的并集为序列比对信息。所述步骤4)中,划分子集的规则为最小分类单元和比对序列均封闭,子集的划分依赖于序列比对信息,与分类树结构无关。进一步的,所述5)中所述模拟计算包括以下步骤:
a、提取独立子集内每个最小分类单元的参考序列,生成独立子集参考序列数据库;b、基于独立子集参考序列数据库模拟生成测序序列;c、通过minimap2将模拟序列比对到独立子集内最小分类单元的参考序列上,得到独立子集内模拟序列的序列比对结果;d、基于模拟序列的比对结果,计算独立子集内每个最小分类单元的唯一比对率。进一步的,所述5)中构建包括以下任一或多个特点:a、在每个独立子集内建模;b、基于唯一比对序列和唯一比对率估计独立子集中每个最小分类单元的序列丰度;c、基于唯一比对率和每个最小分类单元的丰度估计每个最小分类单元的多重比对序列丰度;d、每个最小分类单元的多重比对序列丰度作为先验重分配概率;e、基于每条多重比对序列的比对结果生成每个最小分类单元的观察值概率;f、基于先验重分配概率和观察值概率,构建多重比对序列重分配概率模型。进一步的,所述7)中的估计包括如下步骤:a、先估计每个最小分类单元的序列丰度,即唯一比对序列数与多重比对重分配序列数之和;b、基于分类树构建最小分类单元的层次关系,每个层次关系的根节点为物种;在物种水平统计序列丰度,作为物种序列丰度输出结果。本申请还提供一种宏基因组多重比对序列重分配的系统,包括如下组件:组件1)快速分类组件:用于基于完整宏基因组参考序列数据库,采用Kraken2对宏基因组测序数据进行快速分类,得到分类树报告;组件2)提取小库组件:用于基于分类树报告,从完整宏基因组参考序列数据库中提取目标参考序列,得到小宏基因组参考序列数据库;组件3)快速比对组件:用于基于小宏基因组参考序列数据库,对宏基因组测序数据进行快速比对,得到序列比对信息;组件4)划分子集组件:用于基于序列比对信息,划分最小分类单元和比对序列均封闭的独立子集;组件5)构建模型组件:用于基于小宏基因组参考序列数据库和独立子集,模拟计算独立子集内每个最小分类单元唯一比对率,构建多重比对序列重分配概率模型;组件6)序列重分配组件:用于基于多重比对序列重分配概率模型和序列比对信息,计算每条多重比对序列后验分配概率,将后验分配概率作为随机函数参数为该条序列重分配最小分类单元标识;优选的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种宏基因组多重比对序列重分配的方法,其特征在于,包括如下步骤:1)快速分类:基于参考序列数据库,对宏基因组测序数据进行快速分类,得到分类树报告;2)提取小库:基于分类树报告,从完整宏基因组参考序列数据库中提取目标参考序列,得到小宏基因组参考序列数据库;3)快速比对:基于小宏基因组参考序列数据库,对宏基因组测序数据进行快速比对,得到序列比对信息;4)划分子集:基于序列比对信息,划分最小分类单元和比对序列均封闭的独立子集;5)构建模型:基于小宏基因组参考序列数据库和独立子集,模拟计算独立子集内每个最小分类单元唯一比对率,构建多重比对序列重分配概率模型;6)序列重分配:基于多重比对序列重分配概率模型和序列比对信息,计算每条多重比对序列后验分配概率,将后验分配概率作为随机函数参数为该条序列重分配最小分类单元标识;优选的,还包括如下步骤:步骤7)丰度估计:基于唯一比对序列和多重比对序列重分配结果评估物种丰度。2.权利要求1所述的宏基因组多重比对序列重分配方法及应用,其特征在于,所述1)中,所述快速分类采用Kraken2对宏基因组测序数据进行快速分类;优选的,所述参考序列数据库为完整宏基因组参考序列数据库;所述完整宏基因组参考序列数据库为去冗余去低质量的nt数据库+专业病毒库+专业寄生虫库。3.权利要求1

2任一所述的方法,其特征在于,所述2)中,所述提取是按照宏基因组参考序列纳入标准进行提取;优选的,所述参考序列纳入标准包括:a、分类树报告中列出的所有物种在完整宏基因组参考序列数据库中收录的参考序列;b、分类树报告中列出的所有物种所包含的所有物种亚型,血清型和株在完整宏基因组参考序列数据库中收录的参考序列;c、分类树报告中列出的未分配序列数>1000的科所包含的所有物种、物种亚型、血清型和株在完整宏基因组参考序列数据库中收录的参考序列;d、分类树报告中列出的未分配序列数>100的属所包含的所有物种、物种亚型、血清型和株在完整宏基因组参考序列数据库中收录的参考序列。4.权利要求1

3任一所述的方法,其特征在于,所述3)中,所述比对为采用minimap2对宏基因组测序数据进行快速比对,得到序列比对信息;优选的,所述序列比对信息包括:a、序列比对的结果,包括比对序列名称、参考序列名称...

【专利技术属性】
技术研发人员:宋纯张岩郭祖乐刘俊锋郭昊李诗濛任用
申请(专利权)人:江苏先声医学诊断有限公司南京先声诊断技术有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1