一种宏基因组测序数据物种验证的方法及应用技术

技术编号:38054259 阅读:7 留言:0更新日期:2023-06-30 11:20
本申请属于生信分析技术领域,具体涉及一种宏基因组测序数据物种验证的方法及应用。所述方法通过精确序列比对计算待验证物种的多个参考基因组比对指标,基于最大可能性原则筛选候选参考基因组及比对指标的极大似然估计,采用固定步长滑动窗口计算基因组不同区域间序列分布的基尼系数,生成可变长度滑动窗口计算基因组全长范围内序列分布的可信度和不可信度,进而对宏基因组测序数据中待验证物种进行综合评估。此外,本申请基于待验证物种各亚型比对指标、基尼系数、唯一比对序列占比,可进一步构建物种亚型概率模型并对各亚型进行统计推断。计推断。计推断。

【技术实现步骤摘要】
一种宏基因组测序数据物种验证的方法及应用


[0001]本申请属于生物信息学
,具体涉及一种宏基因组测序数据物种验证的方法及应用。
技术背景
[0002]宏基因组测序(metagenomics next generation sequencing,mNGS)是一种新型病原检测工具,在检测不明原因,难培养及共感染病原体中具有显著优势。
[0003]由于mNGS的参考序列数据库中物种类别数以万计,mNGS检测结果中可出现大量可疑或候选物种。病原培养和或定量PCR是验证候选物种的金标准,但通量低,个别病原可能会难培养,极大限制了其应用。
[0004]目前,在生物信息学层面上对mNGS检测结果中候选物种进行验证的常用方法是比对到代表性参考基因组,计算覆盖度和平均深度,绘制深度覆盖图,最后人工判读。由于序列比对过程中所选物种的代表性参考基因组通常为NCBI官网上标识为representative或reference的单个基因组,而对于真实样本mNGS数据中待验证的物种,该“代表性”的单个基因组不一定具有“代表性”。其次,覆盖度和平均深度是衡量物种可信度的宏观指标,缺乏对候选物种序列分布的精细表征和量化,如:mNGS数据在物种参考基因组各区域范围内序列分布的集中和离散特征、序列分布不均、可信度和不可信度的精确度量。最后,人工判读环节会存在一定的主观性,而且效率较低。
[0005]因此,对mNGS的检测结果中的候选物种进行系统全面的生物信息学验证,可有效减少假阳性,提高mNGS检测的特异度和准确性。另外,对宏基因组测序数据物种验证的方法还可用于物种亚型鉴定,扩展了其应用价值。
[0006]鉴于此,提出本申请。

技术实现思路

[0007]为解决上述技术问题,本申请通过生物信息学分析研究,建立一套宏基因组测序数据物种验证的方法,该方法可有效减少mNGS检测结果假阳性,提高特异度和准确性,提升病原检测效能,并且可扩展应用于物种亚型的鉴定。
[0008]具体的,本申请提出如下技术方案:
[0009]本申请首先提供一种宏基因组测序数据物种验证方法,所述方法包括如下步骤:
[0010]1)比对输入序列:将宏基因组测序数据分别比对到待验证物种的多个参考基因组;
[0011]2)计算比对指标,比对指标包括:序列总数、平均深度、覆盖区域和覆盖度;
[0012]3)构建打分模型:基于比对指标的统计量,构建概率打分模型;
[0013]4)筛选候选参考基因组:基于最大可能性原则和概率打分模型,筛选候选参考基因组;
[0014]5)计算候选参考基因组的基尼系数:基于候选参考基因组的比对结果,计算候选
参考基因组不同区域间序列分布的基尼系数;
[0015]6)计算候选参考基因组比对结果的可信度:基于候选参考基因组的比对结果,计算候选参考基因组比对结果的可信度和不可信度;
[0016]优选的,所述方法还包括如下步骤:
[0017]7)生成验证报告:基于候选参考基因组、比对指标、基尼系数、可信度及不可信度,对待定物种进行综合判定,生成验证报告。
[0018]进一步的,所述1)中:
[0019]所述宏基因组测序数据为去人源的宏基因组测序数据;
[0020]进一步优选的,所述比对采用bwa

mem

2精确比对到待验证物种多个参考基因组上;
[0021]更进一步优选的,所述多个参考基因组具有如下特点:
[0022]a、refgene、genebank及fda

argos官网上下载的高质量组装基因组;
[0023]b、参考基因组为近期上传的前10个或20个参考基因组;
[0024]c、包括标识为representative和reference的参考基因组;
[0025]d、包括物种常见的各个亚型。
[0026]进一步的,所述2)具体为:基于比对结果计算比对到各个参考基因组的序列总数、平均深度、覆盖区域和覆盖度;
[0027]进一步优选的,所述比对指标分别定义如下:
[0028]e、序列总数:精确比对到各个参考基因组上的序列数;
[0029]f、平均深度:各个参考基因组上平均每个碱基被覆盖的次数;
[0030]g、覆盖区域:各个参考基因组上有序列覆盖的区域长度;
[0031]h、覆盖度:各个参考基因组上有序列覆盖的区域长度占比。
[0032]进一步的,所述3)具体为:对各参考基因组的序列总数、平均深度、覆盖区域及覆盖度进行排序、加权、求和、取倒和归一化,计算统计量,构建概率打分模型;
[0033]进一步优选的,所述概率打分模型为:
[0034][0035]其中,G:参考基因组,n:参考基因组个数,i=1,2,3,...,n,j=1,2,3,...,n,Rank:各参考基因组各指标排序后的名次;
[0036]更进一步优选的,所述概率打分模型的构建步骤具体包括以下:
[0037]a、提取比对到各个参考基因组的序列总数、平均深度、覆盖区域和覆盖度信息;
[0038]b、分别对序列总数、平均深度、覆盖区域和覆盖度按由大到小进行排序,得到各个参考基因上述四个比对指标上的排名,分别记为:Rank_reads(Gi)、Rank_depth(Gi)、Rank_range(Gi)和Rank_coverage(Gi);
[0039]c、依次经过加权、求和、取倒和归一化转换,构建概率打分模型。
[0040]进一步的,所述4)具体为:基于最大可能性原则和概率打分模型,筛选候选参考基因组,提取比对到该参考基因组上的序列总数、平均深度、覆盖区域及覆盖度,作为该待验证物种比对指标的极大似然估计;
[0041]进一步优选的,所述极大似然估计的具体步骤包括:
[0042]a、确定物种的候选参考基因组Gx,其中x=argmax(P(Gi)),即P(Gi)取最大值时参考基因组的编号;
[0043]b、待验证物种以Gx为候选参考基因组时,将输入序列精确比对到Gx得到的序列总数、平均深度、覆盖区域和覆盖度作为待验证物种比对指标的极大似然估计。
[0044]进一步的,所述5)中,所述计算是采用固定步长滑动窗口计算候选参考基因组不同区域间序列分布的基尼系数;
[0045]进一步优选的,所述步骤5)具体为:基于候选参考基因组的比对结果,创建固定步长的滑动窗口,分别计算候选参考基因组各个滑动窗口的序列分布、滑动窗口累积百分比、滑动窗口累积序列百分比,绘制洛伦兹曲线,计算基尼系数,作为基因组不同区域序列分布不均匀程度的统计指标;
[0046]更进一步优选的,所述基尼系数的计算具体步骤包括:
[0047]a、基于候选参考基因组比对结果,计算每个碱基位置的深度;
[0048]b、按固定步长,默认设置为2kb,在候选基因组范围内本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种宏基因组测序数据物种验证方法,其特征在于,包括如下步骤:1)比对输入序列:将宏基因组测序数据分别比对到待验证物种的多个参考基因组;2)计算比对指标,比对指标包括:序列总数、平均深度、覆盖区域和覆盖度;3)构建打分模型:基于比对指标的统计量,构建概率打分模型;4)筛选候选参考基因组:基于最大可能性原则和概率打分模型,筛选候选参考基因组;5)计算候选参考基因组的基尼系数:基于候选参考基因组的比对结果,计算候选参考基因组不同区域间序列分布的基尼系数;6)计算候选参考基因组比对结果的可信度:基于候选参考基因组的比对结果,计算候选参考基因组比对结果的可信度和不可信度;优选的,所述方法还包括如下步骤:7)生成验证报告;更优选的,所述生成验证报告为:基于候选参考基因组、比对指标、基尼系数、可信度及不可信度,对待定物种进行综合判定,生成验证报告。2.根据权利要求1所述的方法,其特征在于,所述1)中:所述宏基因组测序数据为去人源的宏基因组测序数据;优选的,所述比对采用bwa

mem

2精确比对到多个参考基因组上。3.根据权利要求1

2任一所述的方法,其特征在于,所述2)具体为:基于比对结果计算比对到各个参考基因组的序列总数、平均深度、覆盖区域和覆盖度;优选的,所述比对指标分别定义如下:a、序列总数:精确比对到各个参考基因组上的序列数;b、平均深度:各个参考基因组上平均每个碱基被覆盖的次数;c、覆盖区域:各个参考基因组上有序列覆盖的区域长度;d、覆盖度:各个参考基因组上有序列覆盖的区域长度占比。4.根据权利要求1

3任一所述的方法,其特征在于,所述3)具体为:对各参考基因组的序列总数、平均深度、覆盖区域及覆盖度进行排序、加权、求和、取倒和归一化,计算统计量,构建概率打分模型;优选的,所述概率打分模型为:其中,G:参考基因组,n:参考基因组个数,i=1,2,3,...,n,j=1,2,3,...,n,Rank:各参考基...

【专利技术属性】
技术研发人员:宋纯郭祖乐张春辉程彪刘俊锋郭昊李诗濛任用
申请(专利权)人:北京先声医学检验实验室有限公司江苏先声诊断医疗器械有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1