一种基于纳米孔测序数据的病原宏基因组分析方法技术

技术编号:38746559 阅读:10 留言:0更新日期:2023-09-08 23:28
本发明专利技术涉及基因组测序技术领域,具体涉及一种基于纳米孔测序数据的病原宏基因组分析方法,首先在第一轮比对中,通过并行Kraken2、Centrifuge、Pandora和Minimap2四种快速比对软件和算法实现了针对典型数据(1Gb纳米孔测序数据)的物种初步判别;在第二轮和第三轮验证分析中,使用精确比对算法BLAST分别将上一轮判别的各个物种的读段与该物种参考序列及本样本识别到的其他病原参考序列进行交叉比对验证,有效减少了精确比对的计算量。通过Minimap2与耐药基因/点突变数据库进行比对,并通过blast精确比对算法进行耐药基因/点突变的识别。通过构建该方法和系统,实现了典型纳米孔测序病原宏基因组数据在30min内的准确分析和报告生成,并有效兼容二代测序数据分析。析。析。

【技术实现步骤摘要】
一种基于纳米孔测序数据的病原宏基因组分析方法


[0001]本专利技术涉及基因组测序
,具体涉及一种基于纳米孔测序数据的病原宏基因组分析方法。

技术介绍

[0002]临床样本在采集过程中不可避免会有定植菌,实验过程中也会引入试剂背景菌,这些细菌都可能会引入耐药基因,造成假阳性,给临床精准用药带来困扰。基于二代测序短读长数据进行耐药分析,很难区分哪些耐药基因是定植菌/试剂背景菌携带的,哪些是致病菌携带的,难以建立病原微生物和耐药基因的关系。虽有各种算法模型来分析病原微生物和耐药基因的归属,但总不如纳米孔测序长读长数据直接比对来的准确。
[0003]病原宏基因组检测产生大量的测序数据,既包含病原体的核酸信息,也包含大量的人源序列,此外还不可避免的混有背景(如环境、工程试剂菌)污染序列。现有的二代病原宏基因组测序数据分析方法易出现多重比对和错误比对,有假阳性风险,难以保证鉴定结果的准确性。
[0004]数据库的建设是保证鉴定结果准确性的一个重要方面,现阶段在世界范围内已建立多个基因组序列信息数据库,如GenBank、SRA、ENA等,这些数据库包含了大量病原微生物基因组DNA序列及注释信息,但这些数据库中的部分数据来源于用户提交的序列信息,因此需要对数据库进行梳理、确证、分类、提取和整合。此外,还可自建背景污染序列等数据库。数据库建设程度也会限制鉴定结果的准确性。单个分析流程则很难实现在保证鉴定结果准确性基础上,大幅加快分析速度的要求。多个分析流程并行运行,并使用不同的数据库进行基因序列比对,才能保证鉴定结果的准确性和及时性。
[0005]基于BWT转换算法的bwa算法主要针对读长<300bp的短读长数据进行分析,不能比对分析纳米孔测序的长读长(>2kb)数据,而BLAST算法对大量数据进行比对时速度较慢。因此,探索纳米孔测序长读长数据的分析方法是当下利用好长读长数据至关重要的一环。
[0006]鉴于上述缺陷,本专利技术创作者经过长时间的研究和实践终于获得了本专利技术。

技术实现思路

[0007]本专利技术的目的在于解决现有的序列比对软件用于纳米孔测序,会降低分析的时效性、准确性和灵敏性的问题,提供了一种基于纳米孔测序数据的病原宏基因组分析方法。
[0008]为了实现上述目的,本专利技术公开了一种基于纳米孔测序数据的病原宏基因组分析方法,包括以下步骤:
[0009]S1,读取下机数据,采用国际通用的测序数据标准FASTQ格式,支持gzip方法进行数据压缩以减少存储占用;
[0010]S2,根据数据类型,使用Nanofilt软件和fastQC软件和对应参数进行低质量数据过滤;
[0011]S3,使用samtools软件提取通过数据质控的高质量测序数据,用于后续分析;
[0012]S4,第一轮快速比对,通过并行Kraken2、Centrifuge、Pandora和Minimap2四种快速比对软件和算法进行物种初步判别;
[0013]S5,基于步骤S3和步骤S4的结果,使用bcftools软件提取疑似病原的读段并按初步鉴定的物种进行拆分;
[0014]S6,将步骤S5拆分的疑似病原读段,与各物种参考序列进行BLAST比对,提取各读段最优比对,并按照比对长度大于读段长度80%、序列相似度高于90%,比对期望值小于1E

5,进行筛选;
[0015]S7,将步骤S6验证的病原读段按病原类型和基因组类型行各分类水平的物种统计分析,明确该份样本中存在的病原类型、基因组类型属水平和种水平的读段数量及构成比;
[0016]S8,将步骤S3中生成数据进行耐药基因与突变数据库快速比对,通过使用Minimap2快速比对算法进行物种初步判别;
[0017]S9,基于步骤S3和S8的结果,使用samtools软件提取疑似病原体耐药基因的读段并按初步鉴定结果生成fasta序列,随后使用Bcftools获得一致性序列;
[0018]S10,将步骤S9中获得的疑似病原体耐药基因读段,与各物种参考序列进行BLAST比对,提取各读段最优比对,并按照比对长度大于读段长度80%、序列相似度高于90%,比对期望值小于1E

5,进行筛选;
[0019]S11,将步骤S10中验证的病原体耐药基因读段结合步骤七生成的读段taxid号码进行关联,并按物种进行丰度统计分析,明确该份样本中存在的耐药菌、耐药基因基因及其点突变的类型,读段数量及构成比;
[0020]S12,根据步骤S7和步骤S11中获得的样本中病原体统计信息,及耐药菌、耐药基因信息,补充添加病原体注释信息、样本信息和患者信息等,生成检测报告。
[0021]所述步骤S1中使用cat或zcat命令合并来自于同一份样本的多个FASTQ数据文件或压缩的FASTQ.gz文件。
[0022]所述步骤S2中针对三代测序的FASTQ测序数据文件进行质控检测和过滤,使用Nanofilt软件,筛选平均测序数据质量大于Q7的测序读段。
[0023]所述步骤S2中针对二代数据使用fastQC软件,筛选平均测序数据质量大于Q30的测序读段。
[0024]所述步骤S4中Kraken2为基于物种特异性k

mer序列的细菌、真菌、病毒和寄生虫识别的算法,Centrifuge为快速宏基因组序列分类方法,用于细菌、真菌、病毒和寄生虫识别,Pandora为快速并对序列识别方法,Minimap2为针对病毒等基因组变异较大病原体的补充比对,基于minimizer哈希表搜索、chaining算法和动态规划算法。
[0025]所述步骤S7中病原类型包括细菌、真菌、病毒和寄生虫,基因组类型包括DNA和RNA。
[0026]与现有技术比较本专利技术的有益效果在于:本专利技术针对纳米孔测序产生的长读长数据,整合了多个数据库,构建了多个序列比对分析的病原识别并行分析的算法,保证了病原体鉴定和耐药基因分析的准确性和时效性。首先在第一轮比对中,通过并行四种快速比对算法实现了针对典型数据(1Gb纳米孔测序数据)的物种初步判别;在第二轮和第三轮验证分析中,使用精确比对算法BLAST分别将上一轮判别的各个物种的读段与该物种参考序列及本样本识别到的其他病原参考序列进行交叉比对验证,有效减少了精确比对的计算量。
通过Minimap2与耐药基因/点突变数据库进行比对,并通过blast精确比对算法进行耐药基因/点突变的识别。通过构建该方法和系统,实现了典型纳米孔测序病原宏基因组数据在30min内的准确分析和报告生成,并有效兼容二代测序数据分析。
附图说明
[0027]图1为本专利技术流程图;
[0028]图2为本专利技术测试的计算环境和耗时统计;
[0029]图3为本专利技术与常见二代分析软件的耗时比对;
[0030]图4为实施例1的检测质控图;
[0031]图5为实施例2的检测质控图。
具体实施方式
[0032本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于纳米孔测序数据的病原宏基因组分析方法,其特征在于,包括以下步骤:S1,读取下机数据,采用国际通用的测序数据标准FASTQ格式,支持gzip方法进行数据压缩以减少存储占用;S2,根据数据类型,使用Nanofilt软件和fastQC软件和对应参数进行低质量数据过滤;S3,使用samtools软件提取通过数据质控的高质量测序数据,用于后续分析;S4,第一轮快速比对,通过并行Kraken2、Centrifuge、Pandora和Minimap2四种快速比对软件和算法进行物种初步判别;S5,基于步骤S3和步骤S4的结果,使用samtools软件提取疑似病原的读段并按初步鉴定的物种进行拆分;S6,将步骤S5拆分的疑似病原读段,与各物种参考序列进行BLAST比对,提取各读段最优比对,并按照比对长度大于读段长度80%、序列相似度高于90%,比对期望值小于1E

5,进行筛选;S7,将步骤S6验证的病原读段按病原类型和基因组类型行各分类水平的物种统计分析,明确该份样本中存在的病原类型、基因组类型属水平和种水平的读段数量及构成比;S8,将步骤S3中生成数据进行耐药基因与突变数据库快速比对,通过使用Minimap2快速比对算法进行物种初步判别;S9,基于步骤S3和S8的结果,使用samtools软件提取疑似病原体耐药基因的读段并按初步鉴定结果生成fasta序列,随后使用Bcftools获得一致性序列;S10,将步骤S9中获得的疑似病原体耐药基因读段,与各物种参考序列进行BLAST比对,提取各读段最优比对,并按照比对长度大于读段长度80%、序列相似度高于90%,比对期望值小于1E

5,进行筛选;S11,将步骤S10中验证的病原体耐药基因读段结合...

【专利技术属性】
技术研发人员:余乐李寅虎武志慧高军涛杜鹏程刘树青
申请(专利权)人:北京源生康泰基因科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1