一种基于多重PCR的靶向病原体纳米孔测序快速分析方法技术

技术编号:38889631 阅读:9 留言:0更新日期:2023-09-22 14:15
本发明专利技术涉及纳米孔测序技术领域,具体涉及一种基于多重PCR的靶向病原体纳米孔测序快速分析方法,该方法构建了两轮比对分析的病原识别算法,保证了识别的准确性和时效性。首先在第一轮比对中,通过使用两种快速比对软件——vsearch和minimap2,实现了针对典型数据(1Gb纳米孔测序数据)的物种初步判别;在第二轮验证分析中,使用BLAST精确比对算法将第一步判别的各个物种的读段与该物种参考序列进行比对验证,有效减少了精确比对的计算量,将典型数据耗时降低至10分钟内,通过构建该方法,实现了典型纳米孔测序数据在10分钟内的准确分析和报告生成,并可兼容二代测序数据分析。并可兼容二代测序数据分析。并可兼容二代测序数据分析。

【技术实现步骤摘要】
一种基于多重PCR的靶向病原体纳米孔测序快速分析方法


[0001]本专利技术涉及纳米孔测序
,具体涉及一种基于多重PCR的靶向病原体纳米孔测序快速分析方法。

技术介绍

[0002]靶向测序是一种专门用于捕获基因特殊区域并进行高通量测序的方法,PCR是其中一种最为常见的靶向富集方法。用于病原体鉴定的临床样本(如血液、肺泡灌洗液、脑脊液等),往往具有病原体载量低的特性。通过对特异性病原体的目的片段进行扩增,可以达到靶向富集病原体的目的,同时有效减少宿主基因的干扰,实现对低载量病原体的检出。其主要技术及实现方案是提取临床样本中的核酸,利用多对引物进行特异性扩增并构建上机文库,进行测序,待获得测序数据后,使用序列比对软件与病原体序列数据库进行比对,采用一定的比对结果过滤条件进行筛选获得可信结果,进而计算输入的测序数据中病原体来源的序列含量及所占比例等,最终判断测序样本中相应病原体的存在情况。
[0003]纳米孔测序技术具有长读长的特性,但同时也具有随机错误率高的缺点,如何利用纳米孔测序数据实现对临床样本病原体的快速、准确检测,是当前面临的挑战,也是主要的技术难点。因此,为了提升临床病原检测的时效性和准确性,必须建立一套基于多重PCR的靶向病原体纳米孔测序自动分析方法及系统。
[0004]目前,对测序数据的处理方式主要包括序列比对和使用k

mer算法进行分析。其中,基于序列相似性比对的软件包括bwa、bowtie 2、BLAST等,是基于BWT转换算法构建的快速比对算法,在针对二代测序数据的分析中已经广为使用,如solexa序列用bowtie做比对。BLAST算法是1990年由Altschul等人提出的两序列局部比对算法,采用了一种短片段匹配算法和一种有效的统计模型来找出目的序列和数据库之间的最佳局部比对效果,是一种基于局部序列比对的序列比对算法。
[0005]但是如何分析纳米孔测序产生的长读长、且伴有较高随机错误的序列,还需进一步研究。
[0006]鉴于上述缺陷,本专利技术创作者经过长时间的研究和实践终于获得了本专利技术。

技术实现思路

[0007]本专利技术的目的在于解决如何分析纳米孔测序产生的长读长、且伴有较高随机错误的序列的问题,提供了一种基于多重PCR的靶向病原体纳米孔测序自动分析方法。
[0008]为了实现上述目的,本专利技术公开了一种基于多重PCR的靶向病原体纳米孔测序自动分析方法,包括以下步骤:
[0009]S1:读取下机数据,采用国际通用的测序数据标准FASTQ格式,支持gzip方法进行数据压缩以减少存储占用,使用cat或zcat命令合并来自于同一份样本的多个FASTQ数据文件或压缩的FASTQ.gz文件;
[0010]S2:根据数据类型,使用Nanofilt软件和fastQC软件和对应参数进行低质量数据
过滤;
[0011]S3:使用samtools软件提取通过数据质控的高质量数据,用于后续分析;
[0012]S4:第一轮快速比对,通过使用Vsearch和Minimap2两种快速比对软件和算法进行物种初步判别;
[0013]S5:基于步骤S3、步骤S4的结果,使用samtools软件提取疑似病原的读段并按初步鉴定的物种进行拆分;
[0014]S6:将步骤S5拆分的疑似病原读段,与各物种参考序列进行BLAST比对,提取各读段最优比对,并按照比对长度大于读段长度80%、序列相似度高于90%,比对期望值(E value)小于1E

5,进行筛选;
[0015]S7:将步骤S6获得的病原读段,与本样本识别到的其他病原参考序列再次进行BLAST交叉比对,提取各读段最优比对,并按照比对长度大于读段长度80%、序列相似度高于90%,比对期望值小于1E

5,进行筛选;
[0016]S8:将步骤S7验证的病原读段按病原类型和基因组类型进行各分类水平的物种进行统计分析,明确该份样本中存在的病原类型、基因组类型、属水平和种水平的读段数量及构成比;
[0017]S9:根据步骤S8获得的样本中病原体统计信息,补充添加病原体注释信息、样本信息和患者信息等,生成检测报告。
[0018]所述步骤S2中针对三代测序的FASTQ测序数据文件进行质控检测和过滤,使用Nanofilt软件,筛选平均测序数据质量大于Q7的测序读段。
[0019]所述步骤S2中针对二代数据使用fastQC软件,筛选平均测序数据质量大于Q30的测序读段。
[0020]所述步骤S4中Vsearch用于与16S,ITS数据库比对进行细菌、真菌、病毒和寄生虫识别,Minimap2用于针对病毒等基因组变异较大病原体的补充比对,基于minimizer哈希表搜索、chaining算法和动态规划算法。
[0021]所述步骤S8中病原类型包括细菌、真菌、病毒、寄生虫,基因组类型包括DNA和RNA。
[0022]与现有技术比较本专利技术的有益效果在于:本专利技术提出的技术方案中建立了针对基于多重PCR的靶向纳米孔长读长测序数据的病原体比对识别方法和系统,能够有效处理纳米孔测序技术产生的长读长数据,很好地解决了长读长、错误率较高的纳米孔测序数据比对分析中准确性和分析速度难以兼顾的问题,将典型数据(1Gb纳米孔测序数据)分析耗时降低至10分钟以内,满足了临床中对低丰度病原体进行快速病原检测分析的需求,同时,该方法也能够针对二代测序获得的短读长数据进行分析,具有较好的数据兼容性。
附图说明
[0023]图1为本专利技术的流程示意图。
[0024]图2为本专利技术测试的计算环境和耗时统计;
[0025]图3为本专利技术与常见二代分析软件的耗时比对。
具体实施方式
[0026]以下结合附图,对本专利技术上述的和另外的技术特征和资源消耗作更详细的说明。
[0027]采用这种基于多重PCR的靶向病原体纳米孔测序自动分析方法的数据检测过程如下:
[0028]1、核酸提取
[0029]根据试剂盒说明书提取核酸,并用Qubit 4.0測定核酸浓度。
[0030]2、RNA病毒进行逆转录
[0031]利用逆转录试剂盒进行RNA病毒逆转录。
[0032]3、配置引物
[0033]将引物干粉配成100μM存储液,按引物配制表(混合后单引物浓度5μM)配制混合引物。
[0034]4、配置PCR反应体系
[0035]5、PCR产物磁珠纯化:
[0036]1)将PCR产物转入新的1.5mL离心管,加入2
×
磁珠,混匀后静置5min。
[0037]2)磁力架静置2min,溶液清亮后弃上清。
[0038]3)75%乙醇漂洗磁珠,后晾干。
[0039]4)加入20μL无核酸酶水,室温静置8min。
[0040]5)磁力架静置2min,上清转移至新的离心管。
[0041]6)取1μL本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多重PCR的靶向病原体纳米孔测序快速分析方法,其特征在于,包括以下步骤:S1:读取下机数据,采用国际通用的测序数据标准FASTQ格式,支持gzip方法进行数据压缩以减少存储占用,使用cat或zcat命令合并来自于同一份样本的多个FASTQ数据文件或压缩的FASTQ.gz文件;S2:根据数据类型,使用Nanofilt软件和fastQC软件和对应参数进行低质量数据过滤;S3:使用samtools软件提取通过数据质控的高质量数据,用于后续分析;S4:第一轮快速比对,通过使用Vsearch和Minimap2两种快速比对软件和算法进行物种初步判别;S5:基于步骤S3、步骤S4的结果,使用samtools软件提取疑似病原的读段并按初步鉴定的物种进行拆分;S6:将步骤S5拆分的疑似病原读段,与各物种参考序列进行BLAST比对,提取各读段最优比对,并按照比对长度大于读段长度80%、序列相似度高于90%,比对期望值(E value)小于1E

5,进行筛选;S7:将步骤S6获得的病原读段,与本样本识别到的其他病原参考序列再次进行BLAST交叉比对,提取各读段最优比对,并按照比对长度大于读段长度80%、序列相似度高于90%,比对期望值小于1E

5,进行筛选;S8:将步骤S7验证的...

【专利技术属性】
技术研发人员:余乐李寅虎王志富武志慧杨童茜高军涛
申请(专利权)人:佛山源生基因生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1