一种基于纳米孔测序仪的真菌测序数据鉴定方法技术

技术编号:31159874 阅读:18 留言:0更新日期:2021-12-04 10:24
本发明专利技术公开了一种基于纳米孔测序仪的真菌测序数据鉴定方法,属于分子生物领域,包括如下步骤:先构建病原真菌序列参考库,再通过测序数据样品拆分、数据质控处理、比对分析和物种分类对测序数据进行分析鉴定病原真菌;本发明专利技术的鉴定方法具有KB级的测序长度,可有效提升病原真菌物种分辨率从而保证鉴定结果的准确性,且提升病原真菌序列检索速度。且提升病原真菌序列检索速度。且提升病原真菌序列检索速度。

【技术实现步骤摘要】
一种基于纳米孔测序仪的真菌测序数据鉴定方法


[0001]本专利技术涉及分子生物领域,特别是一种基于纳米孔测序仪的真菌测序数据鉴定方法。

技术介绍

[0002]被感染后进行治疗的首要条件就是要快速准确的对病因进行鉴定。尽可能的进行早期诊断和早期药物干预能够尽可能的提高生存率。而对病原真菌的快速、准确的检测能够在第一时间进行诊断并给出相应的治疗药物。
[0003]目前的病原真菌检测技术分为基于分离培养和镜检的检测技术、定量PCR检测技术和基于高通量宏基因组测序的检测技术。基于分离培养和镜检的检测技术有诸多的不足,如厌氧菌离体后容易死亡;ICU分离菌株抗生素暴露后,低活性状态难以生长;部分菌落生长极其缓慢或快速难以分离;复合感染等问题,基于定量PCR的检测技术检测范围有限,同时特异性和通量低。基于高通量宏基因组测序的检测技术可实现对所有病原真菌无选择性、无偏倚、快速、全面的检测,但同样存在许多的限制。检测样本中的微生物DNA和宿主DNA极易受到干扰。测序结果需要样本完全测序完成后才可进行生信分析进行。
[0004]纳米孔测序是一种单分子、实时测序的新一代测序方法,其以单分子DNA(RNA)通过生物纳米孔的电流变化推测碱基组成而进行测序。纳米孔测序测序具有长度长、实时测序、按需测序以及灵活、可扩展等特点。相比细菌和病毒,真菌的序列长的多;在序列比对检索过程中,真菌序列检索需要更多的时间,尤其是待检索真菌序列数量庞大的时候。
[0005]市场需要一种能够进一步提升病原真菌序列检索速度的测序数据鉴定方法,本专利技术解决这样的问题。

技术实现思路

[0006]为解决现有技术的不足,本专利技术的目的在于提供一种基于纳米孔测序仪的真菌测序数据鉴定方法,本专利技术的鉴定方法具有KB级的测序长度,可有效提升病原真菌物种分辨率从而保证鉴定结果的准确性,且提升病原真菌序列检索速度。
[0007]为了达到上述目的,本专利技术采用如下技术方案:一种基于纳米孔测序仪的真菌测序数据鉴定方法,包括如下步骤:步骤一,构建病原真菌序列参考库:1

1,利用多个数据库的微生物rRNA序列,构建病原真菌序列参考库,通过自开发python脚本判断序列的来源出处,对重复出现的参考序列进行过滤,形成高可信度的病原真菌序列参考库;1

2,再将病原真菌的序列根据种属进行分类建库,搜索分流提速;步骤二:鉴定病原真菌:通过测序数据样品拆分、数据质控处理、比对分析和物种分类对测序数据进行分析;
2

1,测序数据样品拆分的内容包括:通过Guppy软件将由测序仪产生的fast5格式文件转换成fastq格式,fastq文件中每条序列的前一段序列就是barcode序列,将这段barcode序列与测序仪提供的barcode序列库进行比对,并正确分辨每一条barcode序列对应的样品;2

2,数据质控处理的具体内容包括:采用NanoFilt软件并根据序列的平均测序数据质量值Q进行质控,若Q值小于7的序列为不合格序列,则被去除;2

3,比对分析的具体内容为:将质控处理后的序列采用blast、minimap2与病原真菌参考库中的参考序列进行比对,计算reads 的identity和coverage,筛选coverage大于80%、identity 大于85%作为比对质量高的结果;2

4,物种分类的具体内容包括如下步骤:步骤a:将序列与病原真菌序列参考库进行比对,选择比对分数最高、coverage大于80%且identity大于85%的记录作为该序列的最佳比对记录ID;步骤b:根据物种谱系数据库中最佳比对参考序列ID及对应的物种谱系信息,获取物种分类结果。
[0008]进一步的,步骤一中的多个数据库包括:18S rRNA、ITS 、SILVA和UNITE。
[0009]进一步的,步骤一中的分类建库的具体方法是:将病原真菌序列分为常见病原真菌和非常见病原真菌分别进行建库;序列优先与常见病原真菌数据库进行比对,若无检索结果则继续在非常见病原真菌库进行比对;所述常见病原真菌库包括:念珠菌属、隐球菌属、曲霉菌属、镰刀菌属、球孢子菌属、孢子丝菌属和芽生菌属;所述非常见病原真菌库包括霉菌属、丝孢菌属和酵母菌属。
[0010]进一步的,步骤一中对重复出现的参考序列进行过滤的具体步骤为:步骤a:将来源不同的序列合并成一个综合数据库,并剔除重复序列;步骤b:筛选有文献支持的序列作为高可信度参考序列。
[0011]进一步的,步骤二中,计算identity和coverage的方法为:minimap2比对结果中第13列含有前缀de:f:,该列值加上identity等于1;minimap2比对结果第2列代表序列长度,第3列代表比对其实位置,第4列代表比对终止位置,将第4列与第3列的差值除以第2列等于coverage。
[0012]进一步的,步骤二中病原真菌序列参考库为NCBI taxonomy。
[0013]进一步的,步骤二中物种分类结果分为界、门、纲、目、科、属、种这7个层次进行物种判定。
[0014]采用上述技术方案后,本专利技术的有益之处在于:本专利技术根据真菌参考序列的不同科属种分别建数据库,从而增加病原真菌序列检索的速度;本专利技术根据各数据库收集的真菌常见度进行分类建库,搜索分流,从而提高病原真菌鉴定速度来增加病原真菌序列检索的速度;本专利技术开发的基于纳米孔测序平台的病原真菌测序数据鉴定方法拥有KB级的测序长度,可有效提升病原真菌物种分辨率从而保证鉴定结果的准确性。
附图说明
[0015]图1是本专利技术的一种实施例的流程图;图2是根据各数据库收集的真菌常见度进行分类建库和没有根据真菌常见度建库进行运行时间比较实验的结果图。
具体实施方式
[0016]以下结合附图和具体实施例对本专利技术作具体的介绍。
[0017]如图1所示,一种基于纳米孔测序仪的真菌测序数据鉴定方法,包括如下步骤:步骤一,构建病原真菌序列参考库:1

1,利用多个数据库的微生物rRNA序列,构建病原真菌序列参考库,通过自开发python脚本判断序列的来源出处,对重复出现的参考序列进行过滤,形成高可信度的病原真菌序列参考库;作为一种优选,多个数据库包括:18S rRNA、ITS 、SILVA和UNITE。这些数据库是目前公开发表的较为全面的数据库,需要说明的是:数据库的选取不受限制,在未来若出现更加全面的数据库也可以进行替换。
[0018]对重复出现的参考序列进行过滤的具体步骤为:步骤a:将来源不同的序列合并成一个综合数据库,并剔除重复序列;步骤b:筛选有文献支持的序列作为高可信度参考序列。
[0019]1‑
2,再将病原真菌的序列根据种属进行分类建库,搜索分流提速;分类建库的具体方法是:将病原真菌序列分为常见病原真菌和非常见病原真菌分别进行建库;序列优先与常见病原真菌数据库进行比对,若无检索结果则继续在非本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于纳米孔测序仪的真菌测序数据鉴定方法,其特征在于,包括如下步骤:步骤一,构建病原真菌序列参考库:1

1,利用多个数据库的微生物rRNA序列,构建病原真菌序列参考库,通过自开发python脚本判断序列的来源出处,对重复出现的参考序列进行过滤,形成高可信度的病原真菌序列参考库;1

2,再将病原真菌的序列根据种属进行分类建库,搜索分流提速;步骤二:鉴定病原真菌:通过测序数据样品拆分、数据质控处理、比对分析和物种分类对测序数据进行分析;2

1,所述测序数据样品拆分的内容包括:通过Guppy软件将由测序仪产生的fast5格式文件转换成fastq格式,fastq文件中每条序列的前一段序列就是barcode序列,将这段barcode序列与测序仪提供的barcode序列库进行比对,并正确分辨每一条barcode序列对应的样品;2

2,所述数据质控处理的具体内容包括:采用NanoFilt软件并根据序列的平均测序数据质量值Q进行质控,若Q值小于7的序列为不合格序列,则被去除;2

3,所述比对分析的具体内容为:将质控处理后的序列采用blast、minimap2与病原真菌参考库中的参考序列进行比对,计算reads 的identity和coverage,筛选coverage大于80%、identity 大于85%作为比对质量高的结果;2

4,所述物种分类的具体内容包括如下步骤:步骤a:将序列与病原真菌序列参考库进行比对,选择比对分数最高、coverage大于80%且identity大于85%的记录作为该序列的最佳比对记录ID;步骤b: 根据物种谱系数据库中最佳比对参考序列ID及对应的物种谱系信息,获取物种分...

【专利技术属性】
技术研发人员:谷红仓路平徐振宇王云飞车仙荣
申请(专利权)人:杭州圣庭医疗科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1