一种mNGS鉴定微生物的数据处理方法、装置及存储介质制造方法及图纸

技术编号:32834557 阅读:55 留言:0更新日期:2022-03-26 20:52
本申请公开了一种mNGS鉴定微生物的数据处理方法、装置及存储介质。本申请的数据处理方法包括,利用Linux系统提供的内存映射/dev/shm加载数据库;在读取数据库之前,先检查数据库大小,如小于硬盘中原始加载的数据库大小,则通过虚拟内存触碰方式将其激活,使得加载数据库完整的缓存于内存中;采用内存映射方式加载参考基因组;采用Linux管道输出和读入,减少临时文件,提高分析速度。本申请方法,通过对数据处理过程中限制速度的关键步骤进行优化,提高了mNGS鉴定微生物的速度和效率,降低了对高性能硬件设备的依赖性,使得mNGS鉴定微生物仅采用现有常规的硬件设备就能实现快速、高效、准确的微生物分析和鉴定。准确的微生物分析和鉴定。准确的微生物分析和鉴定。

【技术实现步骤摘要】
一种mNGS鉴定微生物的数据处理方法、装置及存储介质


[0001]本申请涉及微生物宏基因组测序检测
,特别是涉及一种mNGS鉴定微生物的数据处理方法、装置及存储介质。

技术介绍

[0002]随着测序技术的进步和成本的降低,越来越多的微生物得以测序,例如人体微生物组计划HMP、人体肠道宏基因组项目MetaHIT 2008、美国肠道计划AGP 2012、中国微生物组计划CAS

CMI 2017等。物种量多带来的挑战是分类数据库越来越大,给数据分析带来挑战,尤其是对时效有较高要求的病原微生物检测。
[0003]宏基因组测序,尤其指宏基因组二代测序(缩写mNGS),是指直接从环境或宿主样本中提取全部微生物的核酸,构建宏基因组文库,利用二代测序技术进行测序。宏基因组测序鉴定微生物则是,直接利用宏基因组测序的数据进行分析,检测或鉴定环境或宿主携带的微生物。一般来说,宏基因组测序鉴定微生物包括以下步骤,宏基因组测序、下机数据、去接头、利用宿主参考序列去除宿主的测序数据、利用分类序列库对数据进行序列分类、利用微生物知识库对数据进行分类注释,最后通过结果过滤,获得解读报告。其中,去接头、去除宿主的测序数据和序列分类,这三个步骤通常需要大量密集计算。
[0004]mNGS会无差别的对提取的核酸进行测序,对于检测人感染微生物来说,其中的非宿主序列才有意义;因此,在生物信息分析过程中需要对宿主序列进行去除,仅对去除后的序列进行物种鉴定。在序列分类方面,以Kraken2软件为例,其官方提供的标准基因组参考库,包括古细菌、细菌、病毒、质粒、人类宿主和载体,https://benlangmead.github.io/aws

indexes/k2,总计大约50.1GB(Gigabyte,千兆字节),加上原生动物和部分真菌后约53.2GB,再加上其它真核生物,包含寄生虫等,数据量可达近90GB,涵盖约16000种微生物。对如此大的数据进行序列查询要求快速的读取,Kraken2会将数据库加载至内存中加快读取,需要制作内存盘然后加载数据库,但这种方式需要root权限,限制了普通用户的使用。
[0005]为了提高mNGS微生物鉴定的分析速度,已经有开发者或企业寻求使用GPU或FPGA进行计算的提速,如MetaCache

GPU和Tera

BLAST,但通常需要新硬件的购买和部署。
[0006]因此,如何在现有常规的硬件设备基础上快速、高效、准确的进行宏基因组测序鉴定微生物是亟待解决的问题。

技术实现思路

[0007]本申请的目的是提供一种改进的mNGS鉴定微生物的数据处理方法、装置及存储介质。
[0008]为了实现上述目的,本申请采用了以下技术方案:
[0009]本申请的第一方面公开了一种mNGS鉴定微生物的数据处理方法,包括以下步骤:
[0010]数据库加载步骤,包括利用Linux系统提供的内存映射/dev/shm来加载用于mNGS鉴定微生物的数据库;其中,Linux系统的/dev/shm为tmpfs文件系统,即临时文件系统,该
目录所有用户皆有读写权限,且最大可写入大小为系统物理内存的一半;
[0011]数据库检查步骤,包括在读取数据库之前,先检查数据库的大小,如果小于原始加载的数据库的大小,则通过虚拟内存触碰方式将其激活,使得加载的数据库完整的缓存于内存中;
[0012]数据库比对步骤,包括采用内存映射方式加载参考基因组,在同时运行多个比对时,对参考索引进行统一缓存,各比对进程共享此过程和结果;在有新的比对进程加入时,也先进行索引的检查,如果发现已经加载在内存中或者正在加载的过程中,则按内存地址进行访问或等待加载完毕后使用,不重复加载;当并行的所有比对进程结束后,自动管理参考索引,待其不在活跃访问时将其从缓存中释放;
[0013]数据传输步骤,包括采用Linux管道输出和读入,减少临时文件产生,从而提高分析速度。
[0014]需要说明的是,本申请的数据处理方法,通过/dev/shm的使用,不仅提高了数据库读取速度,而且解决了需要root权限的问题,方便普通用户使用;通过数据库检查步骤,解决了系统自动将非活跃状态的数据库或部分数据库缓存到硬盘导致的卡顿问题,进一步的提高了检测速度;通过数据库比对步骤的内存地址映射,不仅提高了单个样本比对的速度,而且在相同的条件下能够允许更多的样本同时进行比对,提高了检测效率;通过Linux管道输出和读入,减少了分析过程中产生的临时文件或过程文件,避免了临时文件或过程文件的输入和读取影响分析速度,进一步提高了检测速度。总之,本申请的数据处理方法,通过对宏基因组测序鉴定微生物的数据处理过程中,限制数据处理速度的关键步骤进行优化和改进,提高了宏基因组测序鉴定微生物的速度和效率,并降低了对高性能硬件设备的依赖性,使得宏基因组测序鉴定微生物仅仅采用现有常规的硬件设备,例如187G内存、64核CPU,就能够实现快速、高效、准确的微生物分析和鉴定。
[0015]可以理解,本申请的关键在于对限制数据处理速度的关键步骤进行优化和改进,至于宏基因组测序鉴定微生物的一般步骤,例如高通量测序、下机数据质控等都可以参考现有技术,而在其它步骤中涉及数据库加载、比对、传输等部分则可采用本申请的数据处理方法。
[0016]本申请的一种实现方式中,数据库加载步骤还包括在将数据库加载到/dev/shm之前,预先申请大于数据库大小的内存空间,并释放系统已经缓存的内容,确保数据库能够完整的加载到/dev/shm。
[0017]需要说明的是,预先申请大于数据库大小的内存空间,以及数据库检查步骤的作用相同,都是为了确保数据库完整的缓存于内存,避免数据库被缓存到硬盘导致的卡顿问题。
[0018]本申请的一种实现方式中,本申请的数据处理方法还包括同源区域标记步骤,该同源区域标记步骤,包括将数据库中的宿主参考基因组拆分为短序列,形成短序列库;将需要计算同源区域的真核生物基因组与短序列库进行比对,将能够与短序列库匹配的区域标记成“N”,将连续标记成“N”的区域替换成“N”碱基。
[0019]优选的,同源区域标记步骤,还包括将序列中的A、C、G、T分别转化成二进制数字,将短序列存储成无符号整型方式,预加载到内存中。
[0020]优选的,短序列的长度为31bp。
[0021]需要说明的是,本申请中,同源区域标记步骤的关键在于利用短序列(kmer)的方式对原生生物和真菌基因组中与宿主同源的区域进行碱基“N”标记,将这些标记成“N”的区域排除到可分类之外,降低宿主引起的假阳性检出,例如常见的刚地弓形虫Toxoplasma gondii假阳性等。可以理解,将A、C、G、T转化成二进制数字,短序列的长度为31bp,都是本申请的一种实现方式中具体采用的方案,不排除还可以采用其他方式对各碱基进行转换或根据需求设计不同长度的短序列。
[0022]本申请的一种实现本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种mNGS鉴定微生物的数据处理方法,其特征在于:包括以下步骤,数据库加载步骤,包括利用Linux系统提供的内存映射/dev/shm来加载用于mNGS鉴定微生物的数据库;数据库检查步骤,包括在读取数据库之前,先检查数据库的大小,如果小于原始加载的数据库的大小,则通过虚拟内存触碰方式将其激活,使得加载的数据库完整的缓存于内存中;数据库比对步骤,包括采用内存映射方式加载参考基因组,在同时运行多个比对时,对参考索引进行统一缓存,各比对进程共享此过程和结果;在有新的比对进程加入时,先进行索引的检查,如果发现已经加载在内存中或者正在加载的过程中,则按内存地址进行访问或等待加载完毕后使用,不重复加载;当并行的所有比对进程结束后,自动管理参考索引,待其不在活跃访问时将其从缓存中释放;数据传输步骤,包括采用Linux管道输出和读入,减少临时文件产生,从而提高分析速度。2.根据权利要求1所述的数据处理方法,其特征在于:所述数据库加载步骤还包括在将数据库加载到/dev/shm之前,预先申请大于数据库大小的内存空间,并释放系统已经缓存的内容,确保数据库能够完整的加载到/dev/shm。3.根据权利要求1所述的数据处理方法,其特征在于:还包括同源区域标记步骤,所述同源区域标记步骤,包括将数据库中的宿主参考基因组拆分为短序列,形成短序列库;将需要计算同源区域的真核生物基因组与短序列库进行比对,将能够与短序列库匹配的区域标记成“N”,将连续标记成“N”的区域替换成“N”碱基。4.根据权利要求2所述的数据处理方法,其特征在于:所述同源区域标记步骤,还包括将序列中的A、C、G、T分别转化成二进制数字,将短序列存储成无符号整型方式,预加载到内存中;优选的,所述短序列的长度为31bp。5.根据权利要求1

4任...

【专利技术属性】
技术研发人员:黄毅杨振宇刘久成林小芳张丹易鑫杨玲
申请(专利权)人:深圳吉因加医学检验实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1