一种鉴定耐药基因和/或耐药基因突变位点的宏基因组数据分析方法及系统技术方案

技术编号:20972484 阅读:28 留言:0更新日期:2019-04-29 17:48
本发明专利技术涉及一种鉴定耐药基因和/或耐药基因突变位点的宏基因组数据分析方法及系统。本发明专利技术所述数据分析方法和系统基于blast算法,将样本的宏基因组测序序列与耐药基因数据库的耐药基因或耐药基于突变位点序列信息进行比对,获得耐药基因和/或耐药基因突变位点的初步鉴定结果;之后,过滤可信度不高的初步鉴定结果,获得最终鉴定结果。本发明专利技术所述方法和系统能够快速、准确地鉴定耐药基因和耐药突变位点,获得样本的全局耐药性,并结合物种鉴定结果,映射到报告检出物种,获得具体的耐药微生物菌株;进一步地,本发明专利技术所述方法和系统在鉴定耐药基因时对耐药基因数据准确性的兼容性强,减少耐药基因数据库序列两端的注释不准确的缺陷。

A Macro-genomic Data Analysis Method and System for Identification of Drug Resistance Genes and/or Drug Resistance Gene Mutations

The invention relates to a macrogenomic data analysis method and system for identifying drug resistance genes and/or mutation sites of drug resistance genes. The data analysis method and system of the invention are based on blast algorithm, and the macrogenome sequencing sequence of the sample is compared with the drug-resistant gene or drug-resistant gene based on mutation site sequence information of the drug-resistant gene database to obtain the preliminary identification results of drug-resistant gene and/or drug-resistant gene mutation sites; after that, the preliminary identification results with low filtering reliability are obtained and the final identification results are obtained. The method and system of the invention can quickly and accurately identify drug-resistant genes and mutation sites, obtain global drug resistance of samples, map to reported detected species and obtain specific drug-resistant microbial strains in combination with species identification results; furthermore, the method and system of the invention have strong compatibility with the accuracy of drug-resistant gene data in identifying drug-resistant genes, and reduce the accuracy of drug-resistant gene data. Defects of inaccurate annotations at both ends of the sequence of the oligodrug resistance gene database.

【技术实现步骤摘要】
一种鉴定耐药基因和/或耐药基因突变位点的宏基因组数据分析方法及系统
本专利技术涉及生物信息学领域,具体而言,涉及一种鉴定耐药基因和/或耐药基因突变位点的宏基因组数据分析方法及系统。
技术介绍
宏基因组(Metagenome),又称群落基因组,是指特定小生境中全部微小生物遗传物质的总和。宏基因组学(metagenmomics)是指,直接应用基因组学技术对小生境中的微生物群落进行研究,且不需要对单一菌株进行分离培养的学科。不同于以往的微生物学分析手段,宏基因组学分析不需要筛选得到各微生物群落的培养物,而是直接测定样品中所有微生物的核酸序列,以分析微生物群落的生长情况。宏基因组学分析可避免由于环境改变而引起的微生物序列变化所带来的偏差,特别适合用于鉴定在常规条件下难以培养的微生物,例如,极端微生物或某些难以培养的病原体。以导致心内膜炎的病原微生物为例,常规培养不仅耗时长(2~4周),而且培养成功率不高,阴性率高达30%。对于许多感染性心内膜炎患者而言,不论是血液或者是心脏赘生物样本都不能通过培养给出物种和耐药性鉴定结果,影响治疗方案和复发干预措施的指定。而宏基因组学可以通过直接对患者的生物样本进行测序,绕过培养步骤,获得生物样本的病原体群落信息。随着测序技术的发展,宏基因组学技术已有长足发展,但其在数据分析方面仍然存在瓶颈,制约其发展和应用,具体表现为:1)宏基因组高通量检测具有高敏感性,但检测结果中的假阳性过多,特异性差,不能满足特异性要求高的鉴定方法的需求,例如,对病原微生物的临床鉴定。2)现有的宏基因组测序数据分析方法尚难以在保证鉴定结果准确性的基础上,大幅度加快分析速度,缩短分析时间。3)现有的宏基因组数据分析平台兼容性差,不能普遍适用于各类测序场景。4)现有的宏基因组分析技术尚不能将物种鉴定与功能基因分析有机地整合,无法提供更为全面、深度加工的信息分析结果。有鉴于此,特提出本专利技术。
技术实现思路
本专利技术的目的在于提供宏基因组数据分析方法和系统,以解决上述技术问题中的至少一个。为了实现本专利技术的上述目的,特采用以下技术方案。一种宏基因组数据分析方法,所述方法包括:A1、将从样本获得的宏基因组测序序列与第一核酸数据库进行比对,基于k-mer算法获得初步物种鉴定结果;A2、针对所述初步物种鉴定结果中的每个物种,统计支持序列的总数目,如果支持序列的总数目≥预定值,则随机抽取部分支持序列,构成验证序列集,如果支持序列的总数目<预定值,则抽取全部支持序列,构成验证序列集;基于blast算法,在第二核酸数据库中对所述验证序列集中的序列进行物种鉴定,当验证序列集中50%以上序列的鉴定结果与所述初步物种鉴定结果一致,则所述初步物种鉴定结果通过验证,所述初步物种鉴定结果即为样本的报告检出物种。本专利技术所述方法在鉴定样本的物种来源时,创造性地采用“两步法”对宏基因组数据进行分析。第一步,将测序序列与微生物基因组数据库进行比对,基于k-mer算法在短时间内处理大量测序数据,快速地获得初步的物种鉴定结果,该鉴定结果包含较高的假阳性结果,常规的过滤参数设置难以将其剔除。第二步,在初步鉴定结果的基础上,本专利技术抽取部分支持序列,采用更为准确但速度较慢的blast算法进行验证,能够大大消除k-mer算法缺陷造成的假阳性结果,同时,由于blast比对对象为初步鉴定结果中抽取的部分支持序列,计算量显著下降,能够在短时间内完成数据分析,既达到验证目的又控制计算时间。另外,在支持序列的总数目较少,低于预定值的情况下,为避免验证序列集不能满足数据统计要求,本专利技术所述方法还进一步限定,当支持序列的总数目小于预定值时抽取全部支持序列,用于构成验证序列集,从而确保有足够数量的支持序列用于blast算法的验证。根据实施例1~3的实验结果可知,本专利技术所述方法对于第二代测序数据,由于读长较短,会在同属异种的物种中出现一些错误或难以判断的情况,造成少量的假阳性结果,但对于读长更长的新一代测序数据,基本没有假阳性结果产生,能得到十分准确的鉴定结果。在一些具体的实施方式中,所述第一核酸数据库与所述第二核酸数据库相同或不同,优选地,所述第一核酸数据库与所述第二核酸数据库不同;更优选地,所述第一核酸数据库为微生物基因组数据库,所述第二核酸数据库为NCBI的nt数据库。在一些具体的实施方式中,为平衡数据的统计学意义和数据量带来的统计学压力,所述预定值设置为既满足验证序列集对统计数据的要求,又满足blast算法对运算速度的要求;优选地,所述预定值设置为150~250,更优选为200。在一些具体的实施方式中,随机抽取的所述部分支持序列的数目≥预定值,优选地,随机抽取的所述部分支持序列的数目等于预定值。在一些具体的实施方式中,所述步骤A2还包括在抽取支持序列之前对鉴定结果进行过滤,优选地,所述过滤包括将支持序列数据量占比低于0.2%、长读长支持序列数目低于2条、短读长支持序列数目低于10条的鉴定结果剔除。在一些具体的实施方式中,所述步骤A2进行blast比对时,Evalue<E-30。在一些具体的实施方式中,为获取样本中各微生物的相对定量信息,本专利技术所述方法还包括:A3、计算每个报告检出物种的支持序列的长度总和,经所述报告检出物种的基因组大小标准化后,得到所述报告检出物种富集程度的参考值,以所述参考值为基准,计算每个报告检出物种在所述样本中的相对丰度。本专利技术还涉及一种宏基因组数据分析,所述方法包括:B1、基于blast算法,将样本的宏基因组测序序列与耐药基因数据库的核酸序列信息进行比对,获得耐药基因的初步鉴定结果;B2、对所述耐药基因的初步鉴定结果进行过滤,只保留支持序列对所述耐药基因的序列覆盖度>30%且不集中分布于所述耐药基因的3’或5’端的的鉴定结果,即为报告检出耐药基因。在一些具体的实施方式中,所述步骤B2在过滤前先将不符合Evalue<E-30的耐药基因鉴定结果剔除。本专利技术上述方法不但能够鉴定样品中的微生物物种,还能鉴定样品的耐药性。并且,本专利技术所述方法对耐药基因数据准确性的兼容性强。对于耐药基因数据库来说,对于序列两端的注释不一定完全准确,故本专利技术所述方法在设计中对3’和5’端序列的比对过滤均存在一定的兼容度。这种兼容表现在两个方面。一是控制序列对基因的覆盖区域,过滤掉只有3’或5’有序列覆盖的鉴定结果,二是对3’和5’端比对的宽容,即如果中间区域有符合要求(准确度和覆盖度均满足)对3’和5’端的不准确给予宽容处理。在一些具体的实施方式中,所述方法还包括:B1’、基于blast算法,将宏基因组测序序列与耐药基因数据库的耐药突变位点氨基酸序列进行比对,获得耐药突变位点的初步鉴定结果;B2’、对所述耐药突变位点的初步鉴定结果进行过滤,只保留长读长支持序列数目>2条或短读长支持序列数目>3条的鉴定结果,即为报告检出耐药突变位点。在一些具体的实施方式中,所述方法还包括:B3、整合所述报告检出耐药基因和/或所述报告检出耐药突变位点,获得样本的全局耐药结果。在一些具体的实施方式中,所述方法还包括执行权利要求1所述步骤A1~A2,或A1~A3,获得样本的报告检出物种,将B3所述全局耐药结果映射到报告检出物种。本专利技术上述方法将宏基因组的物种鉴定和耐药基因/耐药突变位点的鉴本文档来自技高网
...

【技术保护点】
1.一种宏基因组数据分析方法,其特征在于,所述方法包括:B1、基于blast算法,将样本的宏基因组测序序列与耐药基因数据库的核酸序列信息进行比对,获得耐药基因的初步鉴定结果;B2、对所述耐药基因的初步鉴定结果进行过滤,只保留支持序列对所述耐药基因的序列覆盖度>30%且不集中分布于所述耐药基因的3’或5’端的鉴定结果,即为报告检出耐药基因;优选地,在过滤前先将E value<E

【技术特征摘要】
1.一种宏基因组数据分析方法,其特征在于,所述方法包括:B1、基于blast算法,将样本的宏基因组测序序列与耐药基因数据库的核酸序列信息进行比对,获得耐药基因的初步鉴定结果;B2、对所述耐药基因的初步鉴定结果进行过滤,只保留支持序列对所述耐药基因的序列覆盖度>30%且不集中分布于所述耐药基因的3’或5’端的鉴定结果,即为报告检出耐药基因;优选地,在过滤前先将Evalue<E-30的鉴定结果剔除。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:B1’、基于blast算法,将宏基因组测序序列与耐药基因数据库的耐药突变位点氨基酸序列进行比对,获得耐药突变位点的初步鉴定结果;B2’、对所述耐药突变位点的初步鉴定结果进行过滤,只保留长读长支持序列的数目>2条或短读长支持序列的数目>3的鉴定结果,即为报告检出耐药突变位点。3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:B3、整合所述报告检出耐药基因和/或所述报告检出耐药突变位点,获得样本的全局耐药结果。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:A1、将样本的宏基因组测序序列与第一核酸数据库进行比对,基于k-mer算法获得初步物种鉴定结果;A2、针对所述初步物种鉴定结果中的每个物种,统计支持序列的总数目,如果支持序列的总数目≥预定值,则随机抽取部分支持序列,构成验证序列集,如果支持序列的总数目<预定值,则抽取全部支持序列,构成验证序列集;基于blast算法,在第二核酸数据库中对所述验证序列集中的序列进行物种鉴定,当验证序列集中50%以上序列的鉴定结果与所述初步物种鉴定结果一致,则所述初步物种鉴定结果通过验证,所述初步物种鉴定结果即为样本的报告检出物种;优选地,所述方法还包括:A3、计算每个报告检出物种的支持序列的长度总和,经所述报告检出物种的基因组大小标准化后,得到所述报告检出物种富集程度的参考值,以所述参考值为基准,计算每个报告检出物种在所述样本中的相对丰度。5.根据权利要求4所述的方法,其特征在于,所述方法还包括B4、将B3所述全局耐药结果映射到报告检出物种。6.根据权利要求1~5任一项所述的方法,其特征在于,所述方法还包括在进行耐药基因鉴定、或耐药突变位点和/或物种鉴定前,对所述宏基因组测序序列进行质量评估和/或去宿主基因组,其中,所述质量评估包括:根据测序平均质量分数、质量分数分布以及测序长度中的至少一种评估测序数据的可用性,对可用数据中的低质量部分进行过滤处理;优选地,所述过滤处理包括:对于长读长测序数据,保留长度>500bp且测序质量分数>6的测序数据;对于短读长测序数据保留长度>50bp且质量分数>20的测序数据;所述去宿主基因组包括:将所述宏基因组测序序列与宿主基因组序列进行比对,剔除能比对到所述宿主基因组的序列,保留不能比对到所述宿主基因组的序列,用于后续的数据分析;优选地,所述质量评估在所述去宿主基因组之前执行。7.一种宏基因组数据分析系统,其特征在于,所述系统包括耐药基因鉴定模块,所述耐药基因鉴定模块包括初步鉴定单元和过滤单元;其中,所述初步鉴定单元,用于基于blast算法将样本的宏基因组测序序列与耐药基因数据库的核酸序列信息进行比对,获得耐药基因的初步鉴定结果;所述过滤单元,用于过滤所述耐药基因的初步鉴定结果,只保留支持序列对所述耐药基因的序列覆盖度>30%且不集中分布于所述耐药基因的3’或5’端的宏基因组测序序列的鉴定结果,即为报告检出耐药基因;优选地,在过滤前先将Evalue<E-30的鉴定结果剔除;优选地,所述系统还包括耐药突变位点鉴定模块,所述耐药突变位点鉴定模块包括初步鉴定单元...

【专利技术属性】
技术研发人员:康悦胡欢程军周洲任用
申请(专利权)人:江苏先声医学诊断有限公司北京先声医学检验实验室有限公司中国医学科学院阜外医院
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1