The invention relates to a macrogenomic data analysis method and system for identifying drug resistance genes and/or mutation sites of drug resistance genes. The data analysis method and system of the invention are based on blast algorithm, and the macrogenome sequencing sequence of the sample is compared with the drug-resistant gene or drug-resistant gene based on mutation site sequence information of the drug-resistant gene database to obtain the preliminary identification results of drug-resistant gene and/or drug-resistant gene mutation sites; after that, the preliminary identification results with low filtering reliability are obtained and the final identification results are obtained. The method and system of the invention can quickly and accurately identify drug-resistant genes and mutation sites, obtain global drug resistance of samples, map to reported detected species and obtain specific drug-resistant microbial strains in combination with species identification results; furthermore, the method and system of the invention have strong compatibility with the accuracy of drug-resistant gene data in identifying drug-resistant genes, and reduce the accuracy of drug-resistant gene data. Defects of inaccurate annotations at both ends of the sequence of the oligodrug resistance gene database.
【技术实现步骤摘要】
一种鉴定耐药基因和/或耐药基因突变位点的宏基因组数据分析方法及系统
本专利技术涉及生物信息学领域,具体而言,涉及一种鉴定耐药基因和/或耐药基因突变位点的宏基因组数据分析方法及系统。
技术介绍
宏基因组(Metagenome),又称群落基因组,是指特定小生境中全部微小生物遗传物质的总和。宏基因组学(metagenmomics)是指,直接应用基因组学技术对小生境中的微生物群落进行研究,且不需要对单一菌株进行分离培养的学科。不同于以往的微生物学分析手段,宏基因组学分析不需要筛选得到各微生物群落的培养物,而是直接测定样品中所有微生物的核酸序列,以分析微生物群落的生长情况。宏基因组学分析可避免由于环境改变而引起的微生物序列变化所带来的偏差,特别适合用于鉴定在常规条件下难以培养的微生物,例如,极端微生物或某些难以培养的病原体。以导致心内膜炎的病原微生物为例,常规培养不仅耗时长(2~4周),而且培养成功率不高,阴性率高达30%。对于许多感染性心内膜炎患者而言,不论是血液或者是心脏赘生物样本都不能通过培养给出物种和耐药性鉴定结果,影响治疗方案和复发干预措施的指定。而宏基因组学可以通过直接对患者的生物样本进行测序,绕过培养步骤,获得生物样本的病原体群落信息。随着测序技术的发展,宏基因组学技术已有长足发展,但其在数据分析方面仍然存在瓶颈,制约其发展和应用,具体表现为:1)宏基因组高通量检测具有高敏感性,但检测结果中的假阳性过多,特异性差,不能满足特异性要求高的鉴定方法的需求,例如,对病原微生物的临床鉴定。2)现有的宏基因组测序数据分析方法尚难以在保证鉴定结果准确性的基础上,大 ...
【技术保护点】
1.一种宏基因组数据分析方法,其特征在于,所述方法包括:B1、基于blast算法,将样本的宏基因组测序序列与耐药基因数据库的核酸序列信息进行比对,获得耐药基因的初步鉴定结果;B2、对所述耐药基因的初步鉴定结果进行过滤,只保留支持序列对所述耐药基因的序列覆盖度>30%且不集中分布于所述耐药基因的3’或5’端的鉴定结果,即为报告检出耐药基因;优选地,在过滤前先将E value<E
【技术特征摘要】
1.一种宏基因组数据分析方法,其特征在于,所述方法包括:B1、基于blast算法,将样本的宏基因组测序序列与耐药基因数据库的核酸序列信息进行比对,获得耐药基因的初步鉴定结果;B2、对所述耐药基因的初步鉴定结果进行过滤,只保留支持序列对所述耐药基因的序列覆盖度>30%且不集中分布于所述耐药基因的3’或5’端的鉴定结果,即为报告检出耐药基因;优选地,在过滤前先将Evalue<E-30的鉴定结果剔除。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:B1’、基于blast算法,将宏基因组测序序列与耐药基因数据库的耐药突变位点氨基酸序列进行比对,获得耐药突变位点的初步鉴定结果;B2’、对所述耐药突变位点的初步鉴定结果进行过滤,只保留长读长支持序列的数目>2条或短读长支持序列的数目>3的鉴定结果,即为报告检出耐药突变位点。3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:B3、整合所述报告检出耐药基因和/或所述报告检出耐药突变位点,获得样本的全局耐药结果。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:A1、将样本的宏基因组测序序列与第一核酸数据库进行比对,基于k-mer算法获得初步物种鉴定结果;A2、针对所述初步物种鉴定结果中的每个物种,统计支持序列的总数目,如果支持序列的总数目≥预定值,则随机抽取部分支持序列,构成验证序列集,如果支持序列的总数目<预定值,则抽取全部支持序列,构成验证序列集;基于blast算法,在第二核酸数据库中对所述验证序列集中的序列进行物种鉴定,当验证序列集中50%以上序列的鉴定结果与所述初步物种鉴定结果一致,则所述初步物种鉴定结果通过验证,所述初步物种鉴定结果即为样本的报告检出物种;优选地,所述方法还包括:A3、计算每个报告检出物种的支持序列的长度总和,经所述报告检出物种的基因组大小标准化后,得到所述报告检出物种富集程度的参考值,以所述参考值为基准,计算每个报告检出物种在所述样本中的相对丰度。5.根据权利要求4所述的方法,其特征在于,所述方法还包括B4、将B3所述全局耐药结果映射到报告检出物种。6.根据权利要求1~5任一项所述的方法,其特征在于,所述方法还包括在进行耐药基因鉴定、或耐药突变位点和/或物种鉴定前,对所述宏基因组测序序列进行质量评估和/或去宿主基因组,其中,所述质量评估包括:根据测序平均质量分数、质量分数分布以及测序长度中的至少一种评估测序数据的可用性,对可用数据中的低质量部分进行过滤处理;优选地,所述过滤处理包括:对于长读长测序数据,保留长度>500bp且测序质量分数>6的测序数据;对于短读长测序数据保留长度>50bp且质量分数>20的测序数据;所述去宿主基因组包括:将所述宏基因组测序序列与宿主基因组序列进行比对,剔除能比对到所述宿主基因组的序列,保留不能比对到所述宿主基因组的序列,用于后续的数据分析;优选地,所述质量评估在所述去宿主基因组之前执行。7.一种宏基因组数据分析系统,其特征在于,所述系统包括耐药基因鉴定模块,所述耐药基因鉴定模块包括初步鉴定单元和过滤单元;其中,所述初步鉴定单元,用于基于blast算法将样本的宏基因组测序序列与耐药基因数据库的核酸序列信息进行比对,获得耐药基因的初步鉴定结果;所述过滤单元,用于过滤所述耐药基因的初步鉴定结果,只保留支持序列对所述耐药基因的序列覆盖度>30%且不集中分布于所述耐药基因的3’或5’端的宏基因组测序序列的鉴定结果,即为报告检出耐药基因;优选地,在过滤前先将Evalue<E-30的鉴定结果剔除;优选地,所述系统还包括耐药突变位点鉴定模块,所述耐药突变位点鉴定模块包括初步鉴定单元...
【专利技术属性】
技术研发人员:康悦,胡欢,程军,周洲,任用,
申请(专利权)人:江苏先声医学诊断有限公司,北京先声医学检验实验室有限公司,中国医学科学院阜外医院,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。