基于机器学习筛选细菌耐药表型相关重要特征基因的方法技术

技术编号:32364009 阅读:29 留言:0更新日期:2022-02-20 03:35
本申请涉及一种基于机器学习技术筛选细菌耐药表型相关重要特征基因的方法,该方法针对细菌抗生素耐药表型,基于BGWAS思想搜集公共平台上目标细菌基因组或者现行收集测序组装后得到的大样本量菌株基因组数据及其对应的抗生素药物药敏测试结果,使用机器学习方法进行基因型与耐药表型两者间关联分析,以筛选出与耐药表型相关的重要特征基因(非核心耐药基因),同时得到重要特征基因的权重系数,最后使用ROC分析确定各药物相关耐药基因可靠性。使用ROC分析确定各药物相关耐药基因可靠性。使用ROC分析确定各药物相关耐药基因可靠性。

【技术实现步骤摘要】
基于机器学习筛选细菌耐药表型相关重要特征基因的方法


[0001]本申请涉及基因测序
,具体涉及一种基于机器学习技术筛选细菌耐药表型相关重要特征基因的方法。
技术背景
[0002]全基因组关联研究(genome

wide association study,GWAS)是一种从基因组水平筛选与某表型(phenotype)显著相关的遗传变异,进而阐明表型遗传机制的方法。相较于传统的分子遗传学方法,GWAS并不对表型产生的遗传机制做任何假设,而是直接从表型出发,设置合理的对照组,通过大样本的数据统计分析找到与表型关联的遗传变异。在人类复杂疾病研究中,GWAS已取得丰硕成果,极大增进了人们对复杂表型的认识。同样,GWAS也可以用于细菌研究,可为宿主适应性、耐药、毒力等复杂表型的遗传机制探索提供新思路。
[0003]针对细菌耐药性研究,鉴于耐药产生的复杂性和目前已了解的多样化的耐药性产生机制,与耐药表型相关的遗传数据可概括为SNP、插入缺失(Indel)、非核心基因获得缺失及k

mer等特征。目前已发表本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习筛选细菌耐药表型相关重要特征基因的方法,其特征在于,所述方法包括如下步骤:步骤1)获取目标细菌菌株基因组数据,同时收集对应药敏测试结果数据;步骤2)基于细菌基因组contig序列进行耐药数据库比对注释;步骤3)针对目标药物,进行基因型与耐药表型数据关联分析,筛选与耐药产生相关的重要特征基因,并计算重要特征基因权重系数;优选的,所述重要特征基因为非核心耐药基因。2.权利要求1所述的方法,其特征在于,还包括:步骤4)ROC分析评估基于筛选出的重要基因预测药敏结果的模型性能;优选的,所述ROC分析如下:基于步骤3)得到的重要基因权重系数的矩阵,定义并计算Score值,并以此作为阴阳性判读指标,绘制ROC曲线以及确定cut off值,用验证集样本进行验证和评估模型性能;所述其中arg_W
i
表示检出相应基因的权重系数值。3.权利要求1

2任一所述的方法,其特征在于,所述步骤3)中所述关联分析采用拉索回归模型进行关联分析。4.权利要求3所述的方法,其特征在于,所述步骤3)中拉索回归模型进行关联分析具体为:以基因检出分布矩阵和药物药敏测试结果矩阵作为输入,使用glmnet程序包进行基因型和耐药表型数据的关联分析,并做k(优选k=5~15)重交叉验证,筛选得到与耐药表型相关的重要特征基因,并得到重要特征基因的权重系数;优选的,所述重要特征基因筛选为:根据不同个数特征基因下的模型CV错误率、AUC变化曲线,选择在CV错误率最低且此时模型AUC值相对稳定处所对应数目的基因为重要特征基因;更优选的,步骤3)进一步可包括人工召回,所述人工召回为:对与耐药表型PPV较高(优选的,PPV>=0.8)的基因进行人工召回,并基于以上得到的重要基因其权重系数值计算得到召回基因的权重系数。5.权利要求1

4任一所述的方法,其特征在于,所述步骤2)中所述比对注释为:将contig序列与CARD耐药基因参考序列库进行比对,过滤掉identity和覆盖度低的hit,将每条contig比对上的区域选择best hit作为该contig区域的最终比对结果,并添加耐药基因的注释信息;优选的,所述过滤为:过滤掉identity小于90%或参比基因覆盖度小于90%的hit。6.权利要求1

5任一所述的方法,其特征在于,所述步骤1)中所述菌株基因组个数>=100,菌株来源涵盖各种亚型,耐药株与敏感株的菌株数目比例均衡;优选的,所述获取从公共数据库搜索下载已发表的目标基因组序列,或者通过现行收集临床培养鉴定出的细菌菌株进行测序组装获得;更优选的,所述从公共数据库搜索下载为:从NCBI NDARO数据库和PATRIC数据库平台搜集记录有药敏测试结果的细菌菌株信息,整理表型数据,并根据基因组组装id号从ncbi genome数据库或根据PATRIC id从PATRIC数据库批量下载基因组数据。7.权利要求1

7任一所述方法,其特征在于,
所述细菌包括但不限于大肠埃希式菌、肺炎克雷伯式菌、鲍曼不动杆菌、铜绿假单胞菌、阴沟肠杆菌复合群、金黄色葡萄球菌、屎肠球菌、粪肠球菌、肺炎链球菌、化脓性链球菌、流感嗜血杆菌、表皮葡萄球菌;优选的为肺炎克雷伯菌;所述耐药表型包括但不限于耐受碳青霉烯类、头孢菌素类、青霉素类、β内酰胺类抗生素抑制剂、氨基糖苷类、磺胺类、四环素类、喹诺酮类、糖肽类、恶唑烷酮类、多粘菌素药物的表型;优选的,为耐受碳青霉烯药物的表型。8.基因KPC

3、KPC

2、OXA

181、OXA

232和NDM

1作为非核心型耐药基因在肺炎克雷伯菌辅助药敏预测中的应用;所述药敏预测包括耐药预测和敏感预测,优选为敏感预测;更优选,所述药敏针对碳青霉烯类药物,例如亚胺培南或美罗培南;进一步优选的:当为亚胺培南时,所述基因还包括基因KPC

14、NDM

5、NDM

7、OXA

65、OXA

83、OXA

24、ADC

214、ADC

56、VIM

27、VIM

【专利技术属性】
技术研发人员:韩朋饶冠华高建鹏陈方媛蒋智
申请(专利权)人:天津金匙医学科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1