一种大肠杆菌菌株鉴定方法和系统技术方案

技术编号:33294738 阅读:17 留言:0更新日期:2022-05-01 00:21
本发明专利技术公开了一种大肠杆菌菌株鉴定方法和系统。该鉴定方法是一种用于细菌生物体(具体为大肠杆菌)的检测与识别的方法,基于待测大肠杆菌菌株二代测序获得的核酸序列数据,对核酸序列数据进行数据质控、数据比对和数据组装后,在构建的全基因组多位点序列分型数据库中比对查找到基因序列分型最接近的菌株,得到鉴定结果。本发明专利技术基于大肠杆菌全基因组多位点序列基因分型技术,提出了一种全新的大肠杆菌菌株鉴定方法和系统,能满足生物、医药、农业等多个领域生产和科研中更全面、复杂的大肠杆菌菌株鉴定需求。菌株鉴定需求。菌株鉴定需求。

【技术实现步骤摘要】
一种大肠杆菌菌株鉴定方法和系统


[0001]本专利技术属于细菌生物体的检测与识别和测序领域,涉及一种大肠杆菌菌株鉴定方法和系统。

技术介绍

[0002]大肠杆菌是一种革兰氏阴性的直杆菌。大肠杆菌是一种兼性厌氧微生物,能够进行呼吸代谢和发酵代谢。大肠杆菌分为多种菌株,一些菌株可以作为肠道微生物与人类形成有益的共生关系,而还有一些菌株进入人体后会产生毒素,引起肠道、泌尿系统、肺部和神经系统等部位的疾病。除此之外大肠杆菌也是重要的工程微生物,被广泛应用于化工、食品、生物医药、动物饲料和化妆品等多个领域。不同大肠杆菌工程菌株有截然不同的作用,例如DH5α菌株存在DNA酶缺陷,有利于保存质粒、克隆基因,但是该菌株容易降解蛋白质,不适合作为表达菌株。而BL21(DE3)菌株能够高效表达T7启动子驱动的外源基因,且存在蛋白酶基因缺失不容易降解蛋白质,适合用于非毒性蛋白质的表达。生产和科研中使用错误的大肠杆菌菌株会较大地影响效率,甚至会使结果偏离预期。对生产和科研中使用的大肠杆菌菌株进行菌株鉴定可以在质量控制环节中起到重要的作用。
[0003]目前大肠杆菌菌株鉴定的方法有:
[0004]培养分离法(见专利CN111235075A),将样本在特定选择培养基上培养、挑选,然后对培养物进行特定基因的PCR扩增,根据凝胶电泳成像判断是否某种菌株阳性。
[0005]蛋白模式识别法(见专利CN109884160A),对菌株进行培养,并对培养物进行质谱分析,根据结果中代谢物的模式识别特定类别的大肠杆菌菌株。
[0006]PCR法(见专利CN110982917A),对菌株进行培养,获得可做PCR模板的菌液,使用特异性引物对特征序列片段进行PCR扩增,根据PCR产物条带情况鉴定是否某种菌株阳性。
[0007]这些大肠杆菌菌株鉴定方法的局限性在于:
[0008]1、这些鉴定方法均需要对大肠杆菌菌株进行培养,而菌株培养需要花费较多的时间,且容易在培养过程中产生污染。
[0009]2、这些鉴定方法都只能鉴定特定一类菌株,在生产和科研领域用到的菌株种类繁多。
[0010]3、只能鉴定菌株的一种或少数几种基因特征,而大肠杆菌菌株间的基因差异非常复杂,大肠杆菌核心基因组约为2000个基因,而泛基因组有18000多个基因(通常一种特定菌株包含4000多个基因),这些方法难以覆盖复杂的鉴定需求。
[0011]4、这些鉴定方法都无法给出全面的基因序列分型信息。

技术实现思路

[0012]本专利技术基于大肠杆菌全基因组多位点序列基因序列分型,提出了一种全新的大肠杆菌菌株鉴定方法和系统,能满足生物、医药、农业等多个领域生产和科研中更全面、复杂的大肠杆菌菌株鉴定需求。
[0013]一方面,本专利技术公开了一种大肠杆菌菌株鉴定方法,根据待测大肠杆菌菌株二代测序的核酸序列数据,进行数据质控、数据比对和数据组装后,在构建的全基因组多位点序列分型数据库中比对查找到基因序列分型最接近的菌株,得到鉴定结果;
[0014]所述全基因组多位点序列分型数据库通过以下步骤构建获得:
[0015]S1、大肠杆菌菌株核酸序列获取:从NCBI获取大肠杆菌菌株核酸序列,得到fasta文件;
[0016]S2、大肠杆菌工程菌知识库建立:收集现有的大肠杆菌工程菌信息,建立所述大肠杆菌工程菌知识库;
[0017]S3、大肠杆菌菌株分类:使用mash程序分析所述步骤S1获得的fasta文件,计算所有目标菌株核酸序列两两之间的序列差异性;使用CL层次聚类算法将所有目标菌株根据核酸序列划分为N个大肠杆菌菌株分类;N取大于0的整数;
[0018]S4、参考基因组选取:对于每1个所述步骤S3获得的大肠杆菌菌株分类,计算分类中所有菌株与同类菌株的平均序列差异性;对分类中所有大肠杆菌菌株按与同类菌株的平均序列差异性从小到大排列,选取与分类内部所有菌株核酸序列平均序列差异性最小的菌株核酸序列作为该分类的参考基因组,从而得到大肠杆菌菌株参考基因组;所述大肠杆菌菌株参考基因组的数量为N个,对应N个大肠杆菌菌株分类;
[0019]S5、全基因组多位点序列分型靶基因选取:对于各个所述大肠杆菌菌株分类对应的所述大肠杆菌菌株参考基因组,从NCBI获取所有基因编码区序列;在同一个所述大肠杆菌菌株分类中,对于有相同序列的基因编码区,仅保留其中一个;将过滤后的基因作为该所述大肠杆菌菌株分类的全基因组多位点序列分型靶基因;
[0020]S6、菌株库去冗余:对于各个所述大肠杆菌菌株分类中的所有菌株,保留所述大肠杆菌工程菌知识库包含的菌株,对于所述大肠杆菌工程菌知识库之外的菌株进行去冗余处理:如果多个菌株之间序列差异性小于M,则仅保留与其他同类菌株平均序列差异性最小的菌株;M为0.00005

0.0005(即M具体值根据实践需求在0.00005

0.0005范围内调整。优选地,M=0.0001);
[0021]S7、构建得到所述全基因组多位点序列分型数据库:对于每1个所述大肠杆菌菌株分类,利用blat或blast将该分类中去冗余后的菌株一一比对到该分类的所述大肠杆菌菌株参考基因组的基因编码区上,得到各个菌株的全基因组多位点序列分型靶基因序列分型,构建完成所述全基因组多位点序列分型数据库。
[0022]在一些实施方案中,大肠杆菌工程菌知识库中含有128种大肠杆菌工程菌的信息。大肠杆菌工程菌信息包括NCBI编号、ATCC编号、菌株衍生关系等信息。
[0023]在一些实施方案中,菌株库去冗余后最终共保留1570个大肠杆菌菌株。
[0024]在一些实施方案中,包括以下步骤:
[0025]A1、数据质控;
[0026]A2、数据比对:通过数据比对得到样本在各个所述大肠杆菌菌株分类中的大肠杆菌菌株参考基因组的比对率、对大肠杆菌菌株参考基因组的基因组覆盖率和对大肠杆菌菌株参考基因组的基因组覆盖深度;
[0027]A3、数据组装;
[0028]A4、全基因组多位点序列分型靶基因检索:调用blat或blast程序将所述步骤A3拼
接后的样本contigs比对到各个所述大肠杆菌菌株分类的大肠杆菌菌株参考基因组的基因编码区上,计算所述拼接后的样本contigs包含的各个分类的全基因组多位点序列分型靶基因数量、靶基因序列分型;
[0029]A5、样本大肠杆菌一级分类;在同一个样本中,依次按全基因组多位点序列分型靶基因数量、大肠杆菌菌株参考基因组的对比率和对大肠杆菌菌株参考基因组的基因组覆盖率对所述步骤A4比对的所述大肠杆菌菌株分类降序排列,取排名第一的大肠杆菌菌株分类为该样本所属的目标分类;
[0030]A6、样本大肠杆菌二级分类:在所述步骤A5找到的目标分类中,使用pyMLST程序的wgMLST流程线计算样本基因序列分型与所述目标分类的全基因组多位点序列分型数据库中各个菌株基因序列分型的差异情况,得到与所述样本基因序列分型相似度最高的菌本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种大肠杆菌菌株鉴定方法,其特征在于,根据待测大肠杆菌菌株二代测序的核酸序列数据,进行数据质控、数据比对和数据组装后,在构建的全基因组多位点序列分型数据库中比对查找到基因序列分型最接近的菌株,得到鉴定结果;所述全基因组多位点序列分型数据库通过以下步骤构建获得:S1、大肠杆菌菌株核酸序列获取:从NCBI获取大肠杆菌菌株核酸序列,得到fasta文件;S2、大肠杆菌工程菌知识库建立:收集现有的大肠杆菌工程菌信息,建立所述大肠杆菌工程菌知识库;S3、大肠杆菌菌株分类:使用mash程序分析所述步骤S1获得的fasta文件,计算所有目标菌株核酸序列两两之间的序列差异性;使用CL层次聚类算法将所有目标菌株根据核酸序列差异性划分为N个大肠杆菌菌株分类;N取大于0的整数;S4、参考基因组选取:对于每1个所述步骤S3获得的大肠杆菌菌株分类,计算分类中所有菌株与同类菌株的平均序列差异性;对分类中所有大肠杆菌菌株按与同类菌株的平均序列差异性从小到大排列,选取与分类内部所有菌株核酸序列平均序列差异性最小的菌株核酸序列作为该分类的参考基因组,从而得到大肠杆菌菌株参考基因组;所述大肠杆菌菌株参考基因组的数量为N个,对应N个大肠杆菌菌株分类;S5、全基因组多位点序列分型靶基因选取:对于各个所述大肠杆菌菌株分类对应的所述大肠杆菌菌株参考基因组,从NCBI获取所有基因编码区序列;在同一个所述大肠杆菌菌株分类中,对于有相同序列的基因编码区,仅保留其中一个;将过滤后的基因作为该所述大肠杆菌菌株分类的全基因组多位点序列分型靶基因;S6、菌株库去冗余:对于各个所述大肠杆菌菌株分类中的所有菌株,保留所述大肠杆菌工程菌知识库包含的菌株,对于所述大肠杆菌工程菌知识库之外的菌株进行去冗余处理:如果多个菌株之间序列差异性小于M,则仅保留与其他同类菌株平均序列差异性最小的菌株;M为0.00005

0.0005;S7、构建得到所述全基因组多位点序列分型数据库:对于每1个所述大肠杆菌菌株分类,利用blat或blast将该分类中去冗余后的菌株一一比对到该分类的所述大肠杆菌菌株参考基因组的基因编码区上,得到各个菌株的全基因组多位点序列分型靶基因序列分型,构建完成所述全基因组多位点序列分型数据库。2.如权利要求1所述的大肠杆菌菌株鉴定方法,其特征在于,包括以下步骤:A1、数据质控;A2、数据比对:通过数据比对得到样本在各个所述大肠杆菌菌株分类中的大肠杆菌菌株参考基因组的比对率、对大肠杆菌菌株参考基因组的基因组覆盖率和对大肠杆菌菌株参考基因组的基因组覆盖深度;A3、数据组装;A4、全基因组多位点序列分型靶基因检索:调用blat或blast程序将所述步骤A3拼接后的样本contigs比对到各个所述大肠杆菌菌株分类的大肠杆菌菌株参考基因组的基因编码区上,计算所述拼接后的样本contigs包含的各个分类的全基因组多位点序列分型靶基因数量、靶基因序列分型;A5、样本大肠杆菌一级分类;在同一个样本中,依次按全基因组多位点序列分型靶基因数量、大肠杆菌菌株参考基因组的对比率和对大肠杆菌菌株参考基因组的基因组覆盖率对
所述步骤A4比对的所述大肠杆菌菌株分类降序排列,取排名第一的大肠杆菌菌株分类为该样本所属的目标分类;A6、样本大肠杆菌二级分类:在所述步骤A5找到的目标分类中,使用pyMLST程序的wgMLST流程线计算样本基因...

【专利技术属性】
技术研发人员:陈靓靓李源王佳伟潘轶程朝泽
申请(专利权)人:上海序祯达生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1