一种聚类泛基因组数据库构建方法技术

技术编号:34985268 阅读:48 留言:0更新日期:2022-09-21 14:29
本发明专利技术提供一种聚类泛基因组数据库构建方法,其特征在于,包括如下步骤:步骤a)序列相似性计算:计算微生物菌株基因组序列的相似性;步骤b)序列聚类:根据序列的相似性计算结果进行聚类,将相似序列聚为同一簇;步骤c)构建聚类泛基因组数据库:对于聚类之后的每一簇,构建该簇所有菌株的泛基因组,作为该簇菌株的序列特征,每簇泛基因组序列包含序列ID以及与原始菌株对应信息,进而构建成物种的聚类泛基因组数据库。构建的数据库在保证数据库完整的情况下,极大地缩小数据库体量,可应用于快速、准确鉴定出病原微生物的属性和来源。准确鉴定出病原微生物的属性和来源。准确鉴定出病原微生物的属性和来源。

【技术实现步骤摘要】
一种聚类泛基因组数据库构建方法


[0001]本专利技术属于生信分析领域,具体涉及一种聚类泛基因组数据库构建方法、执行所述方法的电子设备和计算机存储介质。

技术介绍

[0002]传统药敏检测方法如纸片扩散法和肉汤稀释法,耗时长,且需要先将细菌分离培养为纯培养物。传统的溯源或同源性分析往往依赖于从头开始的系统发育分析,每得到一株新纯培养物,对菌株序列进行一次新的系统发育分析,观察该序列在系统发育树上的位置。此类方法由于需要如细菌的分离培养、基因组提取、基因组组装、基因功能注释、核心基因组分析、系统发育树分析等步骤,所需时间长,且比对结果严重依赖于各实验室或医院纳入的菌株范围。
[0003]菌株纳入范围的局限性可能会错过院内暴发或者社区暴发,导致更多感染性事件的发生。无法得知基因组属性还可能导致用药错误或药物滥用,例如同样是肺炎克雷伯杆菌,产KPC型碳青霉烯酶的病原体和不产KPC型碳青霉烯酶所用的药物是不同的。
[0004]如果能报告出与该病原体相近的病原体的基因组属性、分型和来源,药敏结果等基本信息,同时报告出该病原体所拥有的耐药或毒力基因,就能根据之前的药敏结果及时精确用药,对症治疗,拯救危及患者,减少抗生素的滥用,规避院内或社区暴发。
[0005]有鉴于此,提出本专利技术。

技术实现思路

[0006]本专利技术的目的是提供一种聚类泛基因组数据库构建方法,此方法利用数据库中序列的相似性将相似的序列聚类为簇,构建能代表簇的泛基因组以减少需要比对数据库的大小,构建的数据库在保证数据库完整的情况下,极大地缩小数据库体量,可应用于快速、准确鉴定出病原微生物的属性和来源。具体提供如下技术方案:实施方式1、一种聚类泛基因组数据库构建方法,其特征在于,包括如下步骤:步骤a)序列相似性计算:计算微生物菌株基因组序列的相似性;步骤b)序列聚类:根据序列的相似性计算结果进行聚类,将相似序列聚为同一簇;步骤c)构建聚类泛基因组数据库:对于聚类之后的每一簇,不重复地提取该簇所有菌株的泛基因组,作为该簇菌株的序列特征,每簇泛基因组序列包含序列ID以及与原始菌株对应信息,进而构建成物种的聚类泛基因组数据库。
[0007]实施方式2. 根据实施方式1所述的方法,其特征在于,所述的微生物菌株基因组序列包括收集或自建的菌株序列数据及属性信息,和/或收集的公共数据库中菌株序列数据及属性信息。
[0008]实施方式3. 根据实施方式1所述的方法,其特征在于,所述的微生物菌株基因组序列为二代组装或三代组装或二代和三代混合组装的基因组;所述公共数据库采用NCBI中的Refseq数据库。
[0009]实施方式4. 根据实施方式2所述的方法,其特征在于,所述方法还包括:根据微生物菌株基因组序列及属性信息,整理所有菌株、序列及其属性信息,构建菌株

序列

属性信息表;根据构建的物种聚类泛基因组数据库和菌株

序列

属性信息表构建聚类泛基因组的序列ID

菌株

序列

属性信息表。
[0010]实施方式5. 根据实施方式2所述的方法,其特征在于,所述的属性信息包括菌株ID、菌株名称、菌株分类、序列ID、收集地点、提交地点、收集时间、提交时间、基因组信息、耐药基因、MLST分型、KL分型、药敏结果及分类属性信息中的一个或多个。
[0011]实施方式6. 根据实施方式1所述的方法,其特征在于,所述的步骤a)中,取ANI距离作为序列相似性的衡量标准,或通过提取核心基因组构建系统进化树或bac120基因集构建系统进化树,根据进化距离作为序列相似性的衡量标准;所述的步骤b)中,序列聚类采用层次聚类法。
[0012]实施方式7. 根据实施方式1所述的方法,其特征在于,所述方法还包括:构建耐药和毒力基因数据库:从耐药数据库和毒力基因数据库下载序列及相关数据,作为本地耐药和毒力基因数据库。
[0013]实施方式8. 根据实施方式1

7任一项所述的方法,其特征在于,所述方法还包括:收集微生物菌株基因组序列实时更新数据库。
[0014]实施方式9. 一种电子设备,其特征在于,包括:处理器和存储器;所述处理器和存储器相连,其中,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以执行实施方式1至8任一项所述的方法。
[0015]实施方式10. 一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,执行实施方式1至8任一项所述的方法。
[0016]与现有技术相比,本专利技术利用数据库中序列的相似性将相似的序列聚类为簇,构建能代表簇的泛基因组以减少需要比对数据库的大小,由此构建一个能包含收集菌株信息的数据库,在保证数据库完整的情况下,极大的缩小数据库体量,简化溯源性分析,本专利技术至少具有如下优势:1. 本专利技术首次提出将数据聚类后提取每一簇的泛基因组作为该簇所有菌株的特征,极大的缩小了序列比对时的数据库大小,在保证准确度的情况下极大的缩短了时间。
[0017]2. 本专利技术首次提出构建适用于检测院内或社区暴发的数据库,本专利技术的数据库设计理念既有自收集的菌株,又有公共数据库中的菌株,着重收集院内暴发或者社区暴发菌株,既考虑到了国内流行菌株的情况,又有公共数据库的数据,保证了如果国外菌株流入,能及时分辨该流入菌株的可能来源和菌株属性。
[0018]3. 本专利技术中耐药基因和毒力基因数据库可追踪抗菌药物耐药性中涉及的所有基因以及决定菌株毒性的所有基因,为感染治疗提供更全面的参考。
[0019]4. 本专利技术适用于一代、二代、三代测序数据,尤其适用于三代测序,无论是纯病原微生物或者是三代宏基因组测序得到的数据。
附图说明
[0020]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0021]图1为本专利技术构建聚类泛基因组数据库的基础流程图。
[0022]图2为本专利技术实施例1中数据库的结构示意图。
具体实施方式
[0023]下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0024]以下术语或定义仅仅是为了帮助理解本专利技术而提供。这些定义不应被理解为具有小于本领域技术人员所理解的范围。
[0025]除非在下文中另有定义,本专利技术具体实施方式中所用的所有技术术语和科学术语的含义意图与本领域技术人员通常所理解的相同。虽然相信以下术语对于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种聚类泛基因组数据库构建方法,其特征在于,包括如下步骤:步骤a)序列相似性计算:计算微生物菌株基因组序列的相似性;步骤b)序列聚类:根据序列的相似性计算结果进行聚类,将相似序列聚为同一簇;步骤c)构建聚类泛基因组数据库:对于聚类之后的每一簇,构建该簇所有菌株的泛基因组,作为该簇菌株的序列特征,每簇泛基因组序列包含序列ID以及与原始菌株对应信息,进而构建成物种的聚类泛基因组数据库。2.根据权利要求1所述的方法,其特征在于,所述的微生物菌株基因组序列包括收集或自建的菌株序列数据及属性信息,和/或收集的公共数据库中菌株序列数据及属性信息。3.根据权利要求2所述的方法,其特征在于,所述的微生物菌株基因组序列为二代组装或三代组装或二代和三代混合组装的基因组;所述公共数据库采用NCBI中的Refseq数据库。4.根据权利要求2所述的方法,其特征在于,所述方法还包括:根据微生物菌株基因组序列及属性信息,整理所有菌株、序列及其属性信息,构建菌株

序列

属性信息表;根据构建的物种聚类泛基因组数据库和菌株

序列

属性信息表构建聚类泛基因组的序列ID

菌株

菌株序列

【专利技术属性】
技术研发人员:王辉王舒意孙世俊郭一凡王启李振中
申请(专利权)人:北京大学人民医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1