当前位置: 首页 > 专利查询>夏炎专利>正文

一种微生物基因数据库的构建方法及系统技术方案

技术编号:32484678 阅读:28 留言:0更新日期:2022-03-02 09:49
本发明专利技术公开了一种微生物基因数据库的构建方法及系统,属于基因数据库构建技术领域。所述方法包括以下步骤:获取目标微生物基因组数据,对获取的基因组数据进行基因预测,获得包含序列和物种注释的基因注释文件;获得每种目标微生物的代表基因;将所述代表基因中的每个基因分别比对到核酸序列数据库,获得比对结果;过滤比对结果,获得基因注释物种信息,保留注释物种与来源物种相同的基因,进而构建所述微生物基因数据库。利用本发明专利技术的构建方法构建微生物基因数据库,可以根据目标微生物的变化对数据库进行更新,实时性更强,利用本发明专利技术构建的微生物数据库,仅包含目标微生物基因序列,对比时间更短。对比时间更短。对比时间更短。

【技术实现步骤摘要】
一种微生物基因数据库的构建方法及系统


[0001]本专利技术属于基因数据库构建
,具体地,涉及一种微生物基因数据库的构建方法及系统。

技术介绍

[0002]近年来,伴随着人体微生物组研究的不断深入,科学家发现了肠道微生物在人体的健康中发挥了很大的促进作用,目前的一些亚健康问题也是因为肠道微生态的平衡被打破导致的。益生菌作为对人体有益的一类微生物,可以很好地帮助恢复肠道微生态平衡,目前已经被普遍应用于膳食补充剂中。然而,由于益生菌种类繁多,不同国家均出台了相应的政策对可食用益生菌的种类进行规定。
[0003]传统的用于微生物的研究是通过对微生物进行培养,再进行生化表型的观察,这样要花费数十天的时间去完成。对于微生物的菌种进行鉴定,近年来发展起来的宏基因组学技术可以直接提取样本DNA进行全基因组测序,通过对这些DNA测序的结果进行分析和解读,已经可以做到对环境中微生物的群落结构、物种分类、系统进化、基因功能及代谢网络等进行研究。伴随着高通量测序技术的发展,目前已经可以做到在单次对至少几百个样本进行同时检测;同时,由于不需要进行培养,也就大大缩短了检测分析时间。
[0004]然而,基于宏基因组测序技术的微生物鉴定分析需要依赖于参考基因集,即通过将测序读长比对到参考基因集,以分析样品中的微生物的种类和基因含量。因此存在不同物种,不同地域的微生物参考基因集。对人类肠道的目标益生菌进行分析,也需要用到参考基因集,通常情况下有两种方法,使用整合基因集(IGC)或者宏基因组系统发育分析(MetaPhlAn)基因库。
[0005]整合基因集(IGC)发表于2014年,包含1267个肠道宏基因组,9879896个基因。IGC存在以下问题:(1)基因数目多,注释微生物种类多,比对时间也非常长,效率较低;(2)基因注释信息长时间未更新,准确性低;(3)公开的基因注释信息只到属水平,无法分析目标益生菌。
[0006]宏基因组系统发育分析(MetaPhlAn)是一种物种注释工具,可从二代测序数据中分析微生物群落的组成。虽然MetaPhlAn有一直更新,但也存在以下局限性:(1)使用序列比对标志基因,来获得相对丰度信息,相对于其他策略而言,假阳性较低,但读数利用率低;(2)物种检出较少,只能检出数据库内的物种;(3)物种注释只到种水平,需要使用配套的StrainPhlAn工具才能分析株水平结果。
[0007]因此,目前应用最为广泛的两种方法都不适合用于分析目标益生菌。但是传统的直接把益生菌的基因组构建成参考数据库,会有大量的重复信息,导致效率不高;另外,由于微生物基因组之间有很多共有片段,如果直接用全基因组作为参考基因组也会影响到检测结果的精度。

技术实现思路

[0008]为了解决上述技术问题中的至少一个,本专利技术采用的技术方案如下:
[0009]本专利技术第一方面提供一种微生物基因数据库的构建方法,包括以下步骤:
[0010]S1,获取目标微生物组合中每种目标微生物的基因组数据,其中,所述目标微生物组合包括N种目标微生物,N≥1;
[0011]S2,对步骤S1获取的基因组数据进行基因预测,获得基因注释文件;
[0012]S3,利用步骤S2获得的所述基因注释文件获得每种目标微生物的代表基因;
[0013]S4,将所述代表基因中的每个基因分别比对到核酸序列数据库,获得比对结果;
[0014]S5,对于每个基因的对比结果,获取该基因的注释物种,若所述注释物种与来源物种相同,则保留该基因;
[0015]S6,利用所有被保留的基因构成所述微生物基因数据库。
[0016]在本专利技术中,所述目标微生物可以是任一微生物,包括但不限于细菌、真菌、病毒,均适用于本专利技术的方法。在本专利技术的一些具体实施方案中,所述目标微生物为细菌,在本专利技术的一些更具体实施方案中,所述目标微生物为可用于食品的细菌。
[0017]在本专利技术的一些实施方案中,步骤S1中,所述获取目标微生物组合中每种目标微生物的基因组数据,可以获得存储于商业或非商业数据库中的基因组数据,也可以是利用高通量测序方法获得的基因组数据。在本专利技术的一些具体实施方案中,所述基因组数据从NCBI数据库下载而来。具体地,首先获得目标微生物的在NCBI中的物种名称和分类学编号;然后,根据物种名称,获取该物种在NCBI中的基因组。在本专利技术的另一种具体实施方案中,所述基因组数据为利用二代测序技术测序得到。
[0018]在本专利技术的一些优选实施方案中,还包括过滤掉组装成长序列片段(Scaffolds)数目≥100的基因组,使得获得的每种目标微生物的各基因组中的长序列片段数目均小于100。
[0019]在本专利技术的一些实施方案中,步骤S2中,可以使用任意能够实现基因预测功能的软件、程序或算法完成所述基因预测。在本专利技术的一些具体实施方案中,利用Prokka软件对基因组数据进行基因预测。
[0020]在本专利技术的一些实施方案中,步骤S3中,针对所述目标微生物组合中的目标微生物n,其中,所述目标微生物n表示目标微生物组合中第n种目标微生物,1≤n≤N,所述目标微生物n的基因组数目M,根据M的大小获得所述目标微生物n的代表基因:
[0021](1)若M=1,则所述目标微生物n的基因组的所有基因为代表基因;
[0022](2)若M≥2,则所有基因组的共有基因为代表基因。
[0023]在本专利技术的一些实施方案中,进一步在,针对上述第(2)种情况,若M≥MA,则判断是否有基因组偏离总体,若有,则剔除偏离总体的基因组,再判断剩余基因组中是否有基因组偏离总体,若有,则再剔除偏离总体的基因组,直至剩余基因组中没有基因组偏离总体或者剩余基因组数目M<MA,则提取剩余基因组的共有基因,作为所有基因组修正的共有基因,并作为所述目标微生物n的代表基因,其中,MA≥3,例如MA=3,4,5,6,7,8,9,10或更大。
[0024]在本专利技术的一些实施方案中,按如下标准判断基因组是否偏离总体:若剔除某个基因组后,剩余基因组的共有基因数目比未剔除前增加30%以上,例如30%、35%、40%、50%,则该基因组偏离总体。
[0025]在本专利技术的一些实施方案中,当剔除或未剔除偏离基因组的基因组数目M≥MB,其中,MB≥3,例如MB=3,4,5,6,7,8,9,10或更大,则进一步根据以下步骤重新确定共有基因,即确定是否需要对共有基因进行修正:
[0026]S31,根据所述目标微生物n的M个基因组中各基因的来源基因组情况组成m种基因组合,其中,也就是说,对于一个基因,要么只来源于1个基因组,共有个组合;要么只来源于其中2个基因组,共有个组合;
……
;要么只来源于其中M

1个基因组,共有个组合;要么来源于M个基因组,共有个组合,因此共有个组合。换一种说法,对于基因组合,每个基因组要么包含该基因组合里的基因,要么不包含来源于这个基因组合的基因,即每个基因组都有2种情况,则会有本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种微生物基因数据库的构建方法,其特征在于,包括以下步骤:S1,获取目标微生物组合中每种目标微生物的基因组数据,其中,所述目标微生物组合包括N种目标微生物,N≥1;S2,对步骤S1获取的基因组数据进行基因预测,获得基因注释文件;S3,利用步骤S2获得的所述基因注释文件获得每种目标微生物的代表基因;S4,将所述代表基因中的每个基因分别比对到核酸序列数据库,获得比对结果;S5,对于每个基因的对比结果,获取该基因的注释物种,若所述注释物种与来源物种相同,则保留该基因;S6,利用所有被保留的基因构成所述微生物基因数据库。2.根据权利要求1所述的一种微生物基因数据库的构建方法,其特征在于,在步骤S4之前或步骤S5之后进一步包括对基因进行去冗余的步骤。3.根据权利要求1或2所述的一种微生物基因数据库的构建方法,其特征在于,步骤S3中,针对所述目标微生物组合中目标微生物n,其中,1≤n≤N,所述目标微生物n的基因组数目M,根据M的大小获得所述目标微生物n的代表基因:(1)若M=1,则所述目标微生物n的基因组的所有基因为代表基因;(2)若M≥2,则所有基因组的共有基因为代表基因。4.根据权利要求3所述的一种微生物基因数据库构建方法,其特征在于,在第(2)种情况,若M≥MA,则判断是否有基因组偏离总体,若有,则剔除偏离总体的基因组,再判断剩余基因组中是否有基因组偏离总体,若有,则再剔除偏离总体的基因组,直至剩余基因组中没有基因组偏离总体或者剩余基因组数目M<MA,则提取剩余基因组的共有基因,作为所有基因组修正的共有基因,并作为所述目标微生物n的代表基因,其中,MA≥3。5.根据权利要求3所述的一种微生物基因数据库的构建方法,其特征在于,若M≥MB,进一步根据以下步骤重新确定共有基因:S31,根据所述目标微生物n的M个基因组中各基因的来源基因组情况组成m种基因组合,其中,S32,统计每种基因组合中的基因数目,并按从大到小顺序将所述基因数目进行排序并获得位于第S位的基因数目Q,S33,判断来源于M个基因组的基因组合的基因数目是否小于Q:

若来源于M个基因组的基因组合的基因数目不小于Q,则直接提取M个基因组的共有基因;

若来源于M个基因组的基因组合的基因数目小于Q,则:S331,选取基因数目最多的基因组合的来源基因组作为亚群,提取亚群的共有基因;S332,剔除S331中亚群中的基因组,若剩余的基因组数目<MB,则提取剩余基因组的共有基因;若剩余的基因组数目≥MB,则重复S31

S33步骤再次提取共有基因;S34,将步骤S33得到的所有共有基因合并到一起,...

【专利技术属性】
技术研发人员:徐晓强夏炎王晓凯谢海亮
申请(专利权)人:夏炎
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1