当前位置: 首页 > 专利查询>北京大学专利>正文

一种基于宏基因组数据分析微生物群体感应效应的方法技术

技术编号:27358934 阅读:25 留言:0更新日期:2021-02-19 13:40
一种基于宏基因组数据分析微生物群体感应效应的方法,包括:在第一数据库和第二数据库中获取序列;将序列合并得到合并数据集;对合并数据集分类得到结构化数据集;对结构化数据集进行聚类分析,去除冗余序列;检查数据集中序列的注释,去除非群体感应基因序列;基于序列比对及系统发育学分析方法对数据集进行自校验,去除非群体感应基因序列;确定群体感应基因的保守性结构域或基元序列;检查保守性结构域或基元序列,去除不含保守性结构域或基元序列的序列;整合所有序列,构建群体感应基因数据库;将宏基因组数据在群体感应基因数据库中比对,获取群体感应基因并计算丰度;对群体感应基因进行宿主溯源分析,以确定其在分类学水平上的宿主。学水平上的宿主。学水平上的宿主。

【技术实现步骤摘要】
一种基于宏基因组数据分析微生物群体感应效应的方法


[0001]本专利技术属于生物
,具体涉及一种基于宏基因组数据分析微生物群体 感应效应的方法。

技术介绍

[0002]细菌群体中存在独特的交流方式,被定义为群体感应(Quorum sensing)。在 这一过程中,细菌在胞内合成信号分子并将其释放到胞外环境中,随着细菌密度 不断增长,胞外信号分子的浓度逐渐升高,达到群体感应的阈值浓度后,被相关 受体蛋白特异性结合,复合物与下游靶基因的启动子序列结合,激发目标基因转 录表达,从而调控多种菌群行为。
[0003]常见的信号分子包括酰化高丝氨酸内酯类(Acyl-homoserine lactones,AHL)、 霍乱弧菌I类自诱导物(Cholerae autoinducer-1,CAI-1)、可扩散因子(Diffusiblesignal factor,DSF)、环二鸟苷酸(c-di-GMP)、2型自诱导物(Autoinducer-2, AI-2)等。信号分子合成酶、受体蛋白或降解酶编码基因,即为群体感应基因。
[0004]时至今日,人们基于纯培养、基因敲除及外源添加信号分子等技术手段,鉴 别出了为数众多、结构多样的群体感应基因及其潜在相互作用。然而,单纯基于 上述技术手段,对群体感应过程的研究非常有限,其局限性包括:不可纯培养的 微生物将被遗漏,难以窥见群体感应过程的全貌;难以探究大尺度系统(如自然 生态系统)中群体感应基因的多样性及时空分布规律;难以探究混合菌群的多种 信号传导过程如何交互调控全局基因表达、发挥生态作用。
[0005]近年来,高通量测序技术迅速发展。因其具有通量大、精确度高、信息量丰 富等优点,高通量测序技术被广泛应用于微生物生态学研究,探究复杂微生物群 体的多样性、群落结构及生态作用。尤其地,高通量测序技术解决了大部分微生 物无法被分离培养的问题,为这部分微生物的代谢潜能及生态功能研究提供了有 力的技术手段。然而,目前仍然缺乏基于高通量测序技术检测群体感应基因并进 行宿主溯源分析的有效方法,这使得人工系统与自然生态系统中微生物群感效应 的研究受到限制。

技术实现思路

[0006]针对目前难以从海量的宏基因组数据中快速、高效地检测群体感应基因的问 题,本专利技术首次提出采用聚类分析、序列比对、系统发育学分析及人工筛查等方 法构建高质量的群体感应基因数据库,通过序列比对获取群体感应基因,计算其 丰度并追溯其宿主的关键技术。该方法能够解决大部分微生物无法被分离培养的 问题,为人工系统与自然生态系统中微生物群感效应的进一步研究提供有力的技 术手段。
[0007]本专利技术提供一种基于宏基因组数据分析微生物群体感应效应的方法,其包括: 步骤1),在第一数据库中获取所有注释与群体感应基因相关的序列;步骤2), 在第二数据库中获取所有注释与群体感应基因相关的序列;步骤3),将步骤1) 和步骤2)所得到的序列合
并,得到合并数据集;步骤4),对所述合并数据集进 行分类,得到结构化数据集;步骤5),对所述结构化数据集的序列进行聚类分 析,去除冗余序列;步骤6),对去除冗余序列后的数据集,检查该数据集中的 序列的注释,并从中去除不属于所述群体感应基因的序列;步骤7),对步骤6) 得到的数据集,基于序列比对及系统发育学分析方法进行自校验,从中去除不属 于所述群体感应基因的序列;步骤8),基于文献检索结果,确定所述群体感应 基因的保守性结构域和/或基元序列;步骤9),对步骤7)得到的数据集,检查 所述保守性结构域或基元序列,去除不具有所述保守性结构域或基元序列的序列; 步骤10),整合以上得到的所有序列,构建所述群体感应基因的数据库;步骤11), 将宏基因组数据在所述群体感应基因的数据库中进行比对,获取所述群体感应基 因并计算其丰度;步骤12),对所获取的所述群体感应基因进行宿主溯源分析, 以确定其在各个分类学水平上的宿主。
[0008]优选地,所述第一数据库是美国国家生物信息中心(National Center forBiotechnology Information,NCBI)的非冗余数据库(Non-redundant database,NR) (https://www.ncbi.nlm.nih.gov/)。
[0009]优选地,所述第二数据库是UniProt蛋白质数据库的Swiss-Prot蛋白质序 列数据库(https://www.uniprot.org/uniprot/?query=reviewed:yes)。
[0010]优选地,所述信号分子包括:酰化高丝氨酸内酯类、霍乱弧菌I类自诱导物、 可扩散因子、环二鸟苷酸、2型自诱导物。
[0011]优选地,在步骤4)对所述合并数据集进行分类的方式为:首先根据群体感 应所使用的信号分子对所述合并数据集进行分类,然后在各个信号分子的分类之 下,根据基因功能进行再分类。
[0012]优选地,在步骤4),根据基因功能再分类成信号分子的合成酶、受体蛋白 和/或降解酶编码基因。
[0013]优选地,在步骤5),使用CD-HIT软件对所述结构化数据集的序列进行聚 类分析。
[0014]优选地,在步骤7),基于序列比对方法进行自校验包括:使用DIAMOND 软件用所述数据集中的任一序列在所述数据集中作序列比对,E值设置为1e-5, 观察匹配度排在第二的序列,比较所述匹配度排在第二的序列与所述任一序列的 注释,若所述匹配度排在第二的序列与所述任一序列的注释相同,则将所述任一 序列和所述匹配度排在第二的序列都加入到所述群体感应基因的数据库中,若所 述匹配度排在第二的序列与所述任一序列的注释不相同,则利用NCBI NR数据 库,重新对所述匹配度排在第二的序列与所述任一序列进行注释。基于系统发育 学分析方法进行自校验包括:使用MEGA软件对所述数据集中的任一序列进行 系统发育学分析,基于邻接法构建系统发育树,对于遗传距离超出预定值的序列, 用所述遗传距离超出预定值的序列在NCBI NR数据库中作序列比对,参照匹配 度排在第一的序列,重新注释所述遗传距离超出预定值的序列。
[0015]优选地,在步骤9),使用MEGA软件或NCBI中的CD-search工具来检查 所述保守性结构域或基元序列。
[0016]优选地,在步骤11),通过以下公式计算所述群体感应基因的丰度(Reads Per Kilobase per Million mapped reads,RPKM):
Information,NCBI)的非冗余数据库(Non-redundant database,NR) (https://www.ncbi.nlm.nih.gov/)。
[0032]步骤2),在第二数据库中进行关键词搜索,获取所有注释与群体感应基因 相关的序列。第二数据库优选是UniProt蛋白质数据库的Swiss-Prot蛋白质序 列数据库(https://www.uniprot.org/uniprot/?query=reviewe本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于宏基因组数据分析微生物群体感应效应的方法,其包括以下:步骤1),在第一数据库中获取所有注释与群体感应基因相关的序列;步骤2),在第二数据库中获取所有注释与所述群体感应基因相关的序列;步骤3),将步骤1)和步骤2)所得到的序列合并,得到合并数据集;步骤4),对所述合并数据集进行分类,得到结构化数据集;步骤5),对所述结构化数据集的序列进行聚类分析,去除冗余序列;步骤6),针对去除冗余序列后的数据集,检查所述去除冗余序列后的数据集中的序列的注释,并从中去除不属于所述群体感应基因的序列;步骤7),针对步骤6)得到的数据集,基于序列比对和系统发育学分析方法进行自校验,从中去除不属于所述群体感应基因的序列;步骤8),基于文献检索结果,为所述群体感应基因确定保守性结构域和/或基元序列;步骤9),针对步骤7)得到的数据集,检查所述保守性结构域和/或基元序列,去除不具有所述保守性结构域和/或基元序列的序列;步骤10),整合以上得到的所有序列,构建所述群体感应基因的数据库;步骤11),将宏基因组数据在所述群体感应基因的数据库中进行比对,获取所述群体感应基因并计算其丰度;步骤12),对所获取的所述群体感应基因进行宿主溯源分析,以确定其在各个分类学水平上的宿主。2.根据权利要求1所述的基于宏基因组数据分析微生物群体感应效应的方法,其特征在于:所述第一数据库是美国国家生物信息中心的非冗余数据库。3.根据权利要求1或2所述的基于宏基因组数据分析微生物群体感应效应的方法,其特征在于:所述第二数据库是UniProt蛋白质数据库的Swiss-Prot蛋白质序列数据库。4.根据权利要求1所述的基于宏基因组数据分析微生物群体感应效应的方法,其特征在于:在步骤4)对所述合并数据集进行分类的方式为:首先根据群体感应所使用的信号分子对所述合并数据集进行分类,然后在各个所述信号分子的分类之下,根据基因功能进行再分类,分类成所述信号分子的合成酶、受体蛋白和/或降解酶编码基因。5.根据权利要求4所述的基于宏基因组数据分析微生物群体感应效应的方法,其特征在于:所述信号分子包括:酰化高丝氨酸内酯类、霍乱弧菌I类自诱导物、可扩散因子、环二鸟苷酸和/或2型自诱导物。6.根据权利要求1所述的基于宏基因组数据分析微生物群体感应...

【专利技术属性】
技术研发人员:刘思彤潘珏君赵华章陈倩
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1