基于微生物代谢背景的宏基因组队列匹配方法组成比例

技术编号:39064319 阅读:15 留言:0更新日期:2023-10-12 19:57
本发明专利技术公开了基于微生物代谢背景的宏基因组队列匹配方法,涉及宏基因组技术领域。S1:宏基因组测序数据处理;对来自全宏基因组学的数据和手动输入的meta数据进行标准化处理;S2:微生物主要代谢背景提取;S3:微生物代谢背景匹配;首先通过最近邻匹配算法在不遗漏任何主要代谢成分的情况下,筛选对照组中匹配的样本;S4:匹配效果检查;对匹配后的疾病组和对照组的协变量均值进行平衡性检验;S5:基于匹配队列的差异分析;匹配后的疾病组和对照组数据符合正态分布,则进行配对样本t检验进行差异分析,否则使用成组wilcoxon检验进行差异分析。通过本技术方法,实现微生物研究中病例和对照样本匹配队列的构建,加强宏基因组学研究的因果关系识别能力。的因果关系识别能力。的因果关系识别能力。

【技术实现步骤摘要】
基于微生物代谢背景的宏基因组队列匹配方法


[0001]本专利技术涉及宏基因组
,更具体地说,它涉及基于微生物代谢背景的宏基因组队列匹配方法。

技术介绍

[0002]众所周知,人体含有高度多样化和丰富的微生物群,这些微生物群协调了生理过程和疾病易感性的全面相互作用,并在人类健康和疾病中发挥重要作用。大量证据提示,与人类遗传因素相比,微生物可以解释人群中特定疾病的更高比例的表型变异,因此可作为疾病诊断或治疗的新型生物标志物。
[0003]然而,人类微生物组是高度个性化的,个体之间不同微生物群的相关性会被个体微生物组的独特性所混淆。研究表明,在不同个体之间,微生物群落的组成和功能存在差异。这些差异受遗传、环境、生活方式、饮食、年龄等多种因素,即宿主变量影响,可能掩盖微生物群和疾病之间的真实因果关系。目前研究中,匹配队列的构建是探究微生物和疾病因果关联的主要方式,比如通过双胞胎或亲属控制队列之间宿主混杂因素,或者通过同个体长时间采样形成自身对照。但在实际的队列构建中,坚持临床变量匹配原则具有很大的挑战,这是由于随着临床变量数量的增加,匹配样本的采样难度呈指数级上升。
[0004]既往研究表明,微生物组的组分和丰度受到整个代谢网络的严格约束,同时微生物组的核心代谢功能在不同个体之间是稳定的,因此,“微生物代谢背景”是一个更好的个体样本匹配的微生物基线。

技术实现思路

[0005]本专利技术的目的是提供基于微生物代谢背景的宏基因组队列匹配方法,为在微生物研究中获取匹配的病例和对照样本,从而加强宏基因组学研究的因果关系。
[0006]本专利技术的上述技术目的是通过以下技术方案得以实现的:基于微生物代谢背景的宏基因组队列匹配方法,包括如下步骤方法:
[0007]S1:宏基因组测序数据处理;对来自全宏基因组学的数据和手动输入的meta数据进行标准化处理;包括由MetaPhAn3生成的数据和由UniRef90数据库的HUMAnN3生成的数据;
[0008]S2:微生物主要代谢背景提取;首先输入微生物代谢途径丰度数据作为代谢背景,然后通过主成分分析法,对高维度数据进行降维,在可接受的信息损失范围内,保留最重要的特征,即主要代谢背景;
[0009]S3:微生物代谢背景匹配;首先通过最近邻匹配算法在不遗漏任何主要代谢成分的情况下,筛选对照组中与疾病组匹配的样本;
[0010]S4:匹配效果检查;对匹配后的疾病组和对照组的数据分布和协变量均值进行平衡性检验;
[0011]S5:基于匹配队列的差异分析;匹配后的疾病组和对照组数据符合正态分布,则进
行配对样本t检验进行差异分析,否则使用成组wilcoxon检验进行差异分析,比较疾病和对照组之间真实的差异程度。
[0012]本专利技术进一步设置为:所述步骤S1中,由MetaPhAn3生成的数据包括:

物种水平分类概况,表示从界到种的相对丰度;

是否存在独特的分支特异性标志物;

独特分支特异性标记物的丰度。
[0013]本专利技术进一步设置为:所述步骤S1中,由UniRef90数据库的HUMAnN3生成的数据包括:

基因丰度;

代谢途径覆盖率;

代谢途径丰度。
[0014]综上所述,本专利技术具有以下有益效果:在微生物研究中,实际的队列构建具有很大的挑战,这是由于随着临床变量数量的增加,匹配样本的采样难度将呈指数级上升。由于微生物核心代谢功能在个体之间相对稳定,本专利技术通过微生物代谢背景作为匹配基准,可以在控制宿主混杂因素影响的同时,获取匹配的疾病组与对照组微生物研究队列,从而达到加强宏基因组学研究因果关系的目的。
附图说明
[0015]图1是本专利技术实施例具体流程图;
[0016]图2是本专利技术实施例微生物代谢背景样本匹配方法的示意图;
[0017]图3是本专利技术实施例未匹配微生物研究数据模拟;
[0018]图4是本专利技术实施例不同疾病权重下未匹配和匹配队列识别差异菌种的概率;
[0019]图5是本专利技术实施例代谢背景不受疾病影响时的模拟情况;
[0020]图6是本专利技术实施例代谢背景受疾病影响时的模拟情况;
[0021]图7是本专利技术实施例炎性肠病数据匹配效果(A)分布直方图(B)LOVE图;
[0022]图8是本专利技术实施例炎性肠病匹配前后的地区、年龄、BMI结果。
具体实施方式
[0023]以下结合附图1

8对本专利技术作进一步详细说明。
[0024]实施例:基于微生物代谢背景的宏基因组队列匹配方法,首先,使用主成分分析法(principal component analysis,PCA),从原始不匹配队列的微生物代谢通路中提取主要代谢成分,然后对提取的主要代谢组分进行倾向性评分匹配(propensity score matching,PSM),选择与给定病例样本最接近的对照样本进行匹配,最后构建匹配队列。
[0025]如图1、图2所示,包括如下步骤流程:
[0026]1.宏基因组测序数据处理
[0027]对来自全宏基因组学的数据和手动输入的meta数据进行标准化处理,包括:
[0028]由MetaPhAn3生成的:

物种水平分类概况,表示从界到种的相对丰度(relative_abundance);

是否存在独特的分支特异性标志物(marker_presence);

独特分支特异性标记物的丰度(marker_abundance);
[0029]由UniRef90数据库的HUMAnN3生成的:

基因丰度(gene_families);

代谢途径覆盖率(pathway_coverage);

代谢途径丰度(pathway_abundance)。
[0030]2.微生物主要代谢背景提取
[0031]宿主变量(meta)、微生物菌种相对丰度(relative_abundance)和微生物代谢途径
丰度(pathway_abundance)文件,是微生物研究中最常用的宏基因组数据。首先输入微生物代谢途径丰度数据作为代谢背景,然后通过主成分分析法,对高维度数据进行降维,在可接受的信息损失范围内,保留最重要的特征,即主要代谢背景。
[0032]3.微生物代谢背景匹配
[0033]首先通过最近邻(nearest neighbor,NN)匹配算法在不遗漏任何主要代谢成分的情况下,筛选对照组中可能匹配的样本。其中,倾向评分采用广义线性模型(generalized linear model,GLM)计算,评分的最大距离由卡尺(caliper)设定,卡尺限制了NNs的匹配只能在其范围内进行。
[0034]比率(ratio)用于匹配控制单元的数量本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于微生物代谢背景的宏基因组队列匹配方法,其特征是,包括如下步骤方法:S1:宏基因组测序数据处理;对来自全宏基因组学的数据和手动输入的meta数据进行标准化处理;包括由MetaPhAn3生成的数据和由UniRef90数据库的HUMAnN3生成的数据;S2:微生物主要代谢背景提取;首先输入微生物代谢途径丰度数据作为代谢背景,然后通过主成分分析法,对高维度数据进行降维,在可接受的信息损失范围内,保留最重要的特征,即主要代谢背景;S3:微生物代谢背景匹配;首先通过最近邻匹配算法在不遗漏任何主要代谢成分的情况下,筛选对照组中与疾病组匹配的样本;S4:匹配效果检查;对匹配后的疾病组和对照组的数据分布和代谢背景协变量均值进行平衡性检验;S5:基于匹配队列的差异分析;匹配后的疾病组和对照组数据符合正态分布,则进行配对...

【专利技术属性】
技术研发人员:吴顶峰刘蕾曹苏琪杨柳俞刚李竞
申请(专利权)人:浙江大学医学院附属儿童医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1