一种微生物组-代谢物组特征评价和分组的方法和系统技术方案

技术编号:33558772 阅读:24 留言:0更新日期:2022-05-26 22:55
本发明专利技术提供了一种微生物组

【技术实现步骤摘要】
一种微生物组

代谢物组特征评价和分组的方法和系统


[0001]本专利技术涉及生物信息处理
,具体涉及一种微生物组

代谢物组特征评价和分组的方法和系统。

技术介绍

[0002]代谢组和微生物组在人体中普遍存在相互作用。代谢图谱密切反映了微生物的组成和功能,代谢过程和表达同时又受到微生物组的反馈调控
[1]。目前,微生物组

代谢组特征评价和分组的方法多种多样,大部分为两个组学间的相关性分析和不同组别间的差异性分析。
[0003]相关性分析是指对2个或多个具备相关性的变量元素进行分析,从而衡量2个变量因素的相关密切程度。利用相关性分析进行关联变量的筛选是一种常用的科学研究策略。Pearson积相关是Karl Pearson定义的经典相关分析方法
[2],它可以衡量两个数据集合是否在一条线上面,以此来衡量定距变量间的线性关系。Spearman秩相关
[3]是一种类似于Pearson积相关方法的非参数相关方法,通过利用单调方程评价两个统计变量的相关性。随着经典相关分析的广泛应用,在此基础上发展延伸出了很多的适用于不同数据类型的相关分析方法,比如SparCC
[4]和CCLasso
[5],其是针对组分数据内部变量的相关性研究而产生的方法,它们能够更加精准的在该类数据集中找到关联对。最大信息系数(MIC)
[6]是一种非参数相关分析方法,用于衡量两个变量X和Y之间的线性或非线性关联的强度,常用于特征选择。r/>[0004]差异性分析是用于识别科学实验中实验组与对照组之间是否有差异以及差异是否显著的常用数据分析方法。差异性分析通常有三种方法,分别为方差分析(ANOVA)
[7],T检验
[8]和卡方检验
[9]。ANOVA是用于两个及两个以上样本均数差别的显著性检验,通过分析研究不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。T检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。卡方检验通过统计样本的实际观测值与理论推断值之间的偏离程度来确定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。
[0005]虽然传统的方法促进了大量的代谢组

微生物组特征的鉴定和识别,对了解微生物和代谢对健康和疾病的影响具有一定的帮助。然而,这些研究结果的稳健性和可靠性仍存在一些问题有待解决。首先,通常的代谢组

微生物组研究可以得到大量显著差异和相关的特征,这使得无法准确确定可靠的特征,对后续进行特征研究造成一定的困难。其次,大部分研究都只关注单个分子标记物特征,忽略了代谢组

微生物组特征与功能的隶属关系,导致无法解释这些特征的系统生物学意义。另外,传统的差异分析过于强调实验组和对照组间的差异性,忽略了代谢组

微生物组特征的丰度变化情况,往往丰度变化明显的特征更为重要和关键。
[0006]因此,目前需要一种由差异性分析和相关分析得到的代谢组

微生物组特征组成
的网络拓扑关系、代谢组

微生物组特征与功能的隶属关系以及代谢组

微生物组特征丰度组成的微生物组

代谢物组特征评价和分组的方法和系统来进一步识别各类疾病的代谢组

微生物组中更为关键且具有系统生物学意义的枢纽特征以及这些特征的分类情况,解决传统方法无法准确识别关键的代谢组

微生物组特征的问题,为研究各类疾病的生物标志物提供新思路新方法。

技术实现思路

[0007]为了克服现有技术中的缺陷,本专利技术提供了一种微生物组

代谢物组特征评价和分组的方法和系统。
[0008]为实现上述目的,本专利技术采用如下技术方案:
[0009]本专利技术的第一方面是提供一种微生物组

代谢物组特征评价和分组的方法,包括如下步骤:
[0010]步骤一,获得代谢物特征数据、微生物特征数据、代谢组功能特征数据,以及微生物组功能特征数据;其中,代谢物特征数据为代谢物的绝对定量浓度数据,微生物特征数据为微生物物种丰度数据,微生物组功能特征数据由KEGG注释得到,代谢组功能特征数据由基于KEGG数据库的算法得到;
[0011]步骤二,将代谢物特征数据与代谢组功能特征数据合并,统称为代谢组特征数据;将微生物特征数据与微生物组功能特征数据合并,统称为微生物组特征数据;然后利用相关性分析方法进行代谢组特征数据和微生物组特征数据之间的自相关和互相关分析,得到代谢组

代谢组数据关联对特征、微生物组

微生物组数据关联对特征以及代谢组

微生物组数据关联对特征;
[0012]步骤三,预设的相关性系数大小和显著性大小为阈值筛选步骤二中生成的各关联对特征,之后以筛选后的关联对特征为边,构建全局相关网络;按照以下公式I计算网络节点特征的评价得分(Integrated Importance Score,IIS):
[0013]IIS=a
·
DFS+b
·
DS+c
·
ES+d
·
AS
[0014]其中,DFS表示差异得分;DS表示度得分;ES表示边得分;AS表示丰度得分;a+b+c+d=1;
[0015]步骤四,通过预设的IIS阈值,进一步筛选大于该IIS阈值的网络节点特征,确定其为枢纽特征;
[0016]步骤五,基于代谢物与功能关系数据库以及微生物与功能关系数据库,确定代谢物/微生物特征与功能的隶属关系,进而对代谢组

微生物组网络节点特征进行分组,确定关键功能群;和
[0017]步骤六,对上述关键功能群中的代谢物

微生物关联对特征的相关性系数进行排序,确定最关键的代谢物

微生物关联对特征。
[0018]进一步地,步骤一中计算代谢组功能特征数据的步骤如下:
[0019](1)输入原始的代谢物特征丰度数据;
[0020](2)列出每个代谢物特征从属的KEGG功能ID;
[0021](3)将原始的代谢物特征的丰度大小作为该代谢物在从属的KEGG功能里面的得分,计算每个KEGG功能包含的代谢物得分总和作为该KEGG功能的得分;
[0022](4)计算每个KEGG功能包含的代谢物个数并统计该KEGG功能在KEGG数据库中包含的代谢物总数,算出比值;
[0023](5)计算每个KEGG功能的得分与步骤(4)算出的比值的商作为该功能的特征丰度值大小,即代谢组功能特征数据。
[0024]进一步地,步骤二中的相关性分析方法为Spearman秩相关分析。
本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种微生物组

代谢物组特征评价和分组的方法,其特征在于,包括如下步骤:步骤一,获得代谢物特征数据、微生物特征数据、代谢组功能特征数据,以及微生物组功能特征数据;其中,代谢物特征数据为代谢物的绝对定量浓度数据,微生物特征数据为微生物物种丰度数据,微生物组功能特征数据由KEGG注释得到,代谢组功能特征数据由基于KEGG数据库的算法得到;步骤二,将代谢物特征数据与代谢组功能特征数据合并,统称为代谢组特征数据;将微生物特征数据与微生物组功能特征数据合并,统称为微生物组特征数据;然后利用相关性分析方法进行代谢组特征数据和微生物组特征数据之间的自相关和互相关分析,得到代谢组

代谢组数据关联对特征、微生物组

微生物组数据关联对特征以及代谢组

微生物组数据关联对特征;步骤三,预设的相关性系数大小和显著性大小为阈值筛选步骤二中生成的各关联对,之后以筛选后的关联对为边,构建全局相关网络;按照以下公式I计算网络节点特征的评价得分IIS:IIS=a
·
DFS+b
·
DS+c
·
ES+d
·
ASI其中,DFS表示差异得分;DS表示度得分;ES表示边得分;AS表示丰度得分;a+b+c+d=1;步骤四,通过预设的IIS阈值,进一步筛选大于该IIS阈值的网络节点特征,确定其为枢纽特征;步骤五,基于代谢物与功能关系数据库以及微生物与功能关系数据库,确定代谢物/微生物特征与功能的隶属关系,进而对代谢组

微生物组网络节点特征进行分组,确定关键功能群;和步骤六,对所述关键功能群中的代谢物

微生物关联对的相关性系数进行排序,确定最关键的代谢物

微生物关联对特征。2.根据权利要求1所述的方法,其特征在于,步骤一中计算代谢组功能特征数据的步骤如下:(1)输入原始的代谢物特征丰度数据;(2)列出每个代谢物特征从属的KEGG功能ID;(3)将原始的代谢物特征的丰度大小作为该代谢物在从属的KEGG功能里面的得分,计算每个KEGG功能包含的代谢物得分总和作为该KEGG功能的得分;(4)计算每个KEGG功能包含的代谢物个数并统计该KEGG功能在KEGG数据库中包含的代谢物总数,算出比值;(5)计算每个KEGG功能的得分与步骤(4)算出的比值的商作为该功能的特征丰度值大小,即代谢组功能特征数据。3.根据权利要求1所述的方法,其特征在于,步骤二中的相关性分析方法为Spearman秩相关分析。4.根据权利要求1所述的方法,其特征在于,步骤三中预设的相关性系数大小和显...

【专利技术属性】
技术研发人员:贾伟陈天璐孙涛郑晓皎谢国祥孙栋楠赵爱华任振兴
申请(专利权)人:上海市第六人民医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1