基于肠道微生物菌群结构的肠型分型方法、装置及介质制造方法及图纸

技术编号:37169007 阅读:14 留言:0更新日期:2023-04-20 22:41
本申请涉及肠型分型技术领域,公开一种基于肠道微生物菌群结构的肠型分型方法,包括:获取肠道菌群测序数据;肠道菌群测序数据包括肠道菌群16s扩增子数据和宏基因组测序数据;对肠道菌群测序数据进行质控和物种注释分析,以得到样本肠道菌群的第一相对丰度信息;根据第一相对丰度信息及卡方验证方法进行筛选以得到肠道菌群特征数据;将肠道菌群特征数据输入预设肠型预测模型进行肠型预测。本申请对16s扩增子和宏基因组测序数据处理分析得到肠道菌群特征数据,并利用预设肠型预测模型进行肠道菌群分型以预测肠型,相比聚类方法,机器学习方法能够提高肠型鉴定的效率和准确性,可对单个和多个样本进行肠型鉴定,也不局限于单一来源的样本。一来源的样本。一来源的样本。

【技术实现步骤摘要】
基于肠道微生物菌群结构的肠型分型方法、装置及介质


[0001]本申请涉及肠型分型
,特别是涉及一种基于肠道微生物菌群结构的肠型分型方法、装置及介质。

技术介绍

[0002]近年来的肠道微生物研究已经广泛证明了个体间肠道微生物群落的差异及其健康状态相关性。在微生物组成上,人们对肠道微生物的认识从在门水平到现在的属种等分辨率更高的分类单元。但肠道微生物是不同微生物群落组成的连续统一体,构成极其复杂,因此确定肠道微生物群落结构及其背后的机制才可以更好地了解人体的健康或疾病状态。后续的肠型影响因素研究表明:肠型与性别、年龄、体重均无关,而与饮食习惯有关;药物及健康/疾病状态亦与菌群结构相关。因此,类似“肠型”的肠道菌群结构特征绘制可作为健康状态判定和治疗随访的有效辅助手段。
[0003]2011年,欧洲分子生物学实验室(EMBL)首次提出“肠型”概念,即基于菌落组成的无监督聚类,将受检个体进行分类,不同类别定义为特定的肠型。研究者从33例人类粪便样本中鉴定出三种肠型。这三种肠型都可以通过三个菌属之一的丰度变化来识别:拟杆菌属(肠型1)、普氏菌属(肠型2)和瘤胃球菌(肠型3),并且该研究在另外两个人群中(154个美国人和85个丹麦人)也发现了相同的现象。目前对肠型的鉴定方法主要为通过无监督聚类方法将受检人群分类,以此鉴定样本的肠型。通过聚类方法对肠型进行判断,往往对样本数量有一定的要求,肠型鉴定效率较低;由于样本量以及聚类簇数目的不确定性,算法稳健性打折扣;并且该方法适用于单一的测序数据来源,对多来源数据分型的结果稳定性不明。
[0004]因此,如何提高肠型鉴定的效率和准确性,并且既可对单个样本,又能对多个样本进行肠型鉴定,也不局限于单一来源的样本是本领域技术人员亟需要解决的问题。

技术实现思路

[0005]本申请的目的是提供一种基于肠道微生物菌群结构的肠型分型方法、装置及介质,用于提高肠型鉴定的效率和准确性,并且既可对单个样本,又能对多个样本进行肠型鉴定,也不局限于单一来源的样本。
[0006]为解决上述技术问题,本申请提供一种基于肠道微生物菌群结构的肠型分型方法,包括:
[0007]获取肠道菌群测序数据;所述肠道菌群测序数据包括肠道菌群16s扩增子数据和宏基因组测序数据;
[0008]对所述肠道菌群测序数据进行质控和物种注释分析,以得到样本肠道菌群的第一相对丰度信息;
[0009]根据所述第一相对丰度信息及卡方验证方法进行筛选以得到肠道菌群特征数据;
[0010]将所述肠道菌群特征数据输入预设肠型预测模型进行肠型预测。
[0011]可选的,若所述肠道菌群测序数据为所述宏基因组测序数据,所述对所述肠道菌
群测序数据进行质控和物种注释分析,以得到样本肠道菌群的第一相对丰度信息,包括:
[0012]对所述宏基因组测序数据进行质控,以去除所述宏基因组测序数据的接头,并过滤所述宏基因组测序数据中的低质量碱基;
[0013]去除质控后的所述宏基因组测序数据中的宿主序列,以得到宏基因组DNA序列;
[0014]对所述宏基因组DNA序列进行物种注释;
[0015]对注释结果进行校正,得到肠道菌群的绝对丰度信息;
[0016]提取属级别的肠道菌群的所述绝对丰度信息并进行均一化,以得到肠道菌群的所述第一相对丰度信息。
[0017]可选的,若所述肠道菌群测序数据为所述肠道菌群16s扩增子数据,所述对所述肠道菌群测序数据进行质控和物种注释分析,以得到样本肠道菌群的第一相对丰度信息,包括:
[0018]若所述肠道菌群16s扩增子数据为双端测序数据,则合并双端序列文件,对合并后的序列文件去除引物并进行质控;
[0019]对质控后的所述序列文件进行去冗余和去嵌合体,聚类成操作分类单元;
[0020]通过与数据库进行比对,对所述操作分类单元进行物种注释,以得到肠道菌群的绝对丰度信息;
[0021]提取属级别的肠道菌群的所述绝对丰度信息并进行均一化,以得到肠道菌群的所述第一相对丰度信息。
[0022]可选的,所述根据所述第一相对丰度信息及卡方验证方法进行筛选以得到肠道菌群特征数据,包括:
[0023]利用sklearn python库中的卡方验证方法计算所述第一相对丰度信息与肠型的相关性,将相关性小于预设值的显著特征作为所述肠道菌群特征数据。
[0024]可选的,所述将所述肠道菌群特征数据输入预设肠型预测模型进行肠型预测之前,还包括:
[0025]选取粪便样本作为所述实验数据;
[0026]对所述实验数据进行质控和物种注释分析得到样本肠道菌群的第二相对丰度信息,并根据所述第二相对丰度信息及卡方验证方法筛选显著特征,以构建样本集;
[0027]将所述样本集按照预设比例随机分成训练集和测试集;
[0028]分别利用各机器学习算法对所述训练集进行训练,以构建各所述机器学习算法所对应的分类模型,并利用所述测试集验证每个所述分类模型的性能,将所述性能最佳的所述分类模型作为所述预设肠型预测模型。
[0029]可选的,所述利用所述测试集验证每个所述分类模型的性能,将所述性能最佳的所述分类模型作为所述预设肠型预测模型,包括:
[0030]利用测试集计算各所述分类模型的准确率;
[0031]将所述准确率最高的所述分类模型作为所述预设肠型预测模型。
[0032]可选的,所述利用所述测试集验证每个所述分类模型的性能,将所述性能最佳的所述分类模型作为所述预设肠型预测模型,包括:
[0033]利用测试集绘制各所述分类模型的AUROC图;
[0034]根据所述AUROC图比较各所述分类模型的效能,将所述效能最佳的所述分类模型
作为所述预设肠型预测模型。
[0035]本申请还提供一种基于肠道微生物菌群结构的肠型分型装置,包括:
[0036]获取模块,用于获取肠道菌群测序数据;所述肠道菌群测序数据包括肠道菌群16s扩增子数据和宏基因组测序数据;
[0037]第一相对丰度信息确定模块,用于对所述肠道菌群测序数据进行质控和物种注释分析,以得到样本肠道菌群的第一相对丰度信息;
[0038]筛选模块,用于根据所述第一相对丰度信息及卡方验证方法进行筛选以得到肠道菌群特征数据;
[0039]预测模块,用于将所述肠道菌群特征数据输入预设肠型预测模型进行肠型预测。
[0040]本申请还一种基于肠道微生物菌群结构的肠型分型装置,包括存储器,用于存储计算机程序;
[0041]处理器,用于执行所述计算机程序时实现所述的基于肠道微生物菌群结构的肠型分型方法的步骤。
[0042]本申请还一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的基于肠道微生物菌群结构的肠型分型方法的步骤。
[0043]本申请所提供的一种基于肠道微生物菌群本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于肠道微生物菌群结构的肠型分型方法,其特征在于,包括:获取肠道菌群测序数据;所述肠道菌群测序数据包括肠道菌群16s扩增子数据和宏基因组测序数据;对所述肠道菌群测序数据进行质控和物种注释分析,以得到样本肠道菌群的第一相对丰度信息;根据所述第一相对丰度信息及卡方验证方法进行筛选以得到肠道菌群特征数据;将所述肠道菌群特征数据输入预设肠型预测模型进行肠型预测。2.根据权利要求1所述的基于肠道微生物菌群结构的肠型分型方法,其特征在于,若所述肠道菌群测序数据为所述宏基因组测序数据,所述对所述肠道菌群测序数据进行质控和物种注释分析,以得到样本肠道菌群的第一相对丰度信息,包括:对所述宏基因组测序数据进行质控,以去除所述宏基因组测序数据的接头,并过滤所述宏基因组测序数据中的低质量碱基;去除质控后的所述宏基因组测序数据中的宿主序列,以得到宏基因组DNA序列;对所述宏基因组DNA序列进行物种注释;对注释结果进行校正,得到肠道菌群的绝对丰度信息;提取属级别的肠道菌群的所述绝对丰度信息并进行均一化,以得到肠道菌群的所述第一相对丰度信息。3.根据权利要求1所述的基于肠道微生物菌群结构的肠型分型方法,其特征在于,若所述肠道菌群测序数据为所述肠道菌群16s扩增子数据,所述对所述肠道菌群测序数据进行质控和物种注释分析,以得到样本肠道菌群的第一相对丰度信息,包括:若所述肠道菌群16s扩增子数据为双端测序数据,则合并双端序列文件,对合并后的序列文件去除引物并进行质控;对质控后的所述序列文件进行去冗余和去嵌合体,聚类成操作分类单元;通过与数据库进行比对,对所述操作分类单元进行物种注释,以得到肠道菌群的绝对丰度信息;提取属级别的肠道菌群的所述绝对丰度信息并进行均一化,以得到肠道菌群的所述第一相对丰度信息。4.根据权利要求1所述的基于肠道微生物菌群结构的肠型分型方法,其特征在于,所述根据所述第一相对丰度信息及卡方验证方法进行筛选以得到肠道菌群特征数据,包括:利用sklearn python库中的卡方验证方法计算所述第一相对丰度信息与肠型的相关性,将相关性小于预设值的显著特征作为所述肠道菌群特征数据。5.根据权利要求1所述的基于肠道微生物菌群结构的肠型分型方法,其特征在于,所述将所述肠道菌群特征数据...

【专利技术属性】
技术研发人员:王志展张晓芳王佳余伟师梁萌萌
申请(专利权)人:赛福解码北京基因科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1