一种基于粪便微生物标志物和人DNA含量的多种肠道疾病风险评估的方法及应用技术

技术编号:29987001 阅读:23 留言:0更新日期:2021-09-11 04:22
本发明专利技术涉及医疗筛查领域,且公开了一种基于粪便微生物标志物和人DNA含量的多种肠道疾病风险评估的方法及应用,包括常见肠道相关细菌信息的收集、数据预处理、粪便人类DNA鉴定、肠病相关菌群与相关通路丰度鉴定、机器学习模型的建立、真实样本应用。鉴定到的标志物菌群与通路,结合人类粪便DNA含量,增加了分类模型的全面性;利用多个数据集通过Meta分析,可以减小背景噪音和其他因素的影响,得到更加稳定结果;同时考虑多种常见肠道疾病,挖掘其可能的致病机制,可避免因其有相似表型而误诊的可能;根据实际需求,根据不同目的建立了不同的机器分类器,便于使用者根据自己的需求使用或进一步验证。综合考虑上述因素,本发明专利技术机器学习模型有优良预测效果,更适用于实际应用场景,可得到更精确的结果。并且所选取的实验载体粪便是临床使用和体检机构中最常见的,获取难度小成本低,解释程度高。解释程度高。解释程度高。

【技术实现步骤摘要】
一种基于粪便微生物标志物和人DNA含量的多种肠道疾病风险评估的方法及应用


[0001]本专利技术涉及医疗筛查领域,尤其涉及利用常见肠病的相关菌以及粪便人DNA含量作为标记物对多种肠道疾病进行风险评估的应用。

技术介绍

[0002]近几年来,西方常见肠病如炎症性肠炎(Inflammatory bowel disease, IBD)在亚洲、南非、中东等地区的发展中国家的发病率激增。先前被认为具有低风险的印度人与日本人肠炎的发病率也显著增加。另外,结直肠癌(Colorectal cancer, CRC)作为发生于结直肠部位的恶性肿瘤,每年可导致60万人的死亡,并且在西方国家的年轻人中风险也逐年提升。
[0003]IBD与CRC作为常见的肠道疾病,具有类似的疾病症状,包括直肠出血、腹部疼痛、腹泻、体重减轻与贫血等。患有IBD的患者相比正常人来说,患有CRC的风险是显著高的,并会随着发作时长累积。然而目前针对肠道疾病的筛查主要为粪便隐血与肠道内窥镜。在就诊时,患者对自身患病症状的描述容易造成医生诊断的误差。粪便隐血检测因其对铁离子的敏感度,具有较高的假阳性。而内窥镜在对肠道损伤和病变检测方面也存在不足,探入式手段对患者造成的心理压力较大,并且价格昂贵,无法作为长期坚持的筛查手段。为了降低误诊率、错诊率,并给IBD患者提供更加便捷的跟踪筛查方式,开发新的非侵入式的检测手段是有必要的。
[0004]随着科学技术的发展与科研的进步,国内外许多研究发现IBD与CRC与患者遗传、环境因子、免疫系统与肠道微生物之间的复杂相互作用有关联。肠道微生物通过消耗宿主残留的底物产生营养与抗生素等,为宿主抵御外来侵入菌、调整免疫系统与炎症反应从而达到肠道内环境稳态。因此,肠道微生物发生紊乱会对宿主的健康产生一定的影响。
[0005]普遍认为,是肠道损伤和有害菌的入侵共同导致的整体代谢的失调从而造成肠道微生物的紊乱。肠道损伤主要体现为患有肠病的人脱落的肠道细胞的增多,粪便当中人类DNA含量(host DNA contents,HDC)上升。在IBD患者中,肠道微生物的紊乱主要体现为厚壁菌门(Firumicutes)的微生物的减少,例如凸腹真杆菌(Eubacterium ventriosum)和丝状真杆菌(Eubacterium eligens),与一些有害菌如大肠杆菌(Escherichia coli)、肺炎克雷伯菌(Klebsiella pneumoniae)的增加。IBD的两个主要的亚型,克罗恩病(Crohn

s disease, CD)与溃疡性肠炎(Ulcerative colitis, UC)两者在病理上的区别尚不明确,但所展现出来的微生物改变趋势和代谢谱图有一定的差别。在CRC患者中,已经有meta分析鉴定出一系列微生物作为有潜力的疾病标志物,例如具核梭杆菌(Fusobacterium nucleotum)与一些单胞菌属(Parvimonas)。在IBD和CRC中,利用肠道微生物丰度可以对疾病预测与分层起到良好的效果,有望用于肠病的非侵入式检测。
[0006]但是目前现有的研究大部分都是基于单个数据集的结果,而且只集中于某一个疾病,所得到的分类模型比较单薄,存在由于单个人种或者地区等因素所导致的误差。例如,
如果患者患有某一个疾病,但因为模型的错误运用和疾病共有菌会错误的判断为其他疾病。这里我们利用多个肠病的多个数据集进行meta分析有助于减小其他因素的影响,得到一个更加稳定的结果。荟萃(Meta)分析将多个不同来源的数据进行整合分析,尽可能的减少单个研究所引起的偏差。另外,现有的模型都是基于肠道微生物所建的模型,实际上在一些具有缓解症状的IBD患者中,往往是因为肠道屏障的修复,他们的肠道微生物结构并没有恢复正常。因此在本专利中,提出将肠道微生物与粪便人类DNA含量作为综合特征,利用机器学习的方法建立预测肠病风险的模型,为肠病非侵入式检测提供基础。

技术实现思路

[0007]针对上述
技术介绍
的不足,本专利技术提供了一种基于粪便微生物标志物和人DNA含量的多种肠道疾病风险评估的方法及应用,即结合微生物与人类DNA信息,通过荟萃分析(meta-analysis)鉴定相对稳定的常见肠道疾病的相关菌群,以及鉴定粪便中人类DNA含量的分布情况,从而评估鉴定是否患有肠病,以及针对炎症性肠病患者评估是否患有结直肠癌风险的筛查模型。
[0008]本专利技术提供如下技术方案:一种基于粪便微生物标志物和人DNA含量的多种肠道疾病风险评估的方法及应用,其特征在于:包括常见肠道相关细菌信息的收集、数据预处理、粪便人类DNA鉴定、肠病相关菌群与相关通路丰度鉴定、机器学习模型的建立、真实样本应用,所述数据收集后对其进行数据预处理,然后经过机器学习模型计算后得出评估结果,计算方法如下:第一步,常见肠道相关细菌与相关通路的收集,我们从公共数据库中搜索并下载了11个包括了正常人和肠病患者的宏基因组数据集,一共得到了285个溃疡性结肠炎样本(ulcerative colitis,UC),324个克罗恩病样本(Crohn

s disease, CD),354个结直肠癌样本(Colorectal cancer)与357个正常人样本的粪便宏基因组数据;第二步数据预处理,用Trimmomatic软件对数据进行质量控制,即修剪和去除原始数据中的接头(adapter)和低质量序列,包含双端测序和单端测序两种模式,并用Fastqc软件评价质控后的数据;第三步粪便人类DNA的鉴定,采用Bowtie2软件与人类参考基因组(hg19)进行比对,利用宏基因组数据鉴定粪便中所含有的人类DNA含量(host DNA contents, HDC),计算方法为:HDC=鉴定到的人类DNA总片段数量/质控后的总片段数量。随后去除匹配上的人类DNA片段,避免后续分析出现错误的匹配。比对完后采用MetaPhlAn2软件进行宏基因组物种注释分析,MetaPhIAn2 整理了17000多个参考基因组,包括13500个细菌和古菌,3500个病毒和110种真核生物;第四步肠病相关菌群与相关通路丰度鉴定,通过MetaPhlAn2软件预处理的数据可以鉴定得到的物种丰度水平,同时可以利用HUMAnN2软件对通路水平进行鉴定,从而可以从代谢水平上了解人的身体状况,再根据MetaCyc数据库收集的微生物通路计算微生物通路丰度,根据MetaPhlAn2的物种丰度数据我们还可以得到种水平的通路丰度,采用Wilcoxon rank sum test鉴定组间存在差异的菌群与代谢通路,并利用fdr方法来校正每个数据集的p值,筛选至少在2个数据集中fdr<0.05的菌群和通路,从而筛选出正常人与肠病患者和肠癌患者间具有统计学差异的微生物标志物(biomarkers);
第五步机器学习模型的建立与评估,我们采用随机森林算法,利用多棵决策树的集成学习策略,对样本进行训练并进行预测,同时利用通过meta分析所得到的相对稳定的差异菌与差异通路,结合前面鉴定所得到的HDC本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于粪便微生物标志物和人DNA含量的多种肠道疾病风险评估的方法及应用,其特征在于:包括常见肠道相关细菌信息的收集、数据预处理、粪便人类DNA鉴定、肠病相关菌群与相关通路丰度鉴定、机器学习模型的建立、真实样本应用,所述数据收集后对其进行数据预处理,然后经过机器学习模型计算后得出结果,计算方法如下:第一步,常见肠道相关细菌信息的收集,我们从公共数据库中搜索并下载了11个包括了正常人和肠病患者的宏基因组数据集,一共得到了285个溃疡性结肠炎样本(ulcerative colitis,UC),324个克罗恩病样本(Crohn

s disease, CD),354个结直肠癌样本(Colorectal cancer)与357个正常人样本的粪便宏基因组数据;第二步数据预处理,用Trimmomatic软件对数据进行质量控制,即修剪和去除原始数据中的接头(adapter)和低质量序列,包含双端测序和单端测序两种模式,并用Fastqc软件评价质控后的数据;第三步粪便人类DNA的鉴定,采用Bowtie2软件与人类参考基因组(hg19)进行比对,利用宏基因组数据鉴定粪便中所含有的人类DNA含量(host DNA contents, HDC),计算方法为:HDC=鉴定到的人类DNA总片段数量/质控后的总片段数量,随后去除匹配上的人类DNA片段,避免后续分析出现错误的匹配,比对完后采用MetaPhlAn2软件进行宏基因组物种注释分析,MetaPhIAn2 整理了17000多个参考基因组,包括13500个细菌和古菌,3500个病毒和110种真核生物;第四步肠病相关菌群与相关通路丰度鉴定,通过MetaPhlAn2软件预处理的数据可以鉴定得到的物种丰度水平,同时可以利用HUMAnN2软件对通路水平进行鉴定,从而可以从代谢水平上了解人的身体状况,再根据MetaCyc数据库收集的微生物通路计算微生物通路丰度,根据MetaPhlAn2的物种丰度数据我们还可以得到种水平的通路丰度,采用Wilcoxon rank sum test鉴定组间存在差异的菌群与代谢通路,并利用fdr方法来校正每个数据集的p值,筛选在两个以上数据集中fdr<0.05的菌群和通路,从而筛选出正常人与肠病患者和肠癌患者间具有统计学差异的微生物标志物(biomarkers);第五步机器学习模型的建立与评估,我们采用随机森林算法,利用多棵决策树的集成学习策略,对样本进行训练并进行预测,同时...

【专利技术属性】
技术研发人员:陈卫华江浦滋罗奇斌
申请(专利权)人:深圳市奇云生物信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1