基于肠道菌群标志物的集成学习预测妊娠期糖尿病的方法技术

技术编号:38262322 阅读:12 留言:0更新日期:2023-07-27 10:21
本发明专利技术涉及糖尿病预测技术领域,公开了基于肠道菌群标志物的集成学习预测妊娠期糖尿病的方法,包括以下步骤:S1、数据获取;S2、数据预处理;S3、特征筛选;S4、数据分割;S5、基模型训练;S6、叠加层训练;S7、集成学习;S8、模型验证;S9、特征重要性评估;S10、重复增稳。本发明专利技术利用多种机器学习模型进行训练,充分挖掘了肠道菌群数据的潜在信息,提高了预测结果的准确性,优化了模型的性能;同时,通过集成学习方法整合各个模型的输出结果,提高了模型的稳定性和可靠性。该预测方法可以帮助医生评估妊娠期糖尿病风险,为高风险人群提供预防手段与早期干预,可为临床实践提供有力的支持,有助于提高妊娠期糖尿病患者的诊断和治疗效果。高妊娠期糖尿病患者的诊断和治疗效果。高妊娠期糖尿病患者的诊断和治疗效果。

【技术实现步骤摘要】
基于肠道菌群标志物的集成学习预测妊娠期糖尿病的方法


[0001]本专利技术涉及糖尿病预测
,更具体地说,它涉及基于肠道菌群标志物的集成学习预测妊娠期糖尿病的方法。

技术介绍

[0002]妊娠期糖尿病是指妊娠期间首次出现或诊断的糖尿病,通常在孕24

28周时进行筛查。GDM对母亲及胎儿健康造成诸多不利影响,如产后Ⅱ型糖尿病风险增加、胎儿巨大儿症、新生儿低血糖等。因此,及时预测和诊断妊娠期糖尿病对于减轻相关风险具有重要意义。
[0003]近年来,研究发现肠道菌群在妊娠期糖尿病的发病中扮演重要角色。然而,针对肠道菌群在妊娠期糖尿病预测方面的研究仍不充分。传统的GDM预测方法主要依赖于生化指标、体征及家族史等因素,这些方法可能无法充分反映患者的实际状况。与此同时,传统方法的预测准确性有限,可能导致漏诊和误诊。因此,开发一种基于肠道菌群的有效预测方法对于改善妊娠期糖尿病的诊断和管理具有重要价值。
[0004]随着机器学习快速发展,该技术在生物信息学、医学诊断和预测等领域取得了显著成果,尤其是集成学习方法,通过结合多个基础模型以提高预测准确性和稳定性。然而,在妊娠期糖尿病预测领域,针对肠道菌群数据的集成学习方法尚未得到广泛应用。因此,探讨基于肠道菌群标志物的集成学习预测妊娠期糖尿病的方法,有望提高GDM的预测准确性,有助于实现更加精准的诊断和个体化治疗。

技术实现思路

[0005]为了克服现有技术中所存在的上述缺陷,本专利技术提供了基于肠道菌群标志物的集成学习预测妊娠期糖尿病的方法,利用多种机器学习模型进行训练,充分挖掘了肠道菌群数据的潜在信息,提高了预测结果的准确性,优化了模型的性能;同时,通过集成学习方法整合各个模型的输出结果,提高了模型的稳定性和可靠性。该预测方法可以帮助医生评估妊娠期糖尿病风险,为高风险人群提供预防手段与早期干预,可为临床实践提供有力的支持,有助于提高妊娠期糖尿病患者的诊断和治疗效果。
[0006]本专利技术的上述技术目的是通过以下技术方案得以实现的:基于肠道菌群标志物的集成学习预测妊娠期糖尿病的方法,包括以下步骤:
[0007]S1,数据获取:收集妊娠期糖尿病与健康对照样本的肠道菌群相对丰度数据;
[0008]S2,数据预处理:将健康对照组菌群相对丰度数据作为阴性数据,将妊娠期糖尿病组菌群相对丰度数据作为阳性数据,去除在全体数据上出现率不足25%的菌种;
[0009]S3,特征筛选:载入“boruta”R包进行重要特征菌种筛选,得到重要特征菌种数据;
[0010]S4,数据分割:设置随机种子并将重要特征菌种数据分割出20%作为独立测试集,剩余的80%作为训练集数据用于模型训练;
[0011]S5,基模型训练:利用训练集数据,分别使用五折交叉验证训练12种机器学习模型
作为基模型;
[0012]S6,叠加层训练:将基模型的输出结果与输入的训练集数据串联,再次使用五折交叉验证训练12种机器学习模型作为叠加层;
[0013]S7,集成学习:将叠加层的输出结果加权和作为最终集成模型输出结果,训练学习各项权重;
[0014]S8,模型验证:使用独立测试集对集成模型进行独立验证,并绘制受试者工作特性曲线,测试模型性能;
[0015]S9,特征重要性评估:逐一去除某特征后重复步骤S5到步骤S8,观察模型性能变化程度,评估每种特征菌种的重要性;
[0016]S10,重复增稳:多次改变随机种子后重复步骤S4到步骤S9,对所得到的指标取平均值。
[0017]进一步的,步骤S3中,将“boruta”R包重复载入1000次并设置阈值p<0.05,筛选出9种重要特征菌种。
[0018]进一步的,12种机器学习模型以及对应的优选参数包括:LightGBM、LightGBMXT、LightGBMLarge、CatBoost、XGBoost、ExtraTreesGini、RandomForestGini、RandomForestEntr、KNeighborsDist、KNeighborsUnif、NeuralNetTorch和NeuralNetFastAI。
[0019]进一步的,步骤S7中,最终的集成模型保存为.pkl形式。
[0020]综上所述,本专利技术具有以下有益效果:本专利技术利用多种机器学习模型进行训练,充分挖掘了肠道菌群数据的潜在信息,提高了预测结果的准确性,优化了模型的性能;同时,通过集成学习方法整合各个模型的输出结果,提高了模型的稳定性和可靠性。该预测方法可以帮助医生评估妊娠期糖尿病风险,为高风险人群提供预防手段与早期干预,可为临床实践提供有力的支持,有助于提高妊娠期糖尿病患者的诊断和治疗效果。
附图说明
[0021]图1是本专利技术实施例中基于肠道菌群标志物的集成学习预测妊娠期糖尿病的方法的系统流程图;
[0022]图2是本专利技术实施例中使用验证集评估本专利技术预测效果的受试者工作特性曲线图;
[0023]图3是本专利技术实施例中使用测试集评估本专利技术预测结果的受试者工作特性曲线图;
[0024]图4是本专利技术实施例中9个特征菌种的重要性示意图。
具体实施方式
[0025]以下结合附图1

4对本专利技术作进一步详细说明。
[0026]实施例:基于肠道菌群标志物的集成学习预测妊娠期糖尿病的方法,如图1所示,包括以下步骤:
[0027]S1、数据获取:收集妊娠期糖尿病与健康对照样本的肠道菌群相对丰度数据。
[0028]本实施例中使用NCBI SRA数据库中项目编号为PRJNA401977的数据集,其中包含
来自中国的75例妊娠期糖尿病样本和70例健康对照样本,处理后的相对丰度可在GMRepo数据库中直接获取。
[0029]S2、数据预处理:将健康对照组菌群相对丰度数据作为阴性数据,将妊娠期糖尿病组菌群相对丰度数据作为阳性数据,去除在全体数据上出现率不足25%的菌种。
[0030]本实施例中315菌种中的211种菌种因出现率不足被去除,剩余104种菌种进入后续流程。
[0031]S3、特征筛选:载入“boruta”R包进行重要特征菌种筛选,使用选中的重要特征菌种数据进入后续流程。
[0032]本实施例中boruta重复1000次并设置Bonferroni多重检验矫正,设置阈值筛选出p<0.05的特征菌种。最终得到9种重要特征菌种,如下表1所示:
[0033]表1 boruta重要特征菌种表
[0034]特征菌种Boruta分数Streptococcus salivarius9.542602Collinsella aerofaciens7.140487Veillonella atypica6.286056Bacteroides ovatus4.726066Megamonas funiformis4.657540Streptococc本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于肠道菌群标志物的集成学习预测妊娠期糖尿病的方法,其特征在于,包括以下步骤:S1,数据获取:收集妊娠期糖尿病与健康对照样本的肠道菌群相对丰度数据;S2,数据预处理:将健康对照组菌群相对丰度数据作为阴性数据,将妊娠期糖尿病组菌群相对丰度数据作为阳性数据,去除在全体数据上出现率不足25%的菌种;S3,特征筛选:载入“boruta”R包进行重要特征菌种筛选,得到重要特征菌种数据;S4,数据分割:设置随机种子并将重要特征菌种数据分割出20%作为独立测试集,剩余的80%作为训练集数据用于模型训练;S5,基模型训练:利用训练集数据,分别使用五折交叉验证训练12种机器学习模型作为基模型;S6,叠加层训练:将基模型的输出结果与输入的训练集数据串联,再次使用五折交叉验证训练12种机器学习模型作为叠加层;S7,集成学习:将叠加层的输出结果加权和作为最终集成模型输出结果,训练学习各项权重;S8,模型验证:使用独立测试集对集成模型进行独立验证,并绘制受试者工作特性曲线,测试模型性能;S9,特征重要性评估:逐一去除某特征后重复步骤S5到步骤S8,...

【专利技术属性】
技术研发人员:焦娜林建宇黎晓逸吴顶峰
申请(专利权)人:浙江大学医学院附属儿童医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1