基于Stacking集成方法综合多组学数据的死亡时间预测方法技术

技术编号:37048972 阅读:8 留言:0更新日期:2023-03-29 19:27
本发明专利技术涉及法医学领域,具体是一种基于Stacking集成方法综合多组学数据的死亡时间预测方法,包括以下步骤:收集大鼠骨骼肌样本,采用代谢组学、蛋白芯片以及红外光谱检测技术提取组织中的相关生物标志物的表达量;将生物标志物的表达量数据分别输入多种基础模型中进行死亡时间推断,筛选出死亡时间预测表现最好的单一组学最优基础模型;筛选出与单一组学最优基础模型相关性最低的两个基础模型共同构建单一组学Stacking模型;将上述单一组学Stacking集成模型进行串联构建多组学集成模型。本发明专利技术为联合多组学的多分子标记预测死亡时间提供了的新方法、新思路,为多组学联合机器学习模型应用于死亡时间推断实践奠定基础。器学习模型应用于死亡时间推断实践奠定基础。器学习模型应用于死亡时间推断实践奠定基础。

【技术实现步骤摘要】
基于Stacking集成方法综合多组学数据的死亡时间预测方法


[0001]本专利技术涉及法医学领域,具体是一种基于Stacking集成方法综合多组学数据的死亡时间预测方法。

技术介绍

[0002]死后时间是指从发现和检查尸体到发生死亡之间的时间,准确推断死亡时间对于明确案发时间以及案件的侦破都具有十分重要的作用。由于死亡时间受到诸多因素的影响,传统的推断方式如早期尸体现象存在主观性与经验性,虽然目前的研究显示,代谢物、RNA、蛋白质等小分子在估算PMI方面具有潜在的应用价值,但是筛选更稳定的生物标志物以及更准确的推断方法仍然是法医工作者需要打破的重要瓶颈。
[0003]近年来,随着分子生物学技术的发展,使用高通量分析方法如代谢组学,蛋白芯片以及红外光谱等技术来检测机体死亡后体内生物标志物的降解规律,可以为死亡时间推断估计提供依据。不同组学技术带来了丰富的数据类型,如何从海量高维数据中筛选与死亡时间相关的生物标志物已发展成为现阶段死亡时间预测的核心内容。此外,由于机体死亡后的生物过程非常复杂,仅靠一种组学检测方法仅在有限的维度上描述死后的复杂分子生物学变化,而利用多组学技术可以准确捕捉死后不同物质层面的变化情况,使得死亡时间推断更具准确性和普适性。
[0004]随着大数据和人工智能具有的发展,机器学习依靠其分析能力强、计算速度快的优势,可以为死亡时间推断提供更可靠更稳定的预测方式。此外,Stacking集成模型的正确运用为多组联合提供了一种新的思路。Stacking集成模型将多个基础模型集成在一起,集成过程中,基础模型需要满足“好而不同”的构建要求。Stacking集成模型结合每个基础模型的优势,取长补短,以达到较好的的泛化性和鲁棒性。因此,Stacking集成模型可以整合不同的组学特征,并将其作为一个整体揭示机体死亡后复杂的生物变化规律,以提高死亡时间的预测精度。

技术实现思路

[0005]本专利技术提供了一种综合来自多个组学多分子标记物的Stacking集成模型,旨在为死亡时间推断提供一种准确率高、运行效率良好且具有强泛化能力和鲁棒性的预测模型,具体是一种基于Stacking集成方法综合多组学数据的死亡时间预测方法。
[0006]本专利技术是通过以下技术方案实现的:基于Stacking集成方法综合多组学数据的死亡时间预测方法,包括以下步骤:
[0007]1)收集不同死亡时间点的大鼠骨骼肌样本,采用代谢组学、蛋白芯片以及红外光谱检测技术提取组织中的相关生物标志物的表达量;
[0008]2)将三种组学检测的生物标志物的表达量数据分别输入多种基础模型中进行死亡时间推断,三种组学分别筛选出死亡时间预测表现最好的单一组学最优基础模型;
[0009]3)为满足Stacking集成模型好而不同的构建要求,分别将每个组学中表现最好六
个的基础模型做相关性分析,筛选出与单一组学最优基础模型相关性最低的两个基础模型共同构建单一组学Stacking模型;
[0010]4)将上述单一组学Stacking集成模型进行串联构建多组学集成模型;
[0011]5)重复步骤1),将未知大鼠骨骼肌样本三种组学检测的生物标志物的表达量数据输入多组学集成模型进行死亡时间预测。
[0012]作为本专利技术技术方案的进一步改进,步骤2)中,所述多种基础模型的数量为八种,分别为Adaboost、Logistic回归、随机森林、多层感知机、支持向量机、梯度提升树、随机梯度下降、Lightgbm。
[0013]作为本专利技术技术方案的进一步改进,步骤3)中,相关性分析利用的是皮尔逊相关系数。
[0014]作为本专利技术技术方案的进一步改进,步骤4)中多组学Stacking集成模型选择pipeline方式进行构建。
[0015]本专利技术基于多组学多分子生物表达谱并结合机器学习建立了多组学Stacking集成模型推断死亡时间,采用建立单一组学最优模型,单一组学Stacking集成模型和多组学Stacking集成模型的相互关联而层层递进的构建策略,有效的提升了死亡时间推断的鲁棒性及泛化能力。本专利技术为联合多组学的多分子标记预测死亡时间提供了的新方法、新思路,为多组学联合机器学习模型应用于死亡时间推断实践奠定基础。
附图说明
[0016]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0017]图1为三种组学检测的生物标志物的表达量数据输入八种基础学习器的准确率和AUC值对比图。图1A为代谢组学基础模型比较图,图1B为蛋白芯片基础模型比较图,图1C为红外光谱基础模型比较图。
[0018]图2为代谢组学Stacking集成模型的相关热图。
[0019]图3为代谢组学Stacking集成模型的混淆矩阵图。
[0020]图4为代谢组学Stacking集成模型的ROC图。
[0021]图5为蛋白芯片Stacking集成模型的相关热图。
[0022]图6为蛋白芯片Stacking集成模型的混淆矩阵图。
[0023]图7为蛋白芯片Stacking集成模型的ROC图。
[0024]图8为红外光谱Stacking集成模型的相关热图。
[0025]图9为红外光谱Stacking集成模型的混淆矩阵图。
[0026]图10为红外光谱Stacking集成模型的ROC图。
[0027]图11为多组学Stacking集成模型的构建与评价图。图11A为多组学Stacking集成模型的ROC图,图11B为多组学Stacking集成模型的混淆矩阵图。
[0028]图12为本专利技术所述基于Stacking集成方法综合多组学数据的死亡时间预测方法的流程图。
[0029]图13为多组学Stacking集成模型的构建流程图。
具体实施方式
[0030]下面对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0031]实施例
[0032]1.动物实验分组:
[0033]大鼠样本为健康成年雄性Sprague

Dewley大鼠(10

12周,体重250

300克),大鼠均由山西医科大学实验动物中心提供,动物许可证号为SCXK[Jin][2009

0001]。雌雄大鼠被分开饲养在装有标准食物和水的笼子里。所有大鼠随机分为14组,包括对照组(0d、n=8)和13个实验组(1、2、3、5、7、9、12、15、18、21、24、27、30d、n=8)。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于Stacking集成方法综合多组学数据的死亡时间预测方法,其特征在于,包括以下步骤:1)收集不同死亡时间点的大鼠骨骼肌样本,采用代谢组学、蛋白芯片以及红外光谱检测技术提取组织中的相关生物标志物的表达量;2)将三种组学检测的生物标志物的表达量数据分别输入多种基础模型中进行死亡时间推断,三种组学分别筛选出死亡时间预测表现最好的单一组学最优基础模型;3)为满足Stacking集成模型好而不同的构建要求,分别将每个组学中表现最好六个的基础模型做相关性分析,筛选出与单一组学最优基础模型相关性最低的两个基础模型共同构建单一组学Stacking模型;4)将上述单一组学Stacking集成模型进行串联构建多组学集成模型;5)重复步骤1),将未知大鼠骨骼肌样本三种...

【专利技术属性】
技术研发人员:李健刘明锋吴妍娟周世栋李娜党丽虹杜秋香曹洁孙俊红
申请(专利权)人:山西医科大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1