诊断急性疾病的小分子代谢物生物标志物及其筛选方法和应用技术

技术编号:28318695 阅读:9 留言:0更新日期:2021-05-04 12:58
本发明专利技术提供了诊断急性疾病的小分子代谢物生物标志物及其筛选方法和应用,是基于同时检测生物样本中数千种小分子代谢物的方法,从中筛选出与急性疾病最为相关的小分子代谢物,作为诊断急性疾病的小分子代谢物生物标志物。本发明专利技术还基于小分子代谢物生物标志物提供建立急性疾病诊断模型和诊断设备的应用,为急性疾病的早期预测、筛查、干预和治疗提供了有效的工具。

【技术实现步骤摘要】
诊断急性疾病的小分子代谢物生物标志物及其筛选方法和应用
本专利技术属于急性疾病诊断应用
,具体涉及诊断急性疾病的非特异性小分子代谢物及其筛选方法以及利用该非特异性小分子代谢物作为生物标志物的急性疾病的诊断模型及其构建方法和应用。
技术介绍
目前,全世界的医疗保健费用不断上升,一方面是由于不健康的生活方式,另一方面是由于中老年人的人数比例在增长。因此,控制医疗保健成本并为健康生活方式提供指导成为所有发达国家和发展中国家的共同主题。实现这一目标的核心是找到一种技术,能满足以下需求:1)可以对个体急性疾病进行早期可执行诊断;2)可以预估某个人在将来患某种疾病的可能性;3)可以持续监测个体的健康状况,从而在发现与某些疾病相关的异常特征时进行早期干预。为了满足上述要求已经开发了多种疾病诊断方法,其中有常规既往病史调查、体检参数如体重体温、影像学检查如X射线和超声波检查、分子水平检查如基于PCR技术的致病原检测等。近些年来,分子标志物特别是DNA、RNA以及蛋白质标志物也开始被用于临床,在疾病的诊断和治疗方面发挥了重要的作用,但以上方法对于急性疾病的早期预测和诊断方面还存在不足。在当前诊断方法中,代谢水平的诊断并没有包括在内,但其在急性病的诊断和预测方面的潜力被严重忽视,因为个体的生活方式、疾病的存在与否以及潜在发展成为某种疾病的易感性都直接反应在个体体内的生化活动上。众所周知,类似营养、身体活动以及睡眠等生活方式的改变都是直接反应在生化水平上的。所以,有理由相信个体将来发展成某种疾病的可能性是由于个体体内生化活动的改变所决定的,而且该变化可能比已知的疾病症状的出现早几年。个体内代谢是一个非常复杂的生化过程,但也是个体内的一个有序过程,特定个体的生物化学活性通过个体内的数千种代谢物的水平来反映。当个体生活方式改变或受到来自个体内部或外部的刺激的影响时,均可反映在个体体内代谢物的水平变化上,例如氨基酸、糖、糖醇、有机酸、脂肪酸、脂质、激素等非蛋白原和非核生成的小分子(分子量小于2000道尔顿),这些小分子代谢物的集合称为代谢物组。与分子标志物不同,这些小分子代谢物中的每一个甚至代谢物组针对某种疾病作为标志物是非特异性的。生化指标用于诊断急性疾病和综合评估个体健康状况已得到认可。然而,由于临床化学测试平均仅能检测约100个生化参数,其仅能提供具有数千个代谢物的代谢组中非常少的一部分信息,而且小分子代谢物对某种疾病具有非特异性,这些生化参数与所诊断的急性疾病的关联信息有限,在缺少分子标志物数据下,不足以作为某急性疾病诊断的依据,更无法预测疾病。
技术实现思路
针对现有技术中存在的问题的一个或多个,本专利技术的一个方面提供一种用于诊断急性疾病的小分子代谢物生物标志物的筛选方法,包括以下步骤:1.1、对患病组和对照组每一样本中一组小分子代谢物进行测定,将测定数据归集为对照代谢数据集(CK-S)和患病代谢数据集(LC-S),并将该两数据集按样本以设定的比例分为第一训练数据集(TS)和第一测试数据集(VS);1.2、对步骤1.1中所述第一训练数据集(TS)中的对照代谢数据集(CK-S)和患病代谢数据集(LC-S)进行统计分析,筛选出患病组和对照组之间存在显著差异的代谢物,将第一训练数据集(TS)中这些显著差异的代谢物的数据归集为第二训练数据集(TS1),并将所述第一测试数据集(VS)中对应这些代谢物的数据归集为第二测试数据集(VS1);1.3、将步骤1.2中所述第二训练数据集(TS1)输入到随机森林模型(M0)中;1.4、训练步骤1.3的模型,调整超参数,使模型在第二训练数据集(TS1)上的AUC(AreaUnderCurve)最高,固定该超参数获得一训练模型(M1);1.5、利用所述第二测试数据集(VS1)检测所述训练模型(M1),调整模型超参数和训练策略,重新训练,以使模型在第二训练数据集(TS1)和第二测试数据集(VS1)上均有很高的AUC,固定具有高AUC的模型参数获得一筛选模型(M2);1.6、根据所述筛选模型(M2),识别出N个变量重要性较高的代谢物作为诊断急性疾病的小分子代谢物生物标志物;N为正整数。另一用于诊断急性疾病的小分子代谢物生物标志物的筛选方法,包括以下步骤:1.1)、对患病组和对照组每一样本中一组小分子代谢物进行测定,对数据进行包括降低特征数、填充缺失值,数据均一化在内的预处理,将预处理后的数据归集为对照代谢数据集(CK)和患病代谢数据集(GC),并将该两数据集按样本以设定的比例(0.7:0.3)分别分为两个训练数据集(TS_CK&TS_GC)和两个测试数据集(VS_CK&VS_GC);1.2)、将两个训练数据集(TS_CK&TS_GC)合并成训练数据集(TS),以及将两个测试数据集(VS_CK&VS_GC)合并将成测试数据集(VS);1.3)、将步骤1.2)中所述训练数据集(TS)输入到随机森林模型(M0)中;1.4)、训练步骤1.3)的模型,调整超参数,使模型在训练数据集(TS)上的AUC(AreaUnderCurve)最高,固定该超参数获得一训练模型(M1);1.5)、利用所述测试数据集(VS)检测所述训练模型(M1),调整模型超参数和训练策略,重新训练,以使模型在训练数据集(TS)和测试数据集(VS)上均有很高的AUC,固定具有高AUC的模型参数获得一筛选模型(M2);1.6)、根据所述筛选模型(M2),识别出N个变量重要性较高的代谢物作为诊断急性疾病的小分子代谢物生物标志物;N为正整数。上述方法中所述样本包括血液、血清、血浆、尿液、唾液、汗液、脊髓液、呼吸物和粪便等。上述筛选方法中还涉及以下分析方法:典型相关分析、普通最小二乘回归分析、偏最小二乘分析、主成分回归分析、岭回归分析或最小角度回归分析,并结合交叉验证分析。上述随机森林模型可以扩展为其他非线性模型和监督学习方法。上述方法中所述超参数包括决策树的个数(n_estimators)、CART树做划分时对特征的评价标准(criterion)、最大特征数(max_features)、决策树最大深度(max_depth)、内部节点再划分所需最小样本数(min_samples_split)、叶子节点最少样本数(min_samples_leaf)、叶子节点最小的样本权重和(min_weight_fraction_leaf)、最大叶子节点数(max_leaf_nodes)、节点划分最小不纯度(min_impurity_split)中的任一个或其组合。所述训练策略包括交叉验证的折数,训练集测试集的划分比例,不均衡分布样本的向下还是向上采样。所述变量包括小分子代谢物、年龄、性别、体重等,所述变量重要性较高是指该变量对模型的诊断性能贡献较大。上述患病组为肺癌患病组(LC),所述对照组为肺部慢性疾病种群(LCD)、其他癌种群(OC)和健康个体(HCtl)。...

【技术保护点】
1.用于诊断急性疾病的小分子代谢物生物标志物的筛选方法,其特征在于,包括以下步骤:/n1.1、对患病组和对照组每一样本中一组小分子代谢物进行测定,将测定数据归集为对照代谢数据集(CK-S)和患病代谢数据集(LC-S),并将该两数据集按样本以设定的比例分为第一训练数据集(TS)和第一测试数据集(VS);/n1.2、对步骤1.1中所述第一训练数据集(TS)中的对照代谢数据集(CK-S)和患病代谢数据集(LC-S)进行统计分析,筛选出患病组和对照组之间存在显著差异的代谢物,将第一训练数据集(TS)中这些显著差异的代谢物的数据归集为第二训练数据集(TS1),并将所述第一测试数据集(VS)中对应这些代谢物的数据归集为第二测试数据集(VS1);/n1.3、将步骤1.2中所述第二训练数据集(TS1)输入到随机森林模型(M0)中;/n1.4、训练步骤1.3的模型,调整超参数,使模型在第二训练数据集(TS1)上的AUC(AreaUnder Curve)最高,固定该超参数获得一训练模型(M1);/n1.5、利用所述第二测试数据集(VS1)检测所述训练模型(M1),调整模型超参数和训练策略,重新训练,以使模型在第二训练数据集(TS1)和第二测试数据集(VS1)上均有很高的AUC,固定具有高AUC的模型参数获得一筛选模型(M2);/n1.6、根据所述筛选模型(M2),识别出N个变量重要性较高的代谢物作为诊断急性疾病的小分子代谢物生物标志物;N为正整数。/n...

【技术特征摘要】
20191030 CN 20191104500931.用于诊断急性疾病的小分子代谢物生物标志物的筛选方法,其特征在于,包括以下步骤:
1.1、对患病组和对照组每一样本中一组小分子代谢物进行测定,将测定数据归集为对照代谢数据集(CK-S)和患病代谢数据集(LC-S),并将该两数据集按样本以设定的比例分为第一训练数据集(TS)和第一测试数据集(VS);
1.2、对步骤1.1中所述第一训练数据集(TS)中的对照代谢数据集(CK-S)和患病代谢数据集(LC-S)进行统计分析,筛选出患病组和对照组之间存在显著差异的代谢物,将第一训练数据集(TS)中这些显著差异的代谢物的数据归集为第二训练数据集(TS1),并将所述第一测试数据集(VS)中对应这些代谢物的数据归集为第二测试数据集(VS1);
1.3、将步骤1.2中所述第二训练数据集(TS1)输入到随机森林模型(M0)中;
1.4、训练步骤1.3的模型,调整超参数,使模型在第二训练数据集(TS1)上的AUC(AreaUnderCurve)最高,固定该超参数获得一训练模型(M1);
1.5、利用所述第二测试数据集(VS1)检测所述训练模型(M1),调整模型超参数和训练策略,重新训练,以使模型在第二训练数据集(TS1)和第二测试数据集(VS1)上均有很高的AUC,固定具有高AUC的模型参数获得一筛选模型(M2);
1.6、根据所述筛选模型(M2),识别出N个变量重要性较高的代谢物作为诊断急性疾病的小分子代谢物生物标志物;N为正整数。


2.用于诊断急性疾病的小分子代谢物生物标志物的筛选方法,其特征在于,包括以下步骤:
1.1)、对患病组和对照组每一样本中一组小分子代谢物进行测定,对数据进行包括降低特征数、填充缺失值,数据均一化在内的预处理,将预处理后的数据归集为对照代谢数据集(CK)和患病代谢数据集(GC),并将该两数据集按样本以设定的比例(0.7:0.3)分别分为两个训练数据集(TS_CK&TS_GC)和两个测试数据集(VS_CK&VS_GC);
1.2)、将两个训练数据集(TS_CK&TS_GC)合并成训练数据集(TS),以及将两个测试数据集(VS_CK&VS_GC)合并将成测试数据集(VS);
1.3)、将步骤1.2)中所述训练数据集(TS)输入到随机森林模型(M0)中;
1.4)、训练步骤1.3)的模型,调整超参数,使模型在训练数...

【专利技术属性】
技术研发人员:李琰威尔米泽·洛萨·奥托·爱德华德
申请(专利权)人:深圳脉图精准技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1