一种泛血管健康指数模型构建方法、系统、设备和介质技术方案

技术编号:38863913 阅读:34 留言:0更新日期:2023-09-17 10:04
本公开涉及医学临床及统计学领域,具体涉及一种泛血管健康指数模型构建方法、系统、设备和介质,所述方法包括如下步骤:获取泛血管患病人群和非患病人群的检测数据,并将所述检测数据划分为建模数据集和内部验证数据集;以受试者工作特征曲线下的面积最高为标准验证所述初步模型,筛选出内部验证受试者工作特征曲线下面积最高的初步模型作为最优模型;根据最优模型计算患者预测年龄和真实年龄的差和真实年龄的拟合关系进而修正预测年龄得到同化预测年龄;基于同化预测年龄和真实年龄的差值分布进行风险等级划分,进而构建泛血管健康指数。本公开基于体检大数据及机器学习算法构建泛血管健康指数,能够对泛血管健康指数的合理性进行评价。理性进行评价。理性进行评价。

【技术实现步骤摘要】
一种泛血管健康指数模型构建方法、系统、设备和介质


[0001]本公开涉及医学临床及统计学领域,具体涉及一种泛血管健康指数模型构建方法、系统、设备和介质。

技术介绍

[0002]泛血管疾病是一种血管系统疾病,以动脉粥样硬化为共同病理特征,危害心脏、大脑、肾脏、四肢等重要器官。广义的泛血管是指小血管、微血管、静脉以及肿瘤、糖尿病和免疫。泛血管疾病以血管疾病的系统性、血管病例共性特征和血管共同危险因素为共同特征。系统性防治是从血管性疾病的发生、发展规律及特征入手,从单个器官的筛查转变为综合危险因素和多血管病变进行评估和危险分层,对系统性因素进行整体防控,强调多学科合作和跨学科整合的新型疾病管理模式,为患者提供更为全面的综合治疗。
[0003]现有研究中也存在血管疾病的风险预测模型,一般是对患者数据进行多维度、多层次的数据预处理和统计分析以选取具有统计差异的数据;进而对数据集进行训练得到评价模型以实现预测性能,训练用到的算法包括Logistic回归模型、COX回归、支持向量机模型等,但是这些模型预测得到的结果普遍存在低值高估或高值低估的现象,预测效果并不理想。因此,需要一种能够准确预测泛血管疾病风险的和风险等级划分合理的模型构建方法。

技术实现思路

[0004]本公开提供一种泛血管健康指数模型构建方法、系统、设备和介质,能够解决
技术介绍
中提到的现有模型对泛血管疾病风险的预测存在低值高估或高值低估的现象,预测效果并不理想等的问题。为解决上述技术问题,本公开提供如下技术方案:
[0005]作为本公开实施例的一个方面,提供一种泛血管健康指数模型构建方法,包括如下步骤:
[0006]获取泛血管患病人群和非患病人群的检测数据,并将所述检测数据划分为建模数据集和内部验证数据集;
[0007]将所述建模数据集输入Boruta模型以检测数据中的年龄为因变量,以检测数据中的其他检测数据为自变量进行变量筛选形成标记数据集;
[0008]基于所述标记数据集,使用多个机器学习模型构建初步模型,调整以迭代次数为主的最优参数,以受试者工作特征曲线下的面积最高为标准验证所述初步模型,筛选出内部验证受试者工作特征曲线下面积最高的初步模型作为最优模型;
[0009]基于最优模型计算患者预测年龄和真实年龄的差,根据所述差和真实年龄的拟合关系进而修正预测年龄得到同化预测年龄;
[0010]基于泛血管非患病人群的同化预测年龄,补充每个年龄下的样本量,拟合预测年龄一次函数以及95%预测区间;
[0011]基于预测年龄一次函数与95%预测区间进行风险等级划分,进而构建泛血管健康
指数。
[0012]可选地,所述检测数据包括如下参数中的至少三种:
[0013]年龄、性别、收缩压、舒张压、身高、体重、腰围、总胆固醇、甘油三酯、低密度脂蛋白胆固醇、高密度脂蛋白胆固醇、脂蛋白(a)、非高密度脂蛋白胆固醇、载脂蛋白B、糖化血红蛋白、空腹葡萄糖、肌酐、尿素氮、白蛋白、血红蛋白、D二聚体、胱抑素C、同型半胱氨酸、C反应蛋白、肌钙蛋白、脑钠肽(BNP/NT

proBNP)、颈动脉内

中膜厚度、左侧脉搏波传导速度、右侧脉搏波传导速度、左侧踝臂指数、右侧踝臂指数、心电图中ST

T改变、胸片中心脏扩大、左心室射血分数、舒张末期左心室后壁厚度、舒张末期室间隔厚度、舒张末期左心室内径、左心房容积、E/e


[0014]可选地,在获取泛血管患病人群和非患病人群的检测数据之后,将所述检测数据划分为建模数据集和内部验证数据集之前还包括如下步骤:
[0015]将所述检测数据中的空值和/或异常值剔除,并将所述检测数据划分为患病人群数据集和非患病人群数据集。
[0016]可选地,将所述检测数据划分为建模数据集和内部验证数据集,包括如下步骤:
[0017]以时间将所述患病人群数据集和非患病人群数据集划分为内部数据集和外部数据集,所述外部数据集用于对模型进行外部验证;
[0018]将所述内部数据集通过随机八二分的方式进一步划分为用于构建模型的建模数据集和内部验证的内部验证数据集。
[0019]可选地,使用多个机器学习模型构建初步模型包括如下步骤:使用LightGBM、随机森林、XGBoost、CatBoost模型中的至少两种分别基于建模数据集构建初步模型;
[0020]和/或,调整以迭代次数为主的最优参数包括如下步骤:使用网格调参的方式实现以迭代次数为主的模型最优参数的调整;
[0021]和/或,筛选出内部验证受试者工作特征曲线下面积最高的验证模型包括如下步骤:所述受试者工作特征曲线以真阳性率为纵坐标,假阳性率为横坐标绘制的曲线,作为所述初步模型优劣的性能指标,筛选出内部验证的受试者工作特征曲线下面积最高的初步模型作为最优模型。
[0022]可选地,基于最优模型计算患者预测年龄和真实年龄的差,根据所述差和真实年龄的拟合关系进而修正预测年龄得到同化预测年龄,包括如下步骤:
[0023]计算最优模型中每个患者数据的预测年龄与真实年龄的差,然后以差作为纵坐标,实际年龄为横坐标,绘制散点图,对散点图中的散点进行拟合得到拟合直线,根据拟合直线中的斜率和截距得到关于实际年龄为自变量、预测年龄为因变量的拟合方程,基于所述拟合方程对预测年龄进行修正。
[0024]可选地,基于同化预测年龄的预测区间分布进行风险等级划分,包括如下步骤:
[0025]将所有人群划分为低风险、中风险、高风险三类,其中,低风险代表预测年龄低于样本拟合直线的中位水平,中风险代表略高于样本拟合直线的中位水平但不超过预测区间上限,高风险代表预测年龄超过预测区间上限。
[0026]作为本公开实施例的另一个方面,提供一种泛血管健康指数模型构建系统,包括:
[0027]检测数据集获取模块,获取泛血管患病人群和非患病人群的检测数据,并将所述检测数据划分为建模数据集和内部验证数据集;
[0028]数据集标记模块,将所述建模数据集输入Boruta模型以检测数据中的年龄为因变量,以检测数据中的其他检测数据为自变量进行变量筛选形成标记数据集;
[0029]最优模型筛选模块,基于所述标记数据集,使用多个机器学习模型构建初步模型,调整以迭代次数为主的最优参数,以受试者工作特征曲线下的面积最高为标准验证所述初步模型,筛选出内部验证受试者工作特征曲线下面积最高的初步模型作为最优模型;
[0030]预测年龄修正模块,基于最优模型计算患者预测年龄和真实年龄的差,根据所述差和真实年龄的拟合关系进而修正预测年龄得到同化预测年龄;
[0031]数据重采样拟合预测区间模块,基于泛血管非患病人群的同化预测年龄,补充每个年龄下的样本量,拟合预测年龄一次函数以及95%预测区间;
[0032]泛血管健康指数构建模块,基于预测年龄一次函数与95%预测区间进行风险等级划分,进而构建泛血管健康指数。。...

【技术保护点】

【技术特征摘要】
1.一种泛血管健康指数模型构建方法,其特征在于,包括如下步骤:获取泛血管患病人群和非患病人群的检测数据,并将所述检测数据划分为建模数据集和内部验证数据集;将所述建模数据集输入Boruta模型以检测数据中的年龄为因变量,以检测数据中的其他检测数据为自变量进行变量筛选形成标记数据集;基于所述标记数据集,使用多个机器学习模型构建初步模型,调整以迭代次数为主的最优参数,以受试者工作特征曲线下的面积最高为标准验证所述初步模型,筛选出内部验证受试者工作特征曲线下面积最高的初步模型作为最优模型;基于最优模型计算患者预测年龄和真实年龄的差,根据所述差和真实年龄的拟合关系进而修正预测年龄得到同化预测年龄;基于泛血管非患病人群的同化预测年龄,补充每个年龄下的样本量,拟合预测年龄一次函数以及95%预测区间;基于预测年龄一次函数与95%预测区间进行风险等级划分,进而构建泛血管健康指数。2.如权利要求1所述的泛血管健康指数模型构建方法,其特征在于,所述检测数据包括如下参数中的至少三种:年龄、性别、收缩压、舒张压、身高、体重、腰围、总胆固醇、甘油三酯、低密度脂蛋白胆固醇、高密度脂蛋白胆固醇、脂蛋白(a)、非高密度脂蛋白胆固醇、载脂蛋白B、糖化血红蛋白、空腹葡萄糖、肌酐、尿素氮、白蛋白、血红蛋白、D二聚体、胱抑素C、同型半胱氨酸、C反应蛋白、肌钙蛋白、脑钠肽(BNP/NT

proBNP)、颈动脉内

中膜厚度、左侧脉搏波传导速度、右侧脉搏波传导速度、左侧踝臂指数、右侧踝臂指数、心电图中ST

T改变、胸片中心脏扩大、左心室射血分数、舒张末期左心室后壁厚度、舒张末期室间隔厚度、舒张末期左心室内径、左心房容积、E/e

。3.如权利要求1或2所述的泛血管健康指数模型构建方法,其特征在于,在获取泛血管患病人群和非患病人群的检测数据之后,将所述检测数据划分为建模数据集和内部验证数据集之前还包括如下步骤:将所述检测数据中的空值和/或异常值剔除,并将所述检测数据划分为患病人群数据集和非患病人群数据集。4.如权利要求3所述的泛血管健康指数模型构建方法,其特征在于,将所述检测数据划分为建模数据集和内部验证数据集,包括如下步骤:以时间将所述患病人群数据集和非患病人群数据集划分为内部数据集和外部数据集,所述外部数据集用于对模型进行外部验证;将所述内部数据集通过随机八二分的方式进一步划分为用于构建模型的建模数据集和内部验证的内部验证数据集。5.如权利要求1或2所述的泛血管健康指数模型构建方法,其特征在于,使用多个机器学习模型构建初步模型包括如下步骤:使用LightGBM、随机森林、XGBoost、CatBoost模型中的至少两种分别基于建模数据集构建初步模型;和...

【专利技术属性】
技术研发人员:杨靖李湉湉张英梅葛均波
申请(专利权)人:复旦大学附属中山医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1