当前位置: 首页 > 专利查询>天津大学专利>正文

一种探究多生理变量对疾病重要程度的方法技术

技术编号:23894914 阅读:64 留言:0更新日期:2020-04-22 08:03
本发明专利技术公开了一种探究多生理变量对疾病重要程度的方法:数据的选择;数据的过滤;数据的清理:包括修正和删除;特征的选择;选择机器学习中的多元逻辑回归模型,得到估计的w值;进行18个基于多变量逻辑回归的实验,得到基本参考实验和生理变量缺失实验的每种疾病的AUC值,共计144个;根据AUC值变化的显著程度找出与疾病相关的前三种生理变量。本发明专利技术用于探究多生理变量对疾病的重要程度。

A method to explore the importance of multiple physiological variables to diseases

【技术实现步骤摘要】
一种探究多生理变量对疾病重要程度的方法
本专利技术涉及医学与机器学习领域,更具体的说,是涉及一种探究多生理变量对疾病重要程度的方法。
技术介绍
随着医学数据库的快速发展,数据驱动分析在医学数据库的应用中发挥着重要作用。临床数据库中有大量的疾病诊断和生理变量监测数据,针对这些海量的临床记录数据,存在着一些改善医疗保健的机会,例如利用这些数据预测再入院率和住院时长等。除此之外,利用临床数据探讨生理变量与疾病的关系也是临床研究的重要课题。因为对于一种特殊的疾病,探究哪种生理变量与之密切相关有助于在医护过程中乃至在发病过程中给与病人更好的医护措施和医护建议。目前有许多的医学数据,包括医学文献数据,如SemMedDB和EMbase;药物数据,如DrugBank;临床数据,如MIMIC-III和NCDB。对于临床数据库,近年来已经开展了许多与机器学习相结合的研究,但大多数研究集中在电子病历的应用上。基于卷积神经网络模型,EHR可用于预测入院时出院的药物。此外,在深入学习的过程中,ICD编码可以自动从乳腺癌和肺癌的EHR中提取出来[3]。当然,也有一本文档来自技高网...

【技术保护点】
1.一种探究多生理变量对疾病重要程度的方法,其特征在于,包括以下步骤:/n第一步,数据的选择:在MIMIC-III中选择生理变量和疾病的记录数据;/n第二步,数据的过滤:针对第一步选择出的数据,首先筛选出ICU住院时年龄大于18的患者信息,然后从这些信息中筛选出他们的单一入院信息;/n第三步,数据的清理:包括修正和删除,对过滤后的数据中的测量单位误差予以修正,对过滤后的数据中的低异常值和高异常值予以删除;/n第四步,特征的选择:对第三步清理后的数据进行特征选择,每个生理值的全时间序列被分为7个时间子序列,每个时间子序列用于计算6个特征,最后每个生理值的全时间序列得到42个特征;/n第五步,选择...

【技术特征摘要】
1.一种探究多生理变量对疾病重要程度的方法,其特征在于,包括以下步骤:
第一步,数据的选择:在MIMIC-III中选择生理变量和疾病的记录数据;
第二步,数据的过滤:针对第一步选择出的数据,首先筛选出ICU住院时年龄大于18的患者信息,然后从这些信息中筛选出他们的单一入院信息;
第三步,数据的清理:包括修正和删除,对过滤后的数据中的测量单位误差予以修正,对过滤后的数据中的低异常值和高异常值予以删除;
第四步,特征的选择:对第三步清理后的数据进行特征选择,每个生理值的全时间序列被分为7个时间子序列,每个时间子序列用于计算6个特征,最后每个生理值的全时间序列得到42个特征;
第五步,选择机器学习中的多元逻辑回归模型,多元逻辑回归模型是一种用条件概率分布P(Y|X)表示的分类模型,假设离散随机变量Y的取值范围为{1,2,…,K},则多元逻辑回归模型为:






其中,x∈Rn+1;wk∈Rn+1;k=1,2,…,K-1;X代表输入的生理变量;Y代表各种疾病;
在学习多元逻辑回归模型时,最大似然估计方法用于估计模型参数,这样,问题就变成了以对数似然函数为目标函数的优化问题;
P(Y=k|x)=π(x)(3)
P(Y=K|...

【专利技术属性】
技术研发人员:饶国政赵树英
申请(专利权)人:天津大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1