一种心血管疾病非计划再住院风险预测方法技术

技术编号:22330187 阅读:42 留言:0更新日期:2019-10-19 12:17
本发明专利技术提供了一种心血管疾病非计划再住院风险预测方法,基于与患者健康相关的结构化数据以及非结构化数据构成的多源异构医疗健康数据,应用基于深度神经网络的多模型集成算法,构建非计划再住院风险预测模型。本发明专利技术可以准确分析外部环境变化对患者非计划再住院的影响,同时应用文本挖掘技术提取非结构化数据的关键信息,全面挖掘患者健康影响因子。本发明专利技术解决了现有技术中缺乏外部环境变化对患者健康的影响分析、非结构化数据信息挖掘不足以及非平衡分类样本预测准确率较低的问题,提升了心血管疾病患者非计划再住院的预测准确性。

A risk prediction method for unplanned readmission of cardiovascular diseases

【技术实现步骤摘要】
一种心血管疾病非计划再住院风险预测方法
本专利技术属于风险预测
,尤其涉及一种心血管疾病非计划再住院风险预测方法。
技术介绍
统计数据显示,心血管疾病是全球的头号死因。心血管疾病严重威胁人类健康,特别是50岁以上中老年人健康,具有高患病率、高致残率和高死亡率的特点。心血管疾病的预后管理已成为医学界和专家学者的重要研究方向,也是精准医疗的一个重要研究内容。非计划再住院风险预测作为精准医疗的一个重要研究内容,是衡量医疗质量的重要依据。非计划再住院是指病人出院31天内因相同疾病或相关疾病非计划再入院。精准预测心血管疾病患者的非计划再住院风险,有利于患者及医生提前采取预防措施,针对性地调整康复项目,提升康复效果。结合医疗健康大数据的特点及非计划再入院风险预测研究基础,目前工作还存在一些问题有待研究,主要体现在以下几个方面:(1)心血管疾病的复发除了与患者自身特征相关,还与外界环境息息相关;(2)医疗健康大数据包含大量非结构化数据,如影像信息、文本信息,对这部分的信息挖掘不足;(3)非计划再住院分类样本具有非平衡性,需采用更有效的机器学习算法,提升对非平衡样本的预测准确率。鉴于此,本专利技术将探索外部环境变化对心血管疾病患者非计划再住院风险的影响,挖掘非结构化数据的深层信息,运用混合集成学习算法构建非计划再住院风险预测模型,提升非平衡性分类样本的预测准确率。
技术实现思路
针对现有技术中的上述不足,本专利技术提供的一种心血管疾病非计划再住院风险预测方法解决了现有技术中缺乏外部环境变化对患者健康的影响分析、非结构化数据信息挖掘不足以及非平衡分类样本预测准确率较低的问题,提升了心血管疾病患者非计划再住院的预测准确性。为了达到以上目的,本专利技术采用的技术方案为:本方案提供一种心血管疾病非计划再住院风险预测方法,包括如下步骤:S1、获取与患者健康相关的结构化数据以及非结构化数据;S2、根据患者的ID、入院时间、出院时间以及出院主诊断构建患者的再住院标签集合;S3、利用文本分词模型Bi-LSTM-CRF对所述非结构化数据的文本数据进行文本分词处理,并根据所述分词处理后的文本数据生成词频矩阵;S4、根据所述分词处理后的文本数据构建LAD主题模型,并根据所述LAD主题模型以及词频矩阵计算患者的特征向量;S5、根据患者的ID合并所述患者的再住院标签集合、与患者健康相关的结构化数据以及所述患者的特征向量,并利用基于深度神经网络的多模型集成算法预测心血管疾病患者非计划再住院风险。进一步地,所述步骤S1中所述与患者健康相关的结构化数据包括:与患者相关的人口统计信息、常规检查信息、临床诊疗信息、药物治疗信息、家族史信息以及患者所处的外部环境信息;所述与患者健康相关的非结构化数据包括:与患者相关的医嘱、病程进展以及影像信息的检查结果。再进一步地,所述步骤S2具体为:根据患者的ID、入院时间、出院时间以及出院主诊断判断患者第t次因心血管疾病住院与第t+1次因心血管疾病住院的入院时间间隔是否小于31天,若是,则该患者的第t次非计划再住院标签为1,否则该患者的第t次非计划再住院标签为0,从而完成对患者再住院标签集合的构建。再进一步地,所述步骤S3中对所述文本数据进行文本分词处理包括如下步骤:S301、利用双向长短期记忆网络模型Bi-LSTM对所述非结构化数据的文本数据进行处理,得到初始文本分词标签;S302、将所述初始文本分词标签输入至条件随机场模型CRF进行学习得到所述文本分词标签的状态转移矩阵;S303、利用维特比算法Viterbi对所述状态转移矩阵进行解码,输出文本分词标签序列,从而完成对所述文本数据的分词处理。再进一步地,所述步骤S4包括如下步骤:S401、根据所述分词处理后的文本数据构建LAD主题模型;S402、根据所述分词处理后的文本数据利用所述LAD主题模型以及困惑度计算得到最优主题模型数;S403、将所述最优主题模型数输入至所述LAD主题模型进行训练,得到训练后的LAD主题模型;S404、根据所述训练后的LAD主题模型以及词频矩阵计算患者的特征向量。再进一步地,所述步骤S403中训练后的LAD主题模型Topicu的表达式为:Topicu=αu1*wordu1+…+αuv*worduv+…+αuq*worduq其中,u为第u个主题模型,αuv为主题模型中关键词worduv的权重,v=1,2,...q,q为构成主题模型的关键词数量,worduv表示主题模型中的关键词。再进一步地,所述步骤S5包括如下步骤:S501、根据患者的ID合并所述患者的再住院标签集合、与患者健康相关的结构化数据以及所述的患者特征向量获取交叉验证数据子集;S502、根据所述交叉验证数据子集利用逻辑回归算法LR、支持向量机算法SVM、朴素贝叶斯算法NB、随机森林算法RF以及极端梯度提升算法XGBoost五种算法构建第一阶段分类预测模型,并根据所述第一阶段分类预测模型分别得到第一阶段分类预测模型的再住院风险预测结果;S503、根据患者的ID合并所述第一类阶段分类预测结果及患者的再住院标签集合,形成新的数据集;S504、利用所述新的数据集构建深度神经网络模型,并通过5折交叉验证优化深度神经网络模型的参数,得到训练后的深度神经网络模型;S505、将所述新的数据集输入至所述训练后的深度神经网络模型,并根据所述训练后的深度神经网络模型输出心血管疾病患者非计划再住院风险的预测值。再进一步地,所述步骤S501包括如下步骤:S5011、根据患者的ID合并所述患者的再住院标签集合、与患者健康相关的结构化数据以及所述患者的特征向量构建数据集D;S5012、将所述数据集D划分为5个独立同分布的数据子集Dk={Xk,Yk},从而获取交叉验证数据子集,其中,Xk为患者的特征集合,Yk为患者的再住院标签集合,k为数据子集的个数,且k=1,2,...5。再进一步地,所述步骤S504中的构建深度神经网络模型包括定义所述深度神经网络模型的目标函数以及所述深度神经网络模型的激活函数。再进一步,所述深度神经网络模型的目标函数J(W,b)的表达式如下:其中,λ为正则项系数,xr′为患者的特征,yr为患者的再住院标签,m为样本量,nl为神经网络层数,sl为在l层的神经元数量,W和b均为深度神经网络模型的参数,且和为连接第l-1层神经元j与第l层神经元i的关联权重,且j=1,2,…,sl-1,i=1,2,…,sll=2,3,…,nl,为第l层神经元i的偏倚,hW,b表示激活函数;所述深度神经网络输出层的激活函数hW,b(x′)的表达式如下:其中,为第nl层第i个神经元的输出,f(·)为激活函数,为连接第nl-2层神经元sl-1与第nl-1层神经元i的关联权重,为第nl-1层神经元i的偏倚。本专利技术的有益效果:(1)本专利技术基于与患者健康相关的结构化数据以及非结构化数据构成的多源异构医疗健康数据,构建非计划再住院风险预测模型,准确分析外部环境变化对患者非计划再住院的影响,同时应用文本挖掘技术提取电子病历非结构化数据的关键信息,全面挖掘患者健康影响因子;(2)本专利技术构建Bi-LSTM-CRF模型,捕获文本中词的上下文语义关系,同时学习标签间的顺序性,提升文本信息分词的准确性;(3)本专利技术运用主题模型LDA,对潜本文档来自技高网...

【技术保护点】
1.一种心血管疾病非计划再住院风险预测方法,其特征在于,包括如下步骤:S1、获取与患者健康相关的结构化数据以及非结构化数据;S2、根据患者的ID、入院时间、出院时间以及出院主诊断构建患者的再住院标签集合;S3、利用文本分词模型Bi‑LSTM‑CRF对所述非结构化数据的文本数据进行文本分词处理,并根据所述分词处理后的文本数据生成词频矩阵;S4、根据所述分词处理后的文本数据构建LAD主题模型,并根据所述LAD主题模型以及词频矩阵计算患者的特征向量;S5、根据患者的ID合并所述患者的再住院标签集合、与患者健康相关的结构化数据以及所述患者的特征向量,并利用基于深度神经网络的多模型集成算法预测心血管疾病患者非计划再住院风险。

【技术特征摘要】
1.一种心血管疾病非计划再住院风险预测方法,其特征在于,包括如下步骤:S1、获取与患者健康相关的结构化数据以及非结构化数据;S2、根据患者的ID、入院时间、出院时间以及出院主诊断构建患者的再住院标签集合;S3、利用文本分词模型Bi-LSTM-CRF对所述非结构化数据的文本数据进行文本分词处理,并根据所述分词处理后的文本数据生成词频矩阵;S4、根据所述分词处理后的文本数据构建LAD主题模型,并根据所述LAD主题模型以及词频矩阵计算患者的特征向量;S5、根据患者的ID合并所述患者的再住院标签集合、与患者健康相关的结构化数据以及所述患者的特征向量,并利用基于深度神经网络的多模型集成算法预测心血管疾病患者非计划再住院风险。2.根据权利要求1所述的心血管疾病非计划再住院风险预测方法,其特征在于,所述步骤S1中所述与患者健康相关的结构化数据包括:与患者相关的人口统计信息、常规检查信息、临床诊疗信息、药物治疗信息、家族史信息以及患者所处的外部环境信息;所述与患者健康相关的非结构化数据包括:与患者相关的医嘱、病程进展以及影像信息的检查结果。3.根据权利要求1所述的心血管疾病非计划再住院风险预测方法,其特征在于,所述步骤S2具体为:根据患者的ID、入院时间、出院时间以及出院主诊断判断患者第t次因心血管疾病住院与第t+1次因心血管疾病住院的入院时间间隔是否小于31天,若是,则该患者的第t次非计划再住院标签为1,否则该患者的第t次非计划再住院标签为0,从而完成对患者再住院标签集合的构建。4.根据权利要求1所述的心血管疾病非计划再住院风险预测方法,其特征在于,所述步骤S3中对所述文本数据进行文本分词处理包括如下步骤:S301、利用双向长短期记忆网络模型Bi-LSTM对所述非结构化数据的文本数据进行处理,得到初始文本分词标签;S302、将所述初始文本分词标签输入至条件随机场模型CRF进行学习得到所述文本分词标签的状态转移矩阵;S303、利用维特比算法Viterbi对所述状态转移矩阵进行解码,输出文本分词标签序列,从而完成对所述文本数据的分词处理。5.根据权利要求1所述的心血管疾病非计划再住院风险预测方法,其特征在于,所述步骤S4包括如下步骤:S401、根据所述分词处理后的文本数据构建LAD主题模型;S402、根据所述分词处理后的文本数据利用所述LAD主题模型以及困惑度计算得到最优主题模型数;S403、将所述最优主题模型数输入至所述LAD主题模型进行训练,得到训练后的LAD主题模型;S404、根据所述训练后的LAD主题模型以及词频矩阵计算患者的特征向量。6.根据权利要求5所述的心血管疾病非计划再住院风险预测方法,其特征在于,所述步骤S403中训练后的LAD主题模型Topicu的表达式为:Topicu=αu1*wordu1+...

【专利技术属性】
技术研发人员:邱航陈玉成蒲晓蓉刘思王利亚罗林李为昊
申请(专利权)人:电子科技大学四川大学华西医院
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1