当前位置: 首页 > 专利查询>青岛大学专利>正文

一种基于医疗数据建模的川崎病分级预测方法技术

技术编号:14362909 阅读:124 留言:0更新日期:2017-01-09 10:22
本发明专利技术提供一种基于医疗数据建模的川崎病分级预测方法,其包括以下步骤:步骤1:数据样本选择;从样本数据集中抽取可供建模的有效样本;步骤2:特征筛选;从构建样本数据的特征集合中筛选出符合现场医疗辅助诊断应用的19项特征进行建模;步骤3:川崎病分级模型构建与评价。本发明专利技术将川崎病相关数据进行系统的分析、建模,并给出模型预测的评价方法,通过该模型能够基于川崎病数据,对病人川崎病进行有效的辅助诊断,使在发病前期进行有效的预防干预和治疗,为达到最佳治疗效果提供依据。

【技术实现步骤摘要】

本专利技术涉及医学预测
,具体地说,涉及一种基于医疗数据建模的川崎病分级预测方法
技术介绍
川崎病(Kawasakidisease,KD)是一种急性、自限性且病因不明的急性炎症性血管炎,目前已经成为最常见的婴幼儿获得性心脏病。如果没能对川崎病婴儿及时诊断和静脉注射免疫球蛋白(IVIG)进行治疗,可导致冠状动脉扩张或动脉瘤。当前川崎病的发病机理未知,没有有效的诊断测试方法,很容易被误诊为普通发烧。此外,有心血管后遗症的川崎病患儿被误诊可能导致心肌梗死和死亡的概率是25%。基于医疗数据建模的川崎病分级预测模型可以辅助诊断,有助于降低其误诊率,进一步改进其后续治疗过程。目前存在的基于数据的川崎病分类模型多采用线性方法,典型代表为线性判别分析方法。线性方法构造的模型简单,结果易于被医生理解,但是不能有效利用数据样本特征的非线性因素,提高模型性能和准确度。
技术实现思路
为解决以上问题,本专利技术提供的一种基于医疗数据的川崎病分级预测方法,将待诊断病人分为高危、中危、低危三级,由于小样本等原因暂时无法以高置信度确定的诊断结果可以被归为中危级别以待进一步观察,而高危病人的预报准确率也得到保障。其具体的技术方案如下:一种基于医疗数据建模的川崎病分级预测方法,其包括以下步骤:步骤1:数据样本选择;从样本数据集中抽取可供建模的有效样本;步骤2:特征筛选;从构建样本数据的特征集合中筛选出符合现场医疗辅助诊断应用的19项特征进行建模;步骤3:川崎病分级模型构建与评价,其步骤如下:(3.1)使用随机划分的方式,将数据集分割为训练集Xtrain、测试集Xtest和验证集Xderivation三部分,比例为2:1:1;(3.2)使用SVM回归方法在训练集上拟合Xtrain数据集,使用高斯核函数,建模过程使用十折交叉验证选取模型参数,记录最优模型参数和支持向量序号;(3.3)根据回归模型使用导出集计算分级阈值tcase与tcontrol;(3.4)结合导出集分级阈值,进行测试集样本的分级预测。进一步,步骤1中数据样本选择过程包括:(1.1)对残缺、错误数据,将其值置为空;(1.2)对重复数据进行删除;(1.3)对格式不标准数据,通过数值编码方式统一处理为数值格式。进一步,步骤(3.3)中,tcase为正标签或者叫做病例(case)的阈值,tcontrol为负标签或者叫做对照(control)的阈值;大于tcase的被分级为高危病人,小于tcontrol的被分级为低危病人,其余的被划分为中危病人。进一步,步骤(3.3)中,按如下步骤进行:A.假设导出集中数据样本个数为S,根据回归模型计算导出集中数据样本是否川崎病的概率p,;B.按照从大到小的顺序排列p,假设当时,tcase=p;当前顺序下大于等于此值的所有样本为病例;C.按照从小到大的顺序排列p,当时,tcontrol=p,当前顺序下小于等于此值的所有样本为对照。进一步,步骤2中所述19项特征为:(2.1)临床特征:A.是否发烧大于38.3摄氏度(Fever>38.3℃or100.5°F:)B.是否有皮疹(Rash)C.两眼是否发红(Redeyes)D.是否咽红、红嘴唇、或草莓舌(Redpharynx,redlips,orstrawberrytongue)E.是否颈部淋巴结>1.5厘米(Cervicallymphnode>1.5cm)F.是否红或肿手/脚或手/脚脱皮(Redorswollenhands/feetorpeelingofhands/feet)G.患病天数(Daysofillness)(2.2)实验数据:A.白细胞浓度(WBC×103/mm3)B.中性粒细胞浓度(POLYS%)C.带状核浓度(BANDS%)D.淋巴细胞浓度(Lymphs%)E.单核细胞浓度(MONOS%)F.嗜酸粒细胞浓度(EOS%)G.血红蛋白浓度(HGBmg/dl)H.血小板浓度(PLTS×103/mm3)I.红细胞沉降率(ESRmm/h)J.C-反应蛋白(CRPmg/dl)K.丙氨酸氨基转移酶(ALTIU/L)L.谷氨酰转肽酶(GGTIU/L)。本专利技术所提供的一种基于医疗数据的川崎病分级预测方法,具有以下优点:本专利技术使用与川崎病相关的医疗数据进行系统的分析、建模,并给出模型评价方法,通过该模型能够基于医疗数据有效的辅助川崎病诊断,有助于降低其误诊率,进一步改进其后续治疗过程。附图说明图1为本专利技术一种基于医疗数据建模的川崎病分级预测方法的工作流示意图。具体实施方式下面结合附图及本专利技术的实施例对本专利技术的一种基于医疗数据建模的川崎病分级预测方法作进一步详细的说明。本专利技术主要基于电子病历中的医疗数据进行建模,使用数据中蕴含的信息对病人是否患有川崎病进行预测,并将预测结果进行概率化描述。该专利技术包括针对医疗数据进行建模的数据处理流程和进行川崎病分类预测、分析、概率化等重要方法和结果。该专利技术结合了医疗数据和数据挖掘方法,是医疗数据与大数据分析方法结合的一种创新,该专利技术在一定程度上填补了国内医疗数据研究的空白,在利用医疗数据进行川崎病分类预测分析方面具有创新性。该专利技术使用医疗数据来源于医院数据库中收集的小儿发热类电子病历信息,数据中主要信息包括临床数据和实验数据以及患者川崎病类别。如图1所示,基于医疗数据的川崎病分级预测方法具体步骤如下:1.样本选择原始数据集为dataset1,数据缺失严重病人被从数据集中移出,此时数据集为dataset2。2.特征筛选对于dataset2,进行特征筛选,计算每个特征对应特征值的方差,去掉方差接近0的特征,此时数据集为dataset3。3.川崎病分类模型构建1)将数据集分割为训练集Xtrain、测试集Xtest和导出集Xderivation三部分,比例为2:1:1;2)在Xtrain上使用SVM回归方法进行建模,建模选择核函数为径向基核,调节参数为sigma、C,通过重复十次的十折交叉验证进行模型评估,选取最优模型。4.根据导出集构建分级模型并对测试集数据预测1)使用训练集和SVM回归方法建立回归预测模型,对导出集中每个病人预测其分类得分概率。2)将川崎病分类得分概率按照升序排列,当分类得分大于某一值时,计算大于该值的记录中所占比例。假设存在阈值p,分类得分大于p的人群中川崎病人数比例大于90%,此时,得到分类得分大于p的患者有90%以上的概率患有川崎病,其患有川崎病的概率为90%以上。3)对测试集进行川崎病分类预测,计算相应的分类得分。大于90分,预测其为川崎病高危病人,小于10%则为低危病人,其余为中危病人则需要医生根据实际情况再做后续观察。概率化打分计算具体过程:根据测试集中川崎病分类得分,计算一系列的阈值p1、p2、p3…、p10,对应打分为10、20、30、…、100,对于导出集中的病人,计算其川崎病分类得分,该得分必定落在某个区间[pi,p(i+1)],根据川崎病分类得分值和pi、p(i+1)对应概率化打分,可通过线性计算出川崎病得分值。实施例1:为了验证本专利技术的一种基于医疗数据建模的川崎病分级预测方法的有效性,本实施例选取时间范围为2005.11-2013.6电子病历中的894个病人数据。1、数据处理:根据本专利技术采用本文档来自技高网...
一种基于医疗数据建模的川崎病分级预测方法

【技术保护点】
一种基于医疗数据建模的川崎病分级预测方法,其特征在于:其包括以下步骤:步骤1:数据样本选择;从样本数据集中抽取可供建模的有效样本;步骤2:特征筛选;从构建样本数据的特征集合中筛选出符合现场医疗辅助诊断应用的19项特征进行建模;步骤3:川崎病分级模型构建与评价,其步骤如下:(3.1)使用随机划分的方式,将数据集分割为训练集Xtrain、测试集Xtest和验证集Xderivation三部分,比例为2:1:1;(3.2)使用SVM回归方法在训练集上拟合Xtrain数据集,使用高斯核函数,建模过程使用十折交叉验证选取模型参数,记录最优模型参数和支持向量序号;(3.3)根据回归模型使用导出集计算分级阈值tcase与tcontrol;(3.4)结合导出集分级阈值,进行测试集样本的分级预测。

【技术特征摘要】
1.一种基于医疗数据建模的川崎病分级预测方法,其特征在于:其包括以下步骤:步骤1:数据样本选择;从样本数据集中抽取可供建模的有效样本;步骤2:特征筛选;从构建样本数据的特征集合中筛选出符合现场医疗辅助诊断应用的19项特征进行建模;步骤3:川崎病分级模型构建与评价,其步骤如下:(3.1)使用随机划分的方式,将数据集分割为训练集Xtrain、测试集Xtest和验证集Xderivation三部分,比例为2:1:1;(3.2)使用SVM回归方法在训练集上拟合Xtrain数据集,使用高斯核函数,建模过程使用十折交叉验证选取模型参数,记录最优模型参数和支持向量序号;(3.3)根据回归模型使用导出集计算分级阈值tcase与tcontrol;(3.4)结合导出集分级阈值,进行测试集样本的分级预测。2.根据权利要求1所述的一种基于医疗数据建模的川崎病分级预测方法,其特征在于:步骤1中数据样本选择过程包括:(1.1)对残缺、错误数据,将其值置为空;(1.2)对重复数据进行删除;(1.3)对格式不标准数据,通过数值编码方式统一处理为数值格式。3.根据权利要求1所述的一种基于医疗数据建模的川崎病分级预测方法,其特征在于:步骤(3.3)中,tcase为正标签或者叫做病例(case)的阈值,tcontrol为负标签或者叫做对照(control)的阈值;大于tcase的被分级为高危病人,小于tcontrol的被分级为低危病人,其余的被划分为中危病人。4.根据权利要求1所述的一种基于医疗数据建模的川崎病分级预测方法,其特征在于:步骤(3.3)中,按如下步骤进行:A.假设导出集中数据样本个数为S,根据回归模型计算导出集中数据样本是否川崎病的概率i∈S;B.按照从大到小的顺序排列假设当时,当前顺序下大于等于此值的所有样本为病例;C.按照从小到大的顺序排列当时,当前...

【专利技术属性】
技术研发人员:纪俊喻海清于滨
申请(专利权)人:青岛大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1