基于集成学习的川崎病风险评估模型的构建方法及系统技术方案

技术编号：19861662 阅读：127 留言：0更新日期：2018-12-22 12:39

本发明专利技术提供了一种基于集成学习的川崎病风险评估模型的构建方法及系统，先从样本数据集中提取可用于建模及模型评估的有效样本，然后从构建样本数据的特征集中筛选出符合现场医疗辅助诊断应用的至少10项特征，分别采用随机森林、Boosting、线性模型和神经网络算法构建川崎病患病风险预测基础模型及分类阀域t；采用朴素贝叶斯算法进行整合根据二类后验概率的比较结果评估川崎病风险的风险大小。本发明专利技术的方法有效的解决了大多数分类器过拟合的问题，扬长避短，使评估模型更为精准。

全部详细技术资料下载

【技术实现步骤摘要】
基于集成学习的川崎病风险评估模型的构建方法及系统
本申请涉及医疗评估
，具体来说涉及一种基于集成学习的川崎病风险评估模型的构建方法及构建系统。
技术介绍
川崎病(Kawasakidisease，KD)，又称皮肤黏膜淋巴结综合征，是一种以全身血管炎为主要病变的急性发热出疹性小儿疾病。其中，冠状动脉是最易受累部位。最主要的并发症是冠状动脉病变，如果不能进行及时诊断和治疗，会对心血管系统造成严重损伤，目前已成为小儿后天获得性心脏病最常见的病因之一，也是成年后缺血性心脏病发生的危险因素。因此早期诊断，早期治疗，减少心血管并发症的发生具有重要的临床意义。根据2017年美国心脏病协会(AHA)制定的川崎病诊断标准，川崎病主要表现为持续性发热5天以上，还包括：(1)两眼结膜出现充血症状，但未出现渗出物；(2)口唇发红，出现杨梅舌，口腔和咽部黏膜存在弥漫性充血症状；(3)皮肤出现多形性红斑和皮疹；部分患儿可出现卡介苗接种处红肿，是一种特异性表现；(4)四肢末端发生变化；若手足存在硬性肿胀，掌跖和指端充血，则为急性期；若指端甲床皮肤移行部位膜状蜕皮，则为恢复期；肛门周围也多见脱皮症状；(5)急性期表现为非化脓性颈部淋巴结肿大，普遍为单侧，直径在1.5cm以上等临床症状。以上，若患者发热≥5天，且以上主要条件中≥4项者确诊为川崎病。含有上述若发热≥5天，主要临床表现不足4项，但在超声心动图或者血管造影发现有冠状动脉病变者，也诊断为川崎病。依据上述诊断标准，患者确诊川崎病需要发热≥5天，且需要等待临床症状出现，容易使患儿错过最佳治疗时间。同时，川崎病的临床症状表现复杂多样...

【技术保护点】
1.一种基于集成学习的川崎病风险评估模型的构建方法，其特征在于：所述方法包括以下步骤：(1)数据样本选择步骤：从样本数据集中提取可用于建模及模型评估的有效样本；(2)特征筛选步骤：从构建样本数据的特征集中筛选出符合现场医疗辅助诊断应用的至少10项特征；(3)构建步骤：采用随机森林、Boosting、线性模型和神经网络算法构建川崎病患病风险预测基础模型及分类阀域t；(4)构造新数据集步骤：根据(3)得到的川崎病患病风险预测基础模型，及分类阀域t，进行新数据集的构造；(5)整合步骤：通过四个川崎病患病风险预测基础模型对新数据集采用朴素贝叶斯算法进行验证，获得分类的先验概率，以及对每种模型的预测情况进行匹配，获得二分类的后验概率；根据二类后验概率的比较结果评估川崎病风险的风险大小，即获得基于集成学习的川崎病风险评估模型。

【技术特征摘要】
1.一种基于集成学习的川崎病风险评估模型的构建方法，其特征在于：所述方法包括以下步骤：(1)数据样本选择步骤：从样本数据集中提取可用于建模及模型评估的有效样本；(2)特征筛选步骤：从构建样本数据的特征集中筛选出符合现场医疗辅助诊断应用的至少10项特征；(3)构建步骤：采用随机森林、Boosting、线性模型和神经网络算法构建川崎病患病风险预测基础模型及分类阀域t；(4)构造新数据集步骤：根据(3)得到的川崎病患病风险预测基础模型，及分类阀域t，进行新数据集的构造；(5)整合步骤：通过四个川崎病患病风险预测基础模型对新数据集采用朴素贝叶斯算法进行验证，获得分类的先验概率，以及对每种模型的预测情况进行匹配，获得二分类的后验概率；根据二类后验概率的比较结果评估川崎病风险的风险大小，即获得基于集成学习的川崎病风险评估模型。2.根据权利要求1所述的构建方法，其特征在于所述方法步骤(1)中数据样本选择步骤按照如下步骤进行：(1.1)根据2017年美国心脏病协会(AHA)制定的川崎病诊断标准将样本分为川崎病和普通发热疾病两组，对不能明确诊断结果的样本进行删除处理；(1.2)对重复数据进行删除处理；(1.3)对数据量不足80％的指标进行删除处理；(1.4)对残缺、错误数据进行中位数填充；优选的，所述数据样本来源于医院在线电子病例录入系统，包括医嘱、检验、检查、病程、门诊病历数据、院外随访数据、多中心样本数据和标本分子检测数据。3.根据权利要求1所述的构建方法，其特征在于所述方法步骤(2)中10项特征包括：性别、年龄、C-反应蛋白浓度、纤维蛋白原浓度、白蛋白浓度、球蛋白浓度、补体C3浓度、免疫球蛋白G浓度、前白蛋白浓度和白球比例。4.根据权利要求1所述的构建方法，其特征在于所述方法步骤(3)中预先将所述有效样本的不完整数据集随机分割为训练集和验证集，并以完整数据集作为测试集，训练集和验证集的分割比例为1...

【专利技术属性】
技术研发人员：丁国徽，贾佳，李光，徐重飞，周珍，
申请(专利权)人：苏州贝斯派生物科技有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人