基于集成学习的川崎病风险评估模型的构建方法及系统技术方案

技术编号:19861662 阅读:127 留言:0更新日期:2018-12-22 12:39
本发明专利技术提供了一种基于集成学习的川崎病风险评估模型的构建方法及系统,先从样本数据集中提取可用于建模及模型评估的有效样本,然后从构建样本数据的特征集中筛选出符合现场医疗辅助诊断应用的至少10项特征,分别采用随机森林、Boosting、线性模型和神经网络算法构建川崎病患病风险预测基础模型及分类阀域t;采用朴素贝叶斯算法进行整合根据二类后验概率的比较结果评估川崎病风险的风险大小。本发明专利技术的方法有效的解决了大多数分类器过拟合的问题,扬长避短,使评估模型更为精准。

【技术实现步骤摘要】
基于集成学习的川崎病风险评估模型的构建方法及系统
本申请涉及医疗评估
,具体来说涉及一种基于集成学习的川崎病风险评估模型的构建方法及构建系统。
技术介绍
川崎病(Kawasakidisease,KD),又称皮肤黏膜淋巴结综合征,是一种以全身血管炎为主要病变的急性发热出疹性小儿疾病。其中,冠状动脉是最易受累部位。最主要的并发症是冠状动脉病变,如果不能进行及时诊断和治疗,会对心血管系统造成严重损伤,目前已成为小儿后天获得性心脏病最常见的病因之一,也是成年后缺血性心脏病发生的危险因素。因此早期诊断,早期治疗,减少心血管并发症的发生具有重要的临床意义。根据2017年美国心脏病协会(AHA)制定的川崎病诊断标准,川崎病主要表现为持续性发热5天以上,还包括:(1)两眼结膜出现充血症状,但未出现渗出物;(2)口唇发红,出现杨梅舌,口腔和咽部黏膜存在弥漫性充血症状;(3)皮肤出现多形性红斑和皮疹;部分患儿可出现卡介苗接种处红肿,是一种特异性表现;(4)四肢末端发生变化;若手足存在硬性肿胀,掌跖和指端充血,则为急性期;若指端甲床皮肤移行部位膜状蜕皮,则为恢复期;肛门周围也多见脱皮症状;(5)急性期表现为非化脓性颈部淋巴结肿大,普遍为单侧,直径在1.5cm以上等临床症状。以上,若患者发热≥5天,且以上主要条件中≥4项者确诊为川崎病。含有上述若发热≥5天,主要临床表现不足4项,但在超声心动图或者血管造影发现有冠状动脉病变者,也诊断为川崎病。依据上述诊断标准,患者确诊川崎病需要发热≥5天,且需要等待临床症状出现,容易使患儿错过最佳治疗时间。同时,川崎病的临床症状表现复杂多样,发病初期临床症状不明显,容易出现误诊,漏诊,在一定程度上增加了小儿川崎病的诊断难度。因此,研发灵敏度高,特异性强的诊断方式成为川崎病诊疗的中急需满足的需求。基于医疗数据建模的川崎病患病风险评估模型可以辅助评估患者患病情况,大大降低川崎病的误诊率和漏诊率,并且能使患者发病早期就得以确诊,协助医生进行有效的预防、干预和治疗,为患者达到最佳治疗效果提供帮助。本专利技术因此而来。
技术实现思路
本申请旨在提供一种基于集成学习的川崎病风险评估模型的构建方法,以解决现有技术中的问题。为了实现上述目的,根据本申请的一个方面,提供了一种基于集成学习的川崎病风险评估模型的构建方法,其特征在于:所述方法包括以下步骤:(1)数据样本选择步骤:从样本数据集中提取可用于建模及模型评估的有效样本;(2)特征筛选步骤:从构建样本数据的特征集中筛选出符合现场医疗辅助诊断应用的至少10项特征;(3)构建步骤:采用随机森林、Boosting、线性模型和神经网络算法构建川崎病患病风险预测基础模型及分类阀域t;(4)构造新数据集步骤:根据(3)得到的川崎病患病风险预测基础模型,及分类阀域t,进行新数据集的构造;(5)整合步骤:通过四个川崎病患病风险预测基础模型对新数据集采用朴素贝叶斯算法进行验证,获得分类的先验概率,以及对每种模型的预测情况进行匹配,获得二分类的后验概率;根据二类后验概率的比较结果评估川崎病风险的风险大小,即获得基于集成学习的川崎病风险评估模型。本专利技术采用集成学习的方法进行川崎病风险评估模型的构建,所谓集成学习是指使用一系列基础机器学习模型进行学习,并使用某种规则把各个学习结果进行整合从而达到提升学习效果的目的一种机器学习方法。集成学习的思路是在对新的实例进行分类的时候,把若干个单个分类器集成起来,通过对多个分类器的分类结果进行某种组合来决定最终的分类,以取得比单个分类器更好的性能。如果把单个分类器比作一个决策者的话,集成学习的方法就相当于多个决策者共同进行一项决策。优选的技术方案是:所述方法步骤(1)中数据样本选择步骤按照如下步骤进行:(1.1)根据2017年美国心脏病协会(AHA)制定的川崎病诊断标准将样本分为川崎病和普通发热疾病两组,对不能明确诊断结果的样本进行删除处理;(1.2)对重复数据进行删除处理;(1.3)对数据量不足80%的指标进行删除处理;(1.4)对残缺、错误数据进行中位数填充。优选的技术方案是:所述方法步骤(2)中10项特征包括:性别、年龄、C-反应蛋白浓度、纤维蛋白原浓度、白蛋白浓度、球蛋白浓度、补体C3浓度、免疫球蛋白G浓度、前白蛋白浓度和白球比例。优选的技术方案是:所述方法步骤(3)中预先将所述有效样本的不完整数据集随机分割为训练集和验证集,并以完整数据集作为测试集,训练集和验证集的分割比例为1:1~10:1。优选的技术方案是:所述方法步骤(3)分类阀域t为患病风险临界值,高于此值初步预测为川崎病高风险;低于此值初步预测为川崎病低风险优选的技术方案是:所述方法步骤(4)中构造新数据集步骤包括:1)将不完整数据集中训练集和测试集分别投入到四个川崎病患病风险预测基础模型中进行预测,得到分类得分;2)根据四个川崎病患病风险预测基础模型的分类阀域t值将预测结果进行分类,分别得到新数据集的训练集和测试集。优选的技术方案是:所述方法步骤(5)中获得测试集中每个样本的二类后验概率,比较每个样本的二类后验概率的差值,确定测试集样本进行预测分类,当差值大于0表示川崎病,差值小于0为非川崎病。优选的技术方案是:所述方法中所述数据样本来源于医院在线电子病例录入系统,包括医嘱、检验、检查、病程、门诊病历数据、院外随访数据、多中心样本数据和标本分子检测数据。本专利技术的另一目的在于提供一种基于集成学习的川崎病风险评估模型的构建系统,其应用于所述的构建方法,其包括:数据采集模块,至少用于数据采集,获取样本数据集;数据处理模块,至少用于从样本数据集中提取可用于构建评估模型的有效样本;以及从构建样本数据的特征集中筛选出符合现场医疗辅助诊断应用的至少10项特征;基础模型构建模块,至少用于采用随机森林、Boosting、线性模型和神经网络算法构建川崎病患病风险预测基础模型及分类阀域t;整合模块,至少用于通过四个川崎病患病风险预测基础模型对新数据集采用朴素贝叶斯算法进行验证,获得分类的先验概率,以及对每种模型的预测情况进行匹配,获得二分类的后验概率;根据二类后验概率的比较结果评估川崎病风险的风险大小。本专利技术的又一目的在于提供由所述方法构建得到的基于集成学习的川崎病风险评估模型。本专利技术的又一目的在于提供一种川崎病风险评估系统,其特征在于包括:输入模块,至少用于输入待评估数据;由所述方法构建得到的川崎病风险评估模型,至少用于对该待评估数据进行评估;显示模块,至少用于显示评估结果,即KDx评分。为解决川崎病患者在诊断过程中难确诊,易误诊的问题,本专利技术提供一种基于集成学习的川崎病风险评估模型的构建方法及构建系统。通过医疗数据建模对川崎病患病风险进行计算,将待诊断病人分为川崎病高风险患者或川崎病低风险患者,使患者发病早期就得以确诊,协助医生进行有效的预防、干预和治疗,有效的避免了现有诊断方式中因没有高敏感性和特异性的诊断方案而造成川崎病患者漏诊、误诊情况,防止延误患者治疗情况的发生。本专利技术所提供的一种基于集成学习的川崎病风险评估模型的构建方法及构建系统,使用与川崎病相关的医疗数据进行系统的统计分析、建模,并给出模型评价方法,有效的避免了现有诊断方式中因没有高敏感性和特异性的诊断方案而造成川本文档来自技高网
...

【技术保护点】
1.一种基于集成学习的川崎病风险评估模型的构建方法,其特征在于:所述方法包括以下步骤:(1)数据样本选择步骤:从样本数据集中提取可用于建模及模型评估的有效样本;(2)特征筛选步骤:从构建样本数据的特征集中筛选出符合现场医疗辅助诊断应用的至少10项特征;(3)构建步骤:采用随机森林、Boosting、线性模型和神经网络算法构建川崎病患病风险预测基础模型及分类阀域t;(4)构造新数据集步骤:根据(3)得到的川崎病患病风险预测基础模型,及分类阀域t,进行新数据集的构造;(5)整合步骤:通过四个川崎病患病风险预测基础模型对新数据集采用朴素贝叶斯算法进行验证,获得分类的先验概率,以及对每种模型的预测情况进行匹配,获得二分类的后验概率;根据二类后验概率的比较结果评估川崎病风险的风险大小,即获得基于集成学习的川崎病风险评估模型。

【技术特征摘要】
1.一种基于集成学习的川崎病风险评估模型的构建方法,其特征在于:所述方法包括以下步骤:(1)数据样本选择步骤:从样本数据集中提取可用于建模及模型评估的有效样本;(2)特征筛选步骤:从构建样本数据的特征集中筛选出符合现场医疗辅助诊断应用的至少10项特征;(3)构建步骤:采用随机森林、Boosting、线性模型和神经网络算法构建川崎病患病风险预测基础模型及分类阀域t;(4)构造新数据集步骤:根据(3)得到的川崎病患病风险预测基础模型,及分类阀域t,进行新数据集的构造;(5)整合步骤:通过四个川崎病患病风险预测基础模型对新数据集采用朴素贝叶斯算法进行验证,获得分类的先验概率,以及对每种模型的预测情况进行匹配,获得二分类的后验概率;根据二类后验概率的比较结果评估川崎病风险的风险大小,即获得基于集成学习的川崎病风险评估模型。2.根据权利要求1所述的构建方法,其特征在于所述方法步骤(1)中数据样本选择步骤按照如下步骤进行:(1.1)根据2017年美国心脏病协会(AHA)制定的川崎病诊断标准将样本分为川崎病和普通发热疾病两组,对不能明确诊断结果的样本进行删除处理;(1.2)对重复数据进行删除处理;(1.3)对数据量不足80%的指标进行删除处理;(1.4)对残缺、错误数据进行中位数填充;优选的,所述数据样本来源于医院在线电子病例录入系统,包括医嘱、检验、检查、病程、门诊病历数据、院外随访数据、多中心样本数据和标本分子检测数据。3.根据权利要求1所述的构建方法,其特征在于所述方法步骤(2)中10项特征包括:性别、年龄、C-反应蛋白浓度、纤维蛋白原浓度、白蛋白浓度、球蛋白浓度、补体C3浓度、免疫球蛋白G浓度、前白蛋白浓度和白球比例。4.根据权利要求1所述的构建方法,其特征在于所述方法步骤(3)中预先将所述有效样本的不完整数据集随机分割为训练集和验证集,并以完整数据集作为测试集,训练集和验证集的分割比例为1...

【专利技术属性】
技术研发人员:丁国徽贾佳李光徐重飞周珍
申请(专利权)人:苏州贝斯派生物科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1