川崎病并发冠状动脉病变危险因素管理系统及挖掘方法技术方案

技术编号:15878798 阅读:36 留言:0更新日期:2017-07-25 16:47
本发明专利技术公开了一种川崎病并发冠状动脉病变危险因素管理系统及挖掘方法,包括管理控制模块,在管理控制模块的输入端设有录入模块,管理控制模块的输出端连接川崎病数据库,川崎病数据库的输出端连接有数据处理器;录入模块用于录入川崎病数据;管理控制模块根据录入的川崎病数据进行预处理后,分类保存至川崎病数据库;数据处理器用于对川崎病数据库中的所有数据进行数据清理、数据集成和数据变换。有益效果:通过管理系统,提高了川崎病数据的分析质量和效率;利用强关联规则发现与疾病相关的危险因素,采用随机森林模型提高了预测精度,使用性高,可靠性好,涉及的数据来源广,易于实现,人为工作量小。

Kawasaki disease complicated with coronary artery disease risk factors and management system of mining method

The invention discloses a Kawasaki disease associated with coronary artery disease and risk factors of management system and mining methods, including management control module, an input module in the management of the input end of the control module, the output control module is connected with the database management of Kawasaki disease, Kawasaki disease database output end is connected with a data processor; input module for the entry of Kawasaki disease data preprocessing; management control module according to the input data after Kawasaki disease classification, Kawasaki disease is saved to the database; data processor is used for all data in the database of Kawasaki disease data cleaning, data integration and data transformation. Beneficial effect: through the management system, improve data quality and efficiency analysis of Kawasaki's disease; the strong association rules to find out the risk factors associated with the disease, the random forest model improves the prediction accuracy, the use of high reliability, the data related to the wide sources, easy to realize, for small workload.

【技术实现步骤摘要】
川崎病并发冠状动脉病变危险因素管理系统及挖掘方法
本专利技术涉及生命科学
,具体的说是一种川崎病并发冠状动脉病变危险因素管理系统及挖掘方法。
技术介绍
川崎病是一种以全身血管炎为主要病变的急性发热出疹性小儿疾病。冠状动脉损伤是川崎病的主要并发症,未经治疗的患儿约15%-25%形成冠状动脉病变,其中,冠状动脉病变包括冠状动脉扩张、冠状动脉瘤、冠状动脉狭窄、闭塞及粥样硬化、动脉瘤处血栓形成,严重者出现心肌梗死、缺血性心脏病甚至猝死,因此防治冠脉病变是儿科医生治疗川崎病患儿的首要目的。国内外科学家都对川崎病并发冠状动脉损伤的相关因素进行了大量的、深入的研究。但目前仍没有被全世界广泛接受的结论以及能普遍应用于临床的评价川崎病并发冠状动脉损伤危险程度的体系。许多研究者通过对川崎病患者的临床数据进行统计分析找出川崎病并发冠状动脉损伤的危险因素。但随着近年来电子病历系统发展非常迅速,医院已逐渐形成了一定规模的临床数据资源,对这些数量大、涉及面广的电子化数据,常用的数据库管理系统的查询检索机制和统计学分析方法已无法对海量数据进行有效地分析。但是,对于现有的统计和检索机制技术,此类方法存在许多弊端,比如:分析方法单一、人力和时间消耗大、预测方法的科学性差等缺点,已经无法满足人们生活的智能时代。综上所述,有必要提出设计一种满足人们需求的技术,来对川崎病并发冠状动脉病变危险因素作出更详细、智能的分析。
技术实现思路
针对上述问题,本专利技术提供了一种川崎病并发冠状动脉病变危险因素管理系统及挖掘方法,建立川崎病冠状动脉病变的危险因素管理系统,并对川崎病数据进行统计,从大量的统计数据中挖掘出川崎病冠状动脉病变的危险因素。为达到上述目的,本专利技术采用的具体技术方案如下:一种川崎病并发冠状动脉病变危险因素管理系统,其关键在于:包括管理控制模块,在所述管理控制模块的输入端设有录入模块,所述管理控制模块的输出端连接川崎病数据库,所述川崎病数据库的输出端连接有数据处理器;所述录入模块用于录入川崎病数据;所述管理控制模块根据录入的川崎病数据进行预处理后,分类保存至川崎病数据库;所述数据处理器用于对川崎病数据库中的所有数据进行数据清理、数据集成和数据变换。通过上述设计,该管理系统对川崎病数据进行统计,人们对数据进行调取。其中,管理控制模块根据录入的川崎病数据进行预处理,进行分类保存,使川崎病数据更加清晰。数据处理器对川崎病数据库中的所有数据进行数据清理、数据集成和数据变换,得到川崎病数据集。进一步地,为了获得川崎病所有的数据,所述川崎病数据库包括川崎病患者的个人资料数据库、临床检验数据库、超声心动图数据库、诊断结果数据库和电子病历数据库。一种川崎病并发冠状动脉病变危险因素挖掘方法,其关键在于包括以下步骤:S1:从川崎病数据库中获取所有川崎病患者的个人数据、临床检验数据、超声心动图数据及诊断结果数据、电子病历数据;S2:所述数据处理器对步骤S1得到的所有数据进行数据清理、数据集成和数据变换,得到川崎病数据集;S3:利用关联规则方法对川崎病数据集进行数据挖掘,得到与冠状动脉病变相关的危险因素;S4:用随机森林算法对川崎病并发冠脉病变建立随机森林风险预测模型,并计算所述随机森林风险预测模型的AUC面积。在步骤S1获取的数据为所述管理控制模块进行了预处理后的数据,所述预处理步骤具体为:S11:获取所有川崎病患者的个人数据、临床检验数据、超声心动图数据及诊断结果数据、电子病历数据;S12:根据步骤S11得到的所有数据,抽象出所有的预测变量和预测变量均值;S13:确定川崎病患者有无发生冠状动脉病变的分类变量、分类等级及每个等级所对应的分类变量值;S14:对所有川崎病患者进行分类,保存至川崎病数据库。所述预测变量包括川崎病患者的性别、年龄及52个实验室检查指标,所述52个实验室检查指标为:C反应蛋白,白细胞,单核细胞绝对值,淋巴细胞绝对值,中性粒细胞绝对值,红细胞,血红蛋白,红细胞压积,红细胞平均体积,平均红细胞血红蛋白浓度,红细胞分布宽度,红细胞分布宽度绝对值,血小板数,平均血小板体积,大血小板细胞比,血小板分布宽度,血小板压积,嗜酸性粒细胞的绝对值,结合胆红素,总胆汁酸,白蛋白,血清补体C4,胆红素,尿蛋白,γ-谷氨酰转肽,谷丙转氨酶,谷草转氨酶,谷草/谷丙,红细胞形态;肌酐,肌酸激酶,肌酸激酶同工酶,间接胆红素,碱性磷酸酶,磷,氯,镁,钠,尿素氮,尿酸,尿葡萄糖,前白蛋白,球蛋白,乳酸脱氢酶,体酮,尿维生素C,血沉,亚硝酸盐,总胆红素,总蛋白,总钙;所述分类变量为超声心动图数据中的z-score值;所述分类等级包括无冠状动脉病变(NCAL)、小型冠状动脉瘤(SCAL)、中型冠状动脉瘤(MCAL)和巨型冠状动脉瘤(GCAL);所述无冠状动脉病变对应的分类变量值为:z-score<2.5;所述小型冠状动脉瘤对应的分类变量值为:2.5≦z-score<5.0;所述中型冠状动脉瘤对应的分类变量值为:5.0≦z-score<10.0;所述巨型冠状动脉瘤对应的分类变量值为:z-score≧10.0。步骤S2所述数据清理的具体内容为:对存在缺失数据多的指标,采用多重插补法填补法进行填补,其中采用预测变量均值进行插补;对存在缺失数据少且缺失数据是随机出现的,则对缺失数据进行删除;所述数据集成的具体内容为:将步骤S1中所述电子病历数据中所有数据表中的数据合并到合成表中;所述数据变换的具体内容为:将所述合成表中的各属性的值转换成数据挖掘的形式,并分别对所有属性的特点进行规格化处理和编码。骤S3利用关联规则方法对川崎病数据集进行数据挖掘的具体步骤为:S31:获取所有患冠脉病变的川崎病患者的数据;S32:对步骤S31得到的数据进行关联规则分析,使用规则约束和兴趣度约束获得川崎病并发冠脉病变相关的强关联规则;S33:将强关联规则中出现的预测变量作为川崎病并发冠状动脉病变的危险因素。步骤S32中强关联规则获得的具体方法为:建立关联规则X→Y,X为条件:包括至少一个预测变量,Y为结果;包括其中冠状动脉病变的一个分类等级;设定最小置信度和最小支持度;当关联规则的支持度和置信度均大于最小置信度和最小支持度时,则得到强关联规则。步骤S4随机森林风险预测模型建立和评估的具体步骤为:S41:将步骤S2得到的川崎病数据集按照N:1的比例划分为训练样本和测试样本;S42:将步骤S3中出现的危险因素作为预测模型的预测指标;S43:建立对川崎病并发冠脉病变的随机森林风险预测模型;通过调整参数选择分裂属性的个数mtry和参数生成决策树的数目ntree来观察模型的预测误差随ntree的变化情况,以此确定最优的随机森林数来建立随机森林风险预测模型;S44:根据步骤S41的测试样本,计算随机森林风险预测模型的AUC面积。本专利技术的有益效果:建立川崎病冠状动脉病变的危险因素管理系统,并对川崎病数据进行统计,从大量的统计数据中挖掘出川崎病冠状动脉病变的危险因素。利用强关联规则发现与疾病相关的危险因素,采用随机森林算法建立随机森林模型预测精度达远远超出传统的多元Logistic回归模型,提高了分析的质量和效率;使用性高,可靠性好,涉及的数据来源广,易于实现,人为工作量小。附图说明图1为本本文档来自技高网...
川崎病并发冠状动脉病变危险因素管理系统及挖掘方法

【技术保护点】
一种川崎病并发冠状动脉病变危险因素管理系统,其特征在于:包括管理控制模块,在所述管理控制模块的输入端设有录入模块,所述管理控制模块的输出端连接川崎病数据库,所述川崎病数据库的输出端连接有数据处理器;所述录入模块用于录入川崎病数据;所述管理控制模块根据录入的川崎病数据进行预处理后,分类保存至川崎病数据库;所述数据处理器用于对川崎病数据库中的所有数据进行数据清理、数据集成和数据变换。

【技术特征摘要】
1.一种川崎病并发冠状动脉病变危险因素管理系统,其特征在于:包括管理控制模块,在所述管理控制模块的输入端设有录入模块,所述管理控制模块的输出端连接川崎病数据库,所述川崎病数据库的输出端连接有数据处理器;所述录入模块用于录入川崎病数据;所述管理控制模块根据录入的川崎病数据进行预处理后,分类保存至川崎病数据库;所述数据处理器用于对川崎病数据库中的所有数据进行数据清理、数据集成和数据变换。2.根据权利要求1所述的川崎病并发冠状动脉病变危险因素管理系统,其特征在于:所述川崎病数据库包括川崎病患者的个人资料数据库、临床检验数据库、超声心动图数据库、诊断结果数据库和电子病历数据库。3.一种川崎病并发冠状动脉病变危险因素挖掘方法,其特征在于包括以下步骤:S1:从川崎病数据库中获取所有川崎病患者的个人数据、临床检验数据、超声心动图数据及诊断结果数据、电子病历数据;S2:所述数据处理器对步骤S1得到的所有数据进行数据清理、数据集成和数据变换,得到川崎病数据集;S3:利用关联规则方法对川崎病数据集进行数据挖掘,得到与冠状动脉病变相关的危险因素;S4:用随机森林算法对川崎病并发冠脉病变建立随机森林风险预测模型,并计算所述随机森林风险预测模型的AUC面积。4.根据权利要求3所述的川崎病并发冠状动脉病变危险因素挖掘方法,其特征在于在步骤S1获取的数据为所述管理制器进行了预处理后的数据,所述预处理步骤具体为:S11:获取所有川崎病患者的个人数据、临床检验数据、超声心动图数据及诊断结果数据、电子病历数据;S12:根据步骤S11得到的所有数据,抽象出所有的预测变量和预测变量均值;S13:确定川崎病患者有无发生冠状动脉病变的分类变量、分类等级及每个等级所对应的分类变量值;S14:对所有川崎病患者进行分类,保存至川崎病数据库。5.根据权利要求4所述的川崎病并发冠状动脉病变危险因素挖掘方法,其特征在于:所述预测变量包括川崎病患者的性别、年龄及52个实验室检查指标,所述52个实验室检查指标为:C反应蛋白,白细胞,单核细胞绝对值,淋巴细胞绝对值,中性粒细胞绝对值,红细胞,血红蛋白,红细胞压积,红细胞平均体积,平均红细胞血红蛋白浓度,红细胞分布宽度,红细胞分布宽度绝对值,血小板数,平均血小板体积,大血小板细胞比,血小板分布宽度,血小板压积,嗜酸性粒细胞的绝对值,结合胆红素,总胆汁酸,白蛋白,血清补体C4,胆红素,尿蛋白,γ-谷氨酰转肽,谷丙转氨酶,谷草转氨酶,谷草/谷丙,红细胞形态;肌酐,肌酸激酶,肌酸激酶同工酶,间接胆红素,碱性磷酸酶,磷,氯,镁,钠,尿素氮,尿酸,尿葡萄糖,前白蛋白,球蛋白,乳酸脱氢酶,体酮,尿维生素C,血沉,...

【专利技术属性】
技术研发人员:贺向前张胜田杰樊楚谭续海
申请(专利权)人:重庆医科大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1