当前位置: 首页 > 专利查询>吴秦昊专利>正文

一种基于数据处理管道的脓毒症预测模型的构建和使用方法及系统技术方案

技术编号:38284005 阅读:10 留言:0更新日期:2023-07-27 10:31
本发明专利技术公开了一种基于数据处理管道的脓毒症预测模型的构建和使用方法及系统,含以下步骤:步骤1,收集脓毒症病人历史检测数据;步骤2,对历史检测数据进行数据处理管道的下采样处理;步骤3,将处理后数据录入机器学习模型,得脓毒症预测模型;步骤4,使用数据栈收集临床病人的实时检测数据,设定模型预测时检测数据阈值,根据检测数据阈值,采用数据处理管道的动态滑动窗口获取临床病人预测所需的检测数据,录入脓毒症预测模型,得到预测结果。该方法基于下采样处理可以对已有的脓毒症病例历史数据进行有效处理,用于训练机器学习模型,采用动态滑动窗口获取临床病人预测所需的检测数据,录入训练机器学习模型,进而得到更为准确的预测结果。为准确的预测结果。为准确的预测结果。

【技术实现步骤摘要】
一种基于数据处理管道的脓毒症预测模型的构建和使用方法及系统


[0001]本专利技术属于医疗数据处理
,具体涉及一种基于数据处理管道的脓毒症预测模型的构建和使用方法及系统。

技术介绍

[0002]脓毒症是一种多器官衰竭的高致死率疾病,且该病多发于加护病房。目前对于脓毒症的治疗手段相当有限,只能在发病前通过SOFA(序贯器官衰竭评估)或者qSOFA(快速序贯器官衰竭评估)进行快速诊断,从而给予相对应的抗生素治疗。
[0003]CN 111261282 A的专利申请公开了一种基于机器学习的脓毒症早期预测方法。首先,利用电子病历记录提取患者入ICU后24小时内的临床数据,包括人口统计学、生命体征变量以及实验室测量指标等多个变量,对数据进行预处理后,输入到改进的深度森林算法模型中进行训练,训练调优后,输出病人的患病概率。同时算法模型还可以对其特征变量进行排序,输出对早期预测脓毒症有重要影响的预警因子。最后,将需要预测的病人的对应变量输入到训练好的模型中,则可对此病患进行脓毒症的早期预测。但该方法将含有较多缺失值的变量排除在外,因而会导致该方法可能会使其模型丧失部分的准确性。
[0004]而且该专利申请使用了MissForest方法进行填补,对于超过6sigma的异常值,则采用6sigma内的最接近的最大值和最小值来进行替换。该方法存在的问题主要在MissForest上,由于MissForest是利用了历史数据先行训练一个随机森林,之后通过随机森林预测遇到的每一个缺失值。该方法是建立在各个特征当前平均值进行预测,因此会导致病人数据中会存在数值偏倚的问题,即对于已经记录的历史数据的过分依赖。该方法会导致训练的模型过于依赖MissForest本身填充的数据。而该方法同样会导致训练的模型在实际运用场景中不能达到很好的预测效果。
[0005]TW202301377A公开了一种败血症之人工智慧辅助医疗诊断方法及系统。首先,利用相同时间长度的特征窗对所有的可测特征进行采集并取用各项特征的最大值、最小值以及最新数值等提取现有数据。该专利申请利用特征窗的预处理,输入到XGBoost之中进行训练,在训练调优后,输出病人的早期预测结果。但该方法并未提及该特征窗覆盖范围,因为会导致将大量的特征简化为最大值,最小值,以及最新数值的合并,从而导致模型依赖的数据过于单一,无法达到实际运用的效果。
[0006]而且,该方案存在过于简化数据的风险,在实际实施中,并不能很好的监测病人病情的发展走势,而且因为每个特征的最大最小值相对不会变化,因此,该方法训练出来的模型也存在数据类型过于单一的问题。
[0007]从目前这两个公开文件的描述来看,都提到了在历史数据或者临床数据收集中,会存在大量的缺失结果,因而需要对不完整且不平衡的临床数据集进行预处理。而目前的方法主要放在训练模型中并没有提及实际临床的处理方式。从而导致训练的机器学习模型预测功能不是很可靠。
[0008]而且,这两个专利主要针对的是在得知病人的各项测试数据之后预测该病人有没有得脓毒症,其中没有针对病人病情发展的设计。公开号为CN115579147A的专利申请提到了设置了定长(比如2小时,4小时等等)的时间窗口,从而根据这个时间窗口收集到的数据来进行模型训练。然而该方法由于将病人数据定长切割,从而会导致收集到的数据并不能保证覆盖所有的特征值。这可能会导致各模型输出相悖的预测结果。
[0009]因此,目前现有的人工智能预测脓毒症方法通常都是运用定长的滑动窗口在多个特征值(比如人口统计学、生命体征变量、实验室测量指标、患者体征数据和设备监测数据等)上使用机器学习模型进行脓毒症的预测。此类方法需要设定滑动窗口的大小,并且此类方法的预测需要每单位时间滑动,以此达到提前预测的目的。但因为脓毒症发病的复杂性,根据目前已有的模型预测结果,每单位时间的预测会造成大量的虚假警报,因而在临床部署的时候会导致医务人员对于该脓毒症警报的倦怠。所以,为了有效的降低脓毒症的报警频率,并且提升预测模型的表现,本专利技术提出了基于数据处理管道的脓毒症预测模型的构建和使用方法。

技术实现思路

[0010]针对现有技术中存在的对于数据的预处理会导致模型的预测结果出现一定程度的偏倚从而导致在现实运用上的表现下降以及现有技术中采用了定长时间窗口的方法来采集数据,没有覆盖对于病人病情发展的预测的技术问题。
[0011]本专利技术提供了一种基于数据处理管道的脓毒症预测模型的构建和使用方法。
[0012]本专利技术方法基于数据处理管道的下采样处理可以对已有的脓毒症病例历史数据进行有效处理,用于训练机器学习模型,采用数据处理管道的动态滑动窗口获取临床病人预测所需的检测数据,录入训练机器学习模型,进而得到更为准确的预测结果。
[0013]本专利技术还提供了一种实现上述方法的系统。
[0014]本专利技术上述所要解决的第一个技术问题可以通过以下技术方案来实现:一种基于数据处理管道的脓毒症预测模型的构建和使用方法,包括以下步骤:
[0015]步骤1,收集脓毒症病人历史检测数据,所述检测数据包括病人生命体征数据和实验室数据;
[0016]步骤2,对历史检测数据进行数据处理管道的下采样处理,所述数据处理管道的下采样处理包括对数据缺失值统计排序、数据前向填充、填充后数据抽取和数据随机混合;
[0017]步骤3,完成数据处理管道下采样数据处理后,录入机器学习模型,采用交叉验证法进行模型的训练,得到脓毒症预测模型;
[0018]步骤4,使用数据栈收集临床病人的实时检测数据,根据步骤2中对历史检测数据进行数据处理管道的下采样处理结果,设定模型预测时检测数据阈值,根据检测数据阈值,采用数据处理管道的动态滑动窗口获取临床病人预测所需的检测数据,录入脓毒症预测模型,得到预测结果。
[0019]在上述基于数据处理管道的脓毒症预测模型的构建和使用方法中:
[0020]较佳的,步骤1中生命体征数据包括心跳、脉搏血氧含量、体温、收缩压、舒张压、平均动脉压、呼吸频率和呼吸末二氧化碳分压。
[0021]较佳的,步骤1中实验室数据包括动脉血pH、静脉血pH、二氧化碳分压、氧分压、血
氧饱和度、动脉血氧饱和度、动脉二氧化碳分压、红细胞压积、血红蛋白、钠、钾、氯、离子钙、离子镁、葡萄糖、乳酸、尿素氮、碳酸氢根、剩余碱、标准离子钙浓度、标准离子镁浓度、呼吸氧浓度、天冬氨酸转氨酶、碱性磷酸酶、肌酸酐、磷酸盐、总胆红素、直接胆红素、部分凝血酶原时间、白细胞计数、血小板计数、肌钙蛋白I、纤维蛋白原浓度和血小板。
[0022]生命体征和实验室数据如有部分缺失,并不会影响本专利技术的预测结果,然而当大量数据缺失的时候,推荐根据已有的历史数据进行重新训练。
[0023]作为本专利技术一种优选的技术方案,步骤2中数据处理管道的下采样处理包括对数据缺失值统计排序、数据前向填充、填充后数据抽取和数据随机混合,进一步包括:
[0024](a)对于收集到的所有病人的历史检测数据,设为R本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据处理管道的脓毒症预测模型的构建和使用方法,其特征是包括以下步骤:步骤1,收集脓毒症病人历史检测数据,所述检测数据包括病人生命体征数据和实验室数据;步骤2,对历史检测数据进行数据处理管道的下采样处理,所述数据处理管道的下采样处理包括对数据缺失值统计排序、数据前向填充、填充后数据抽取和数据随机混合;步骤3,完成数据处理管道下采样数据处理后,录入机器学习模型,采用交叉验证法进行模型的训练,得到脓毒症预测模型;步骤4,使用数据栈收集临床病人的实时检测数据,根据步骤2中对历史检测数据进行数据处理管道的下采样处理结果,设定模型预测时检测数据阈值,根据检测数据阈值,采用数据处理管道的动态滑动窗口获取临床病人预测所需的检测数据,录入脓毒症预测模型,得到预测结果。2.根据权利要求1所述基于数据处理管道的脓毒症预测模型的构建和使用方法,其特征是:步骤1中生命体征数据包括心跳、脉搏血氧含量、体温、收缩压、舒张压、平均动脉压、呼吸频率和呼吸末二氧化碳分压。3.根据权利要求1所述基于数据处理管道的脓毒症预测模型的构建和使用方法,其特征是:步骤1中实验室数据包括动脉血pH、静脉血pH、二氧化碳分压、氧分压、血氧饱和度、动脉血氧饱和度、动脉二氧化碳分压、红细胞压积、血红蛋白、钠、钾、氯、离子钙、离子镁、葡萄糖、乳酸、尿素氮、碳酸氢根、剩余碱、标准离子钙浓度、标准离子镁浓度、呼吸氧浓度、天冬氨酸转氨酶、碱性磷酸酶、肌酸酐、磷酸盐、总胆红素、直接胆红素、部分凝血酶原时间、白细胞计数、血小板计数、肌钙蛋白I、纤维蛋白原浓度和血小板。4.根据权利要求1所述基于数据处理管道的脓毒症预测模型的构建和使用方法,其特征是:步骤2中数据处理管道的下采样处理包括对数据缺失值统计排序、数据前向填充、填充后数据抽取和数据随机混合,进一步包括:(a)对于收集到的所有病人的历史检测数据,设为R,对R进行前向填充,将填充完成的数据另存,设为F;(b)对于第i个病人的原始检测数据Ri每一时间点的缺失值数量进行统计,并按升序排序;(c)完成排序后,取第二个数值作为阈值,提取缺失值数量小于该阈值的时间结点的全局唯一编号;(d)通过全局唯一编号,从F里面,抽取已经完成填充的数据;(e)...

【专利技术属性】
技术研发人员:吴秦昊
申请(专利权)人:吴秦昊
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1