当前位置: 首页 > 专利查询>山东大学专利>正文

血流感染致病菌预测方法及系统技术方案

技术编号:34844623 阅读:32 留言:0更新日期:2022-09-08 07:42
本发明专利技术涉及血流感染致病菌预测方法及系统,包括以下步骤:获取输入特征并预处理,输入特征为体检数据;从预处理的输入特征中筛选出最优输入特征形成输入特征集,经预测模型输出预测结果;其中,预测模型为,以多个并联的第一分类器作为预测模型的基分类器,以代价敏感的决策树作为每一个第一分类器的基分类器,单个样本的错分类权重为第一分类器的样本权重与在决策树中错分类的类权重之间的乘积。通过血流感染患者体检数据与致病菌中的阳性和阴性菌间的联系构建预测模型,在不增加额外成本的同时,实现对样本中血流感染致病菌的预测。实现对样本中血流感染致病菌的预测。实现对样本中血流感染致病菌的预测。

【技术实现步骤摘要】
血流感染致病菌预测方法及系统


[0001]本专利技术涉及数据分类
,具体为血流感染致病菌预测方法。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]血流感染是败血症和感染性休克的主要病因,选择适当的抗菌剂能够应对血流感染带来的危害,随着微生物对抗菌剂的耐药性日益增加,目前采用在实验室条件下对采集到的样本进行血培养(BC)的方式,通过鉴定阳性的致病性微生物来选择适当的抗菌剂,但该种方式耗时较高,且鉴定出的阳性准确率不高,而基于PCR(聚合酶链反应)的检测虽然检测耗时相对更短,但受到PCR探针数量和样本数量的限制,难以大规模应用在血流感染革兰氏阳性菌检测上。

技术实现思路

[0004]为了解决上述
技术介绍
中存在的技术问题,本专利技术提供血流感染致病菌预测方法及系统,通过挖掘血流感染患者体检数据指标与致病菌间的联系,旨在不增加额外成本的同时,以机器学习的方式实现对样本数据中血流感染致病菌中的阳性菌、阴性菌及真菌的准确筛选。
[0005]为了实现上述目的,本专利技术采用如下技术方案:
[0006]本专利技术的第一个方面提供血流感染致病菌预测方法,包括以下步骤:
[0007]获取输入特征并预处理,输入特征为体检数据;
[0008]从预处理的输入特征中筛选出最优输入特征形成输入特征集,经预测模型输出预测结果;
[0009]其中,预测模型为,以多个并联的第一分类器作为预测模型的基分类器,以代价敏感的决策树作为每一个第一分类器的基分类器,单个样本的错分类权重为第一分类器的样本权重与在决策树中错分类的类权重之间的乘积。
[0010]第一分类器为AdaBoost分类器。
[0011]获取输入特征并预处理,输入特征为体检数据包括,根据预处理之后的特征判断是否具有完整的模型输入指标,且这些指标是否为设定时间段内获得,若满足则将预处理之后的特征输入预测模型得到预测结果。
[0012]预处理包括,删除数据缺失比率超过设定值的特征和具有缺失值的样本;通过特征的箱体图或散点图,将离群点视为异常值并删除。
[0013]预测模型输入特征为筛选出的所有最优特征。
[0014]预测模型的训练过程包括:
[0015]获取血流感染患者体检数据并进行预处理,删除在血流感染革兰氏阳性菌、阴性菌和真菌之间没有差异的的特征;
[0016]检验并删除所选择的特征组间存在差异系数大于设定值的连续特征;
[0017]检验并删除在两组别间的差异系数大于设定值的性别特征;
[0018]检验并删除特征间相关系数|γ|>0.8的特征;
[0019]将检验后的剩余特征数据数据分布缩放为标准正态分布并划分为训练集和测试集;
[0020]输入训练集和测试集完成预测模型的训练。
[0021]本专利技术的第二个方面提供实现上述方法的系统,包括:
[0022]预处理模块,配置为:获取输入特征并预处理,输入特征为体检数据;
[0023]预测输出模块,配置为:从预处理的输入特征中筛选出最优输入特征形成输入特征集,经预测模型输出预测结果;
[0024]其中,其中,预测模型为,以多个并联的第一分类器作为预测模型的基分类器,以代价敏感的决策树作为每一个第一分类器的基分类器,单个样本的错分类权重为第一分类器的样本权重与在决策树中错分类的类权重之间的乘积,第一分类器为AdaBoost分类器。
[0025]本专利技术的第三个方面提供一种计算机可读存储介质。
[0026]一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的血流感染致病菌预测方法中的步骤。
[0027]本专利技术的第四个方面提供一种计算机设备。
[0028]一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的血流感染致病菌预测方法中的步骤。
[0029]与现有技术相比,以上一个或多个技术方案存在以下有益效果:
[0030]1、通过血流感染患者体检数据与致病菌中的阴性菌、阳性菌和真菌间的联系构建预测模型,在不增加额外成本的同时,实现对样本数据中血流感染致病菌的阳性菌、阴性菌和真菌的预测,进而实现样本中致病菌的筛查。
[0031]2、利用集成模型作为预测模型,多个并联的AdaBoost分类器作为预测模型的基分类器形成第一层模型的集成,样本中的数据采样后先输入到多个并联的AdaBoost分类器中,而每一个AdaBoost分类器自身又是一个集成模型,其基分类器为代价敏感的决策树,也就形成了第二层集成,经预处理后的全部特征输入集成的模型后,使得得到的结果更加完善且准确率更高,能够预测出样本数据中的阳性菌、阴性菌和真菌,从而以机器学习的方式实现对样本中致病菌的筛查。
[0032]3、预测模型处理特征剔除后的各个数据集时,分别由每一个Ad aBoost分类器来处理,该分类器会根据分类结果调节样本权重,直至获得较好的结果,并且每一个AdaBoost分类器的基分类器为代价敏感的决策树,会根据各类输入样本数量生成各类的权重,其误分类的代价将根据在基分类器中的样本权重计算,随后根据分类结果调节样本权重,从而获得更加准确的结果。
[0033]4、为提高模型性能,采用网格搜索对模型的超参数进行优化,并对输入的特征进行选择,从而降低特征维度,提高了模型的泛化能力,达到了更好的预测效果。
附图说明
[0034]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0035]图1是本专利技术一个或多个实施例提供的血流感染致病菌阳性菌、阴性菌和真菌的预测方法流程图;
[0036]图2是本专利技术一个或多个实施例提供的预测方法中特征相关性热力图;
[0037]图3是本专利技术一个或多个实施例提供的预测方法中模型训练的流程图;
[0038]图4是本专利技术一个或多个实施例提供的利用训练完毕的模型实现预测的流程图。
具体实施方式
[0039]下面结合附图与实施例对本专利技术作进一步说明。
[0040]应该指出,以下详细说明都是示例性的,旨在对本专利技术提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本专利技术所属
的普通技术人员通常理解的相同含义。
[0041]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本专利技术的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0042]正如
技术介绍
中所描述的,目前采用在实验室条件下对采集到的样本进行血培养(BC)的方式,通过本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.血流感染致病菌预测方法,其特征在于:包括以下步骤:获取输入特征并预处理,输入特征为体检数据;从预处理的输入特征中筛选出最优输入特征形成输入特征集,经预测模型输出预测结果;其中,预测模型为,以多个并联的第一分类器作为预测模型的基分类器,以代价敏感的决策树作为每一个第一分类器的基分类器,单个样本的错分类权重为第一分类器的样本权重与在决策树中错分类的类权重之间的乘积。2.如权利要求1所述的血流感染致病菌预测方法,其特征在于:所述第一分类器为AdaBoost分类器。3.如权利要求1所述的血流感染致病菌预测方法,其特征在于:预测模型输入特征为筛选出的所有最优特征。4.如权利要求1所述的血流感染致病菌预测方法,其特征在于:预处理的过程,包括:删除数据缺失比率超过设定值的特征和具有缺失值的样本;通过特征的箱体图或散点图,将离群点视为异常值并删除。5.如权利要求4所述的血流感染致病菌预测方法,其特征在于:预处理的过程,还包括:根据预处理之后的特征判断是否具有完整的模型输入指标,且这些指标是否为设定时间段内获得,若满足则将预处理之后的特征输入预测模型得到预测结果。6.如权利要求1所述的血流感染致病菌预测方法,其特征在于:预测模型的训练过程包括:获取血流感染患者体检数据,删除在血流感染革兰氏阳性菌、阴性菌和真菌之间没有差异的的特征;检验并删除所选择的特征组间存在差异系数大于设定值的连续特征。7.如权利要求6所述的血流感染致病菌预测方法,...

【专利技术属性】
技术研发人员:王昊苏腾姬冰刘力瑜
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1