一种基于血液疾病的多模型融合分类方法技术

技术编号:38905022 阅读:19 留言:0更新日期:2023-09-22 14:23
本发明专利技术公开了一种基于血液疾病的多模型融合分类方法,包括以下步骤:获取数据集;基于k折交叉验证方法,将数据集分为k份,获得测试集和训练集,k为任意大于1的常数;选择多种机器学习二分类器模型进行数据集训练;通过线性加成对多种机器学习二分类器模型进行融合,得到融合后的多分类器模型;使用机器学习多分类器模型对多标签数据集进行训练,得到模型准确率;使用融合后的多分类器模型对多标签数据集进行训练,得到融合后的多分类器模型的准确率,并与上述准确率进行对比。本发明专利技术采用上述一种基于血液疾病的多模型融合分类方法,其能够快速对血液病分类帮助医生快速确诊,降低医生工作量,提高其工作效率。提高其工作效率。提高其工作效率。

【技术实现步骤摘要】
一种基于血液疾病的多模型融合分类方法


[0001]本专利技术涉及检验医学和疾病识别
,特别是涉及一种基于血液疾病的多模型融合分类方法。

技术介绍

[0002]血液疾病是原发于造血系统的疾病或影响造血系统伴发血液异常改变,以贫血、出血、发热及肝脾淋巴结肿大等为特征的疾病。该病具有发病率低、死亡率高、难预测、涉及多系统和诊断依赖实验室检测特点,其可以是原发的也可以是继发的。其中白血病、淋巴瘤、再生障碍性贫血等恶性血液疾病成因非常复杂,治疗方面也有一定困难。据统计全球有大约五亿人患有不同程度的血液病,另外很多人患有血液病而不自知,等到发现时往往已经达到非常严重的时期。血液疾病多半是难治性疾病,发病隐袭,病状隐匿,多因其他疾病就医或健康体检时而被发现。因此提高对血液疾病的认识,以便早期发现,早期治疗,以免给健康带来不必要额损失,显得尤为重要.
[0003]血液疾病包含的疾病种类较多,症状与体征多种多样,往往缺乏特异性,确诊需要多项检查才能最终确诊。血液病临床表现会有相似的情况,鉴别时需要临床医生有大量的专业知识储备、丰富的临床经验以及敏锐的观察力。随着人工智能的发展,医学领域也被广泛应用。目前用于血液疾病诊断模型主要是依据骨穿刺涂片分析细胞形态学、免疫学和遗传学确定疾病类型,但是骨穿刺涂片是图像数据,就需要对图像进行采集和手动注释。高质量的骨髓穿刺涂片图像数据集并不容易获得,它需要大量的时间、精力以及医学知识。骨穿刺涂片主要是分析细胞形态学,细胞之间重叠、粘附、边界模糊和类型不明确问题使得图像更具有挑战性,从而使用模型对血液疾病诊断也存在一定的问题和难度。

技术实现思路

[0004]本专利技术的目的是提供一种基于血液疾病的多模型融合分类方法,其能够快速对血液病分类帮助医生快速确诊,降低医生工作量,提高其工作效率。
[0005]为实现上述目的,本专利技术提供了一种基于血液疾病的多模型融合分类方法,包括以下步骤:
[0006]S1提取血液疾病相关的血常规检验数据,获取数据集;
[0007]S2基于k折交叉验证方法,将数据集分为k份,获得测试集和训练集,k为任意大于1的常数;
[0008]S3选择多种机器学习二分类器模型进行数据集训练,并依据不同疾病的数据集数量对每个机器学习二分类器模型赋权重值;
[0009]S4把多种机器学习二分类器模型的权重值与对应的模型预测值相结合构建公式,通过线性加成对多种机器学习二分类器模型进行融合,得到融合后的多分类器模型;
[0010]S5使用机器学习多分类器模型对多标签数据集进行训练,得到机器学习多分类器模型的准确率;
[0011]S6使用融合后的多分类器模型对多标签数据集进行训练,得到融合后的多分类器模型的准确率,并与步骤S5的准确率进行对比;
[0012]S7确定融合后的多分类器模型效果是否优于机器学习多分类器模型效果,若是,则融合成功,若否则继续修改多种机器学习二分类模型融合公式。
[0013]优选的,步骤S1中提取的数据集包括白血病数据集、骨髓增生异常综合征数据集、再生障碍性贫血数据集和传染性单核细胞增多症数据集;并将白血病数据集分别与骨髓增生异常综合征数据集、再生障碍性贫血数据集和传染性单核细胞增多症数据集结合形成三个数据集。
[0014]优选的,步骤S2中k一般取值为5或10。
[0015]优选的,步骤S3中所有数据集都是用随机森林二分类器,每个数据集构建的模型所使用的参数不同,并用步骤S2获得的测试集测试分类效果,得到敏感度TPR、特异度TNR和准确率ACC;
[0016]其中,TPR、TNR和ACC计算公式分别为:
[0017]TPR=TP/(TP+FN)(1)
[0018]TNR=TN/(FP+TN)(2)
[0019]ACC=(TP+TN)/(TP+FP+FN+TN)(3)
[0020]式中,TP表示分类器被识别为真正是患者的数量,FP表示分类器被误识别正常人群为患者的数量,FN表示分类器被识别患者为正常人群的数量,TN表示分类器被识别为真正是正常人群的数量;
[0021]模型的权重值w
i
(i=1,2,3)是根据每个疾病数据集数量之间的比值设定。
[0022]优选的,步骤S4不同数据集在不同机器学习二分类器模型测试得到预测值α;S4中的公式为:
[0023][0024]式中,m为基分类算法的个数,h
i
为第i种基分类算法,w
i
为第i种基分类算法的权重参数,α为模型预测值,x表示数据集。
[0025]优选的,步骤S5中多标签数据集是把提取的血液疾病数据进行整合,并对不同血液疾病标记样本标签,然后使用随机森林二分类器对多标签数据集进行训练得到模型准确率。
[0026]因此,本专利技术的一种基于血液疾病的多模型融合分类方法,使用常规检验数据构建模型对血液疾病进行分类,相对图像分类常规检验数据分类相对简单,在数据获取和收集方面常规检验数据相对容易,整体实现便捷快速,有利于解决血液疾病分类困难问题,在机器学习方面可以解决模型融合之间拟合问题还可以提升机器学习的泛化性能,能够快速对血液病分类帮助医生快速确诊,降低医生工作量,提高其工作效率。
[0027]下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。
附图说明
[0028]图1是本专利技术一种基于血液疾病的多模型融合分类方法的流程示意图。
具体实施方式
[0029]下面结合实施例,对本专利技术进一步描述。除非另外定义,本专利技术使用的技术术语或者科学术语应当为本专利技术所属领域内具有一般技能的人士所理解的通常意义。本专利技术提到的上述特征或具体实例提到的特征可以任意组合,这些具体实施例仅用于说明本专利技术而不用于限制本专利技术的范围。
[0030]图1是本专利技术一种基于血液疾病的多模型融合分类方法的流程示意图,如图所示,本专利技术提供了一种基于血液疾病的多模型融合分类方法,包括以下步骤:
[0031]S1提取血液疾病相关的血常规检验数据,获取数据集;
[0032]步骤S1中提取的数据集包括白血病数据集、骨髓增生异常综合征数据集、再生障碍性贫血数据集和传染性单核细胞增多症数据集;并将白血病数据集分别与骨髓增生异常综合征数据集、再生障碍性贫血数据集和传染性单核细胞增多症数据集结合形成三个数据集。
[0033]S2基于k折交叉验证方法,将数据集分为k份,获得测试集和训练集,k一般取值为5或10。
[0034]S3选择多种机器学习二分类器模型进行数据集训练,并依据不同疾病的数据集数量对每个模型赋权重值。
[0035]所有数据集都是用随机森林二分类器,每个数据集构建的模型所使用的参数不同,并用步骤S2基于k折交叉验证方法获得的测试集测试分类效果,得到TPR、TNR和ACC,结果见表1。其中TPR是识别出所有阳性样本占所有样本的比例即敏感度,TNR是识别出阴性样本占所有阴性样本的比本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于血液疾病的多模型融合分类方法,其特征在于,包括以下步骤:S1提取血液疾病相关的血常规检验数据,获取数据集;S2基于k折交叉验证方法,将数据集分为k份,获得测试集和训练集,k为任意大于1的常数;S3选择多种机器学习二分类器模型进行数据集训练,并依据不同疾病的数据集数量对每个机器学习二分类器模型赋权重值;S4把多种机器学习二分类器模型的权重值与对应的模型预测值相结合构建公式,多种机器学习二分类器模型进行融合,得到融合后的多分类器模型;S5使用机器学习多分类器模型对多标签数据集进行训练,得到机器学习多分类器模型的准确率;S6使用融合后的多分类器模型对多标签数据集进行训练,得到融合后的多分类器模型的准确率,并与步骤S5的准确率进行对比;S7确定融合后的多分类器模型效果是否优于机器学习多分类器模型效果,若是,则融合成功,若否则继续修改多种机器学习二分类模型融合公式。2.根据权利要求1所述的一种基于血液疾病的多模型融合分类方法,其特征在于,步骤S1中提取的数据集包括白血病数据集、骨髓增生异常综合征数据集、再生障碍性贫血数据集和传染性单核细胞增多症数据集;并将白血病数据集分别与骨髓增生异常综合征数据集、再生障碍性贫血数据集和传染性单核细胞增多症数据集结合形成三个数据集。3.根据权利要求1所述的一种基于血液疾病的多模型融合分类方法,其特征在于,步骤S2中k一般取值为5或10。4.根据权利要求1所述的一种基于血...

【专利技术属性】
技术研发人员:陈超宋彪张瑞环
申请(专利权)人:内蒙古卫数数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1