一种基于机器学习的布鲁氏菌病特征选择方法及系统技术方案

技术编号:36464195 阅读:35 留言:0更新日期:2023-01-25 23:04
本发明专利技术公开了一种基于机器学习的布鲁氏菌病特征选择方法及系统,包括:数据获取模块、数据预处理模块、RFE特征排序模块、SHAP分析模块和特征选择模块;该方法为:获取布鲁氏菌病患者及非布鲁氏菌病个体的非空血常规数据并进行预处理;利用递归特征消除RFE得出各特征排序并赋权重;利用随机森林算法构建与训练分类模型,利用SHAP进行可解释性分析,并根据各特征的重要性赋予其权重;分别计算各特征的总权重并降序排列,从首项起依次增加特征构成特征子集,分别进行模型训练与交叉验证,选择最优特征子集为最终的特征集;本发明专利技术利用机器学习模型对布鲁氏菌病等分类模型进行多维特征的特征选择过程,降低维度冗余的同时,选择出预测效能较优的特征子集。预测效能较优的特征子集。预测效能较优的特征子集。

【技术实现步骤摘要】
一种基于机器学习的布鲁氏菌病特征选择方法及系统


[0001]本专利技术涉及计算机和医学
,更具体的说是涉及一种基于机器学习的布鲁氏菌病特征选择方法及系统。

技术介绍

[0002]以布鲁氏菌病(Brucellosis简称布病)分类模型为例,该病是一种由布氏菌侵入机体后引起感染的最广泛的人畜共患病之一,人类主要通过接触带菌动物或食用病畜及其相关乳制品而造成感染。因此,布病的及早预防与识别对遏制疾病的扩散与减缓疾病严重化进程有重要作用。而由于布病建模过程中数据分布范围广、噪声大对模型识别过程中的较大影响,因此对该种分类问题建模过程中的特征工程方法提出了更高的要求。
[0003]随着社会信息化的高速发展,数据的复杂性日益增强,医疗数据、消费数据、生物数据等各类数据呈爆发式增长。数据信息在机器学习领域的重要性日益凸显,对于数据中所含隐藏特征和规律的探索也逐渐普遍,高维、海量的数据不仅蕴含了更为丰富多样的信息,为模型预测提供新的可能,同时为数据的处理、模型的学习带来较大挑战,成为亟待解决的问题。
[0004]特征选择作为一类能够降低数本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习的布鲁氏菌病特征选择方法,其特征在于,包括以下步骤:S1.获取布鲁氏菌病患者及非布鲁氏菌病个体的非空血常规数据并进行预处理,非空血常规数据包括n维特征,n大于1;S2.基于预处理后的非空血常规数据集,利用递归特征消除RFE得出各特征的排序,并对所有特征赋予权重;S3.基于预处理后的非空血常规数据集,利用随机森林模型进行布鲁氏菌病分类模型的构建与训练,对训练后的布鲁氏菌病分类模型利用SHAP进行可解释性分析,并根据各特征的重要性赋予其权重;S4.分别计算各特征的总权重并降序排列,从首项起依次增加特征构成特征子集,分别用随机森林模型进行交叉验证和训练,得出对应的准确率,选择准确率最高的特征子集为最终的特征集。2.根据权利要求1所述的一种基于机器学习的布鲁氏菌病特征选择方法,其特征在于,S1中预处理的具体内容为:S11.对获取到的非空血常规数据,剔除包含缺失值的样本数据;S12.对剩余无缺失值的数据按每个特征进行标准化处理,具体为:其中,i为剩余无缺失值数据的n个特征中的任一特征,x
i
为特征i对应的样本数值,为特征i对应所有数据的均值,σ
i
为特征i对应所有数据的标准差。3.根据权利要求1所述的一种基于机器学习的布鲁氏菌病特征选择方法,其特征在于,S2中RFE采用的基模型为支持向量机SVC模型。4.根据权利要求1所述的一种基于机器学习的布鲁氏菌病特征选择方法,其特征在于,S2的具体内容为:S21.基于预处理后的非空血常规数据集或更新特征子集,计算分离超平面;S22.利用排序准则计算特征得分;S23.从特征子集中删除得分最小的特征,更新特征子集;S24.重复S21、S22、S23,直到特征子集中的特征数为最小特征数;S25.得到所有特征对应的特征排序值并按特征排序值赋予权重。5.根据权利要求4所述的一种基于机器学习的布鲁氏菌病特征选择方法,其特征在于,S21具体内容为:ω
T
x
i
+b=0其中,ω为分类器的权重,b为偏移量,数据集T={(x
i
,y
i
),i=1,2,...N},x
i
∈R
D
,y
i
∈{0,1},为x
i
为各样本的特征向量,y
i
为各样本对应的标签,N为样本量,D为样本特征数;求取特征空间上正确划分数据集且间隔最大的分离超平面:即最小化对应的拉格朗日函数为:
其中,α
i
≥0为拉格朗日乘子,K(x
i
...

【专利技术属性】
技术研发人员:陈超宋彪许鸿蕾
申请(专利权)人:内蒙古卫数数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1