System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于改进Stacking策略的糖尿病分类预测方法技术_技高网

一种基于改进Stacking策略的糖尿病分类预测方法技术

技术编号:42670010 阅读:22 留言:0更新日期:2024-09-10 12:24
本发明专利技术公开了一种基于改进Stacking策略的糖尿病分类预测方法,本发明专利技术通过Bootstrap采样得到不同的训练集,然后使用K折交叉验证训练构建的基于Logistic回归算法的基学习器、基于随机森林算法的基学习器、基于支持向量机算法的基学习器、基于极端梯度提升树算法的基学习器;之后使用K折交叉验证基学习器精度均值用作权重因子,对基本学习器分配权重,并将基学习器的输出进行拼接,得到新的特征空间;以此为训练集来训练元学习器,最后将两层学习器进行加权拼接从而得到强学习器;本发明专利技术通过引入Boostrap技术,增加基础学习器之间的差异性,提高模型的泛化能力;通过加入基础学习器的权重系数,引入对基础学习器的准确度考量,提高分类预测模型的准确性。

【技术实现步骤摘要】

本专利技术属于机器学习与数据挖掘领域,涉及一种基于改进stacking策略的糖尿病分类预测方法。


技术介绍

1、糖尿病是目前世界上众多国家共同面临的主要健康问题之一。据相关数据表明糖尿病可能会导致160多种并发症,对人类健康造成了巨大威胁。糖尿病又可细分为1型糖尿病、2型糖尿病和妊娠期糖尿病。1型糖尿病是一个人体无法产生胰岛素来保持人体正常功能的病症。它是一个自体免疫疾病,在其中人体内的β细胞遭到了损害,而造成胰岛素缺乏症。2型糖尿病是由于人体内无法正常形成所需胰岛素或人体无法正常使用胰岛素而形成的,这些情形也被叫做胰岛素抵抗。它是最常见的高血糖型之一,在90%的患者体内中都能够被监测到。

2、我国糖尿病管理工作主要是以预防为主,一般患者确诊时就已经是中晚期,造成较高的病亡率。因此对糖尿病患者实现早期患病风险预测,降低由糖尿病引起的并发症显得尤其重要。在大数据时代,偏重于利用数据解决真实的问题,而数据挖掘、深度学习便是有效的研究方法。根据数据挖掘中的分类模型,例如神经网络、随机森林等方法对糖尿病数据分类,利用有监督学习的方法来实现对糖尿病数据集的分类。选择模型的过程中,需要对模型进行准确的调参和测试来得到糖尿病分类的预测结果。根据数据实现二分类,对于数据挖掘中的方法,之前的学者大多采用单一的多种分类方法建立糖尿病预测模型,如knn模型、lda模型、svm模型、朴素贝叶斯模型等进行对比,选择最佳的模型进行预测。而对于复杂的问题,单一的分类器无法捕捉数据中的不同特征和模式,因此容易出现过拟合的问题。

3、现有基于stacking策略的方法,由于基学习器的多样性差、差异性小,元学习器的训练特征空间的数据信息量低以及未考虑基学习器的准确性等问题,预测的准确度并不高。为解决现有技术存在的问题,本专利技术基于改进stacking策略,提出一种糖尿病分类预测方法,能够从不同角度和特征中捕捉信息,减少过拟合风险,提高泛化能力,能对糖尿病分类进行准确预测。


技术实现思路

1、本专利技术的目的在于提出一种基于改进stacking策略的糖尿病分类预测方法。

2、本专利技术具体包括如下步骤:

3、步骤1、获取人口健康普查数据,形成数据集;人口健康普查数据包括年龄、糖尿病谱系功能、体重指数、舒张压、肱三头肌皮脂厚度、妊娠次数、胰岛素浓度、血糖含量以及糖尿病类别;

4、步骤2、对步骤1得到的数据样本进行预处理操作;具体包括:检查并删除虚假数据、无效数据和重复数据,并使用平均数或中位数填充缺失数据,对高纬度数据进行pca降维;

5、步骤3、构建4个独立的基础学习器,具体为:

6、(1)构建基于logistic回归算法的基学习器,模型采用sigmoid函数对输出进行归一化,通过导入训练集样本,得到最优参数从而获取最优基学习器;

7、具体构建过程如下:

8、i、在训练集样本分好后将其导入基学习器,使用中位值插补法填补其中的缺失值;

9、ii、以f1-score作为模型评价指标,通过网络检索每个参数的枚举值,遍历所有枚举值组合;

10、iii、对全部的参数组合进行遍历,借此得出f1-score指标的最大值,最后根据该值选择最合适的模型参数;

11、iv、在得到最佳的模型后,将测试数据集代入其中,从而得到基于lr的基学习器。

12、(2)构建基于随机森林算法的基学习器,通过bootstrap采样抽取数据样本构建决策树,再通过用少数服从多数投票原则获得预测结果outcome;

13、主要分为两个阶段,第一阶段用于构建决策树,第二阶段用于预测。

14、其中第一阶段主要是通过bootstrap采样抽取数据样本构建决策树,其具体步骤如下:

15、①、随机从样本空间的m个特征向量中选择k个特征向量(k<m);

16、②、在k个特征向量子集中计算出最佳分割方式;

17、③、使用最佳分裂方法将节点划分为子节点;

18、④、重复前三步直到所有节点都成为叶子节点,并且只有一个属性;

19、⑤、反复执行前四个步骤,训练n次得到n颗决策树,以此构成随机森林模型;

20、第二阶段主要是训练第一阶段构成的随机森林模型,并使用少数服从多数投票原则将第一阶段中得到的n个决策树链接一起,从而输出预测结果。

21、(3)构建基于支持向量机算法的基学习器,通过创建基于径向基函数的支持向量机模型,导入训练集样本,使用网格搜索法获得归一化参数和核函数参数γrbf的最佳参数集,最后通过使用最佳参数集,得到基于支持向量机算法的基学习器。

22、具体构建过程如下:

23、通过训练样本数据,得到可以划分样本的超平面(wsvm,bsvm),表达式如下:

24、wsvmτx+bsvm=0;

25、其中wsvm为法向量(即权重向量,式中wsvmτ为wsvm的转置),决定了超平面的方向;x是样本;bsvm是偏置项,表示决策函数的截距。为得到最优的分类器,则需要使得支持向量γsvm最大化,即超平面(wsvm,bsvm)与最近样本之间的距离:

26、

27、其中||wsvm||为权重向量wsvm的范数。因此将分类问题转化为数学问题,问题描述如下:

28、

29、其中yi(wsvmτxi+bsvm)≥1是为让超平面能正确分类的限制条件。而为了更高效地求解支持向量机(svm)的优化问题,并且可以利用核函数来处理非线性可分的情况。需要通过构建拉格朗日函数,将模型训练问题转化对偶问题,转化后的问题描述如下:

30、

31、其中αi为拉格朗日算子,表示每个样本在优化问题中的权重;yj是支持向量xj的类别标签;为样本特征向量xi,xj的内积,问题则转化为求解最优拉格朗日算子α*。而为解决上述对偶问题的非线性可分问题,模型采用径向基函数(radial basis function,rbf)将样本空间投射到另一个高维的特征空间,表达式如下:

32、k(xi,xj)=exp(-γrbf||xi-xj||2);

33、其中带宽参数σ控制了高斯核函数的宽度。通过使用k(xi,xj)替代可以将样本空间转化为高维空间,提高了模型的泛化能力和灵活性。最后,对对偶问题求解,得到最优拉格朗日算子α*后,再通过下式求得最优参数集和最终的偏置项

34、

35、其中为第i个训练样本的最优拉格朗日算子;k(xi,xj)是样本xi和支持向量xj的核函数值;为支持向量j对应的偏置项。之后,取所有支持向量的偏置项的平均值作为最终的偏置项

36、(4)构建基于极端梯度提升树算法的基学习器,首先通过对离散训练集样本进行独热编码,在引入处理好的训练数据,得到最佳参数下的基于极端梯度提升树算法的基学习器。

37、具体构建本文档来自技高网...

【技术保护点】

1.一种基于改进Stacking策略的糖尿病分类预测方法,其特征在于:

2.如权利要求1所述的基于改进Stacking策略的糖尿病分类预测方法,其特征在于:步骤2所述的对数据样本进行预处理操作,具体包括:检查并删除虚假数据、无效数据和重复数据,并使用平均数或中位数填充缺失数据,对高纬度数据进行PCA降维。

3.如权利要求1所述的基于改进Stacking策略的糖尿病分类预测方法,其特征在于:所述的基于Logistic回归算法的基学习器,构建过程如下:

4.如权利要求1所述的基于改进Stacking策略的糖尿病分类预测方法,其特征在于:所述的基于随机森林算法的基学习器主要分为两个阶段,第一阶段用于构建决策树,第二阶段用于预测;

5.如权利要求1所述的基于改进Stacking策略的糖尿病分类预测方法,其特征在于:所述的基于支持向量机算法的基学习器构建过程如下:

6.如权利要求1所述的基于改进Stacking策略的糖尿病分类预测方法,其特征在于:所述的基于极端梯度提升树算法的基学习器构建过程如下:

7.如权利要求1所述的基于改进Stacking策略的糖尿病分类预测方法,其特征在于:所述的基学习器的训练过程如下:

8.如权利要求1所述的基于改进Stacking策略的糖尿病分类预测方法,其特征在于:所述的元学习器的训练过程如下:

...

【技术特征摘要】

1.一种基于改进stacking策略的糖尿病分类预测方法,其特征在于:

2.如权利要求1所述的基于改进stacking策略的糖尿病分类预测方法,其特征在于:步骤2所述的对数据样本进行预处理操作,具体包括:检查并删除虚假数据、无效数据和重复数据,并使用平均数或中位数填充缺失数据,对高纬度数据进行pca降维。

3.如权利要求1所述的基于改进stacking策略的糖尿病分类预测方法,其特征在于:所述的基于logistic回归算法的基学习器,构建过程如下:

4.如权利要求1所述的基于改进stacking策略的糖尿病分类预测方法,其特征在于:所述的基于随机森林算法的基学习器主要...

【专利技术属性】
技术研发人员:王奔刘文波冯阳汪迎归胡克用
申请(专利权)人:杭州师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1