当前位置: 首页 > 专利查询>吉林大学专利>正文

基于特征选择的T-S模型缺失值插补法制造技术

技术编号:38464874 阅读:9 留言:0更新日期:2023-08-11 14:41
本发明专利技术公开了一种基于特征选择的T

【技术实现步骤摘要】
基于特征选择的T

S模型缺失值插补法


[0001]本专利技术涉及T

S模型缺失值插补法领域,特别是一种基于特征选择的T

S模型缺失值插补法。

技术介绍

[0002]目前解决缺失值方法主要有不完整样本删除法和缺失值填补法。不完整样本删除法通过将含有缺失值的样本或者不完整属性列直接剔除,对原始数据集进行删减,该方法虽然具有一定可行性,但是会丢失大量样本减低数据丰富性。插补法指的是对数据缺失值进行推断,目前最先进的推断方法可以分为鉴别性和生成性。鉴别方法包括多重插补法(Multiple Imputation,MI)、缺失森林插补法(MissForest)、矩阵补全;生成方法包括基于期望最大化的算法和基于深度学习的算法:例如去噪自动编码器(Denoising Autoencoder,DAE)和生成对抗网络(Generative Adversarial Networks,GANs)。然而,目前的生成方法存在各种缺点。例如,基于期望最大化方法对底层分布进行了假设,当数据集包含同时分类变量和连续变量时,不能很好地泛化。相比之下,基于DAE的方法在实践中效果良好,但在训练期间需要完整的数据。在许多情况下,缺失的值是问题固有结构的一部分,因此获得一个完整的数据集是不可能的。
[0003]首先现有的缺失值插补方法插补误差较高,其次,医学数据集往往具有高维度、数据量大的特点。而高维的数据特征除了容易带来维数灾难外,还会给模型的性能带来负面影响,因为高维特征中常常包含大量无用特征或冗余特征。同时,由于T

S模型包含了许多条规则,将会极大增加模型复杂度降低插补预测精度。

技术实现思路

[0004]本专利技术的目的是为了解决上述问题,设计了一种基于特征选择的T

S模型缺失值插补法。
[0005]实现上述目的本专利技术的技术方案为,一种基于特征选择的T

S模型缺失值插补法,包括以下步骤:
[0006]步骤1:使用中位数填补法进行预填补缺失值,然后采用FCM算法将含有缺失数据的数据集划分为许多个模糊子集,得到样本对模糊集的隶属度,并使用高斯投影求解样本各属性在相应模糊集的隶属度,从而获得前提参数;
[0007]步骤2:使用预填补的数据集,根据最小二乘法获得结论参数;
[0008]步骤3:前提、结论参数获取结束后,使用步骤2中预填补的数据集依次求解每个属性列对应的模型输出,然后将缺失位置对应的模型输出作为最终的插补值。
[0009]所述步骤1中:对数据集中的缺失数据进行预填补,然后针对预填补数据集使用FCM算法将其划分为许多个模糊子集,记为X
(1)
,X
(2)
,

,X
(K)
,最后,根据样本模糊聚类结果分别对各属性进行划分,获取各属性在各模糊集中的隶属度,该隶属度即前提参数。
[0010]所述步骤2中:在结论参数辨识中,根据预填补的数据集,采用最小二乘法获得各
规则中的结论参数。
[0011]所述步骤3中:依次寻找在该属性中不完整的样本,假设第i个样本x
i
的第j个属性不完整,基于式1计算各线性模型输出权值,并将线性模型的输出乘以相应的权值然后求和作为T

S模型最终输出结果。将该模型的输出作为该属性的填补值。依次置换各不完整数据集的预填补值,当将全部预填补值替换结束后,基于T

S模型的缺失值插补方法全部结束,获得最终插补后的完整数据集;
[0012][0013]利用本专利技术的技术方案制作的基于特征选择的T

S模型缺失值插补法,本专利对T

S模型缺失值插补进行了改进。本专利利用数据集中特征变量之间的相关性,提出提出基于特征选择的T

S插补法,简称FS

TSIM插补法。本专利选择皮尔逊相关系数来进行变量选取。
附图说明
[0014]图1是本专利技术所述基于特征选择的T

S模型缺失值插补法的流程图;
[0015]图2是本专利技术所述基于特征选择的T

S模型缺失值插补法的Pima数据集在不同缺失率下规则数目变化结果;
[0016]图3是本专利技术所述基于特征选择的T

S模型缺失值插补法的数据集2不同在缺失率下规则数目变化结果。
具体实施方式
[0017]下面结合附图对本专利技术进行具体描述,如图1

3所示,一种基于特征选择的T

S模型缺失值插补法,包括以下步骤:
[0018]步骤1:使用中位数填补法进行预填补缺失值,然后采用FCM算法将含有缺失数据的数据集划分为许多个模糊子集,得到样本对模糊集的隶属度,并使用高斯投影求解样本各属性在相应模糊集的隶属度,从而获得前提参数;
[0019]步骤2:使用预填补的数据集,根据最小二乘法获得结论参数;
[0020]步骤3:前提、结论参数获取结束后,使用步骤2中预填补的数据集依次求解每个属性列对应的模型输出,然后将缺失位置对应的模型输出作为最终的插补值。
[0021]需要说明的是:把第一个含有缺失值的属性列当做输出变量构建MISO结构的T

S模型,求解模型各参数值以及该属性的模型输出值。然后,将预填补数据集中的预填补值使用模型的输出值进行置换,至此,该不完整属性列中的缺失值插补结束。同理,依次把数据集的所有含有缺失值的属性列当做输出变量建立T

S模型,计算不完整属性列的模型输出值,将属性列中预填充的值替换为模型输出值。当数据集中所有缺失值的预填补值全部替换结束后,采用T

S模型进行缺失值插补的过程全部结束,输出填补的数据集。
[0022]所述步骤1中:对数据集中的缺失数据进行预填补,然后针对预填补数据集使用FCM算法将其划分为许多个模糊子集,记为X
(1)
,X
(2)
,

,X
(K)
,最后,根据样本模糊聚类结果分别对各属性进行划分,获取各属性在各模糊集中的隶属度,该隶属度即前提参数。
[0023]所述步骤2中:在结论参数辨识中,根据预填补的数据集,采用最小二乘法获得各规则中的结论参数。
[0024]所述步骤3中:依次寻找在该属性中不完整的样本,假设第i个样本x
i
的第j个属性不完整,基于式1计算各线性模型输出权值,并将线性模型的输出乘以相应的权值然后求和作为T

S模型最终输出结果。将该模型的输出作为该属性的填补值。依次置换各不完整数据集的预填补值,当将全部预填补值替换结束后,基于T

S模型的缺失值插补方法全部结束,获得最终插补后的完整数据集;
[0025][0026本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于特征选择的T

S模型缺失值插补法,其特征在于,包括以下步骤:步骤1:使用中位数填补法进行预填补缺失值,然后采用FCM算法将含有缺失数据的数据集划分为许多个模糊子集,得到样本对模糊集的隶属度,并使用高斯投影求解样本各属性在相应模糊集的隶属度,从而获得前提参数;步骤2:使用预填补的数据集,根据最小二乘法获得结论参数;步骤3:前提、结论参数获取结束后,使用步骤2中预填补的数据集依次求解每个属性列对应的模型输出,然后将缺失位置对应的模型输出作为最终的插补值。2.根据权利要求1所述的一种基于特征选择的T

S模型缺失值插补法,其特征在于,所述步骤1中:对数据集中的缺失数据进行预填补,然后针对预填补数据集使用FCM算法将其划分为许多个模糊子集,记为X
(1)
,X
(2)
,

,X
(K)
...

【专利技术属性】
技术研发人员:白洪涛栾雪何丽莉曹英晖孙成林
申请(专利权)人:吉林大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1