基于特征选择的T-S模型缺失值插补法制造技术

技术编号：38464874 阅读：9 留言：0更新日期：2023-08-11 14:41

本发明专利技术公开了一种基于特征选择的T

全部详细技术资料下载

【技术实现步骤摘要】
基于特征选择的T
‑
S模型缺失值插补法

[0001]本专利技术涉及T
‑
S模型缺失值插补法领域，特别是一种基于特征选择的T
‑
S模型缺失值插补法。

技术介绍

[0002]目前解决缺失值方法主要有不完整样本删除法和缺失值填补法。不完整样本删除法通过将含有缺失值的样本或者不完整属性列直接剔除，对原始数据集进行删减，该方法虽然具有一定可行性，但是会丢失大量样本减低数据丰富性。插补法指的是对数据缺失值进行推断，目前最先进的推断方法可以分为鉴别性和生成性。鉴别方法包括多重插补法(Multiple Imputation，MI)、缺失森林插补法(MissForest)、矩阵补全；生成方法包括基于期望最大化的算法和基于深度学习的算法：例如去噪自动编码器(Denoising Autoencoder，DAE)和生成对抗网络(Generative Adversarial Networks，GANs)。然而，目前的生成方法存在各种缺点。例如，基于期望最大化方法对底层分布进行了假设，当数据集包含同时分类变量和连续变量时，不能很好地泛化。相比之下，基于DAE的方法在实践中效果良好，但在训练期间需要完整的数据。在许多情况下，缺失的值是问题固有结构的一部分，因此获得一个完整的数据集是不可能的。
[0003]首先现有的缺失值插补方法插补误差较高，其次，医学数据集往往具有高维度、数据量大的特点。而高维的数据特征除了容易带来维数灾难外，还会给模型的性能带来负面影响，因为高维特征中常常包含大量无...

【技术保护点】

【技术特征摘要】
1.一种基于特征选择的T
‑
S模型缺失值插补法，其特征在于，包括以下步骤：步骤1：使用中位数填补法进行预填补缺失值，然后采用FCM算法将含有缺失数据的数据集划分为许多个模糊子集，得到样本对模糊集的隶属度，并使用高斯投影求解样本各属性在相应模糊集的隶属度，从而获得前提参数；步骤2：使用预填补的数据集，根据最小二乘法获得结论参数；步骤3：前提、结论参数获取结束后，使用步骤2中预填补的数据集依次求解每个属性列对应的模型输出，然后将缺失位置对应的模型输出作为最终的插补值。2.根据权利要求1所述的一种基于特征选择的T
‑
S模型缺失值插补法，其特征在于，所述步骤1中：对数据集中的缺失数据进行预填补，然后针对预填补数据集使用FCM算法将其划分为许多个模糊子集，记为X
(1)
,X
(2)
,
…
,X
(K)
...

【专利技术属性】
技术研发人员：白洪涛，栾雪，何丽莉，曹英晖，孙成林，
申请(专利权)人：吉林大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人