一种基于生成对抗网络的缺失数据插补方法及系统技术方案

技术编号:46593300 阅读:1 留言:0更新日期:2025-10-10 21:26
本发明专利技术涉及数据处理技术领域,提供一种基于生成对抗网络的缺失数据插补方法及系统。该方法包括:对缺失数据矩阵进行聚类,得到包含簇标签的聚类簇;基于所述聚类簇,通过逻辑回归算法对所述缺失数据矩阵对应的数据特征向量进行分类预测,得到簇标签预测模型;通过高斯混合模型,对所述数据特征向量进行概率分布建模,得到概率模型;基于所述簇标签预测模型及所述概率模型,对生成对抗网络框架进行训练,获得插补模型;通过所述插补模型对待插补数据进行插补,得到插补数据矩阵。本发明专利技术提升了非线性数据的插补精度与稳定性。

【技术实现步骤摘要】

本专利技术涉及数据处理,尤其涉及一种基于生成对抗网络的缺失数据插补方法及系统


技术介绍

1、数据缺失问题在医疗、金融、工业制造、环境科学等众多领域中普遍存在,严重影响数据驱动模型的效能与数据分析的准确性。传统的数据插补方法主要分为简单统计插补方法和基于机器学习的插补方法两类,其中简单统计方法如均值插补、回归插补等通过统计量填补缺失值,而机器学习方法如k近邻插补、决策树插补等利用数据间的关联关系进行缺失值估计。

2、然而,现有技术仍存在显著不足:首先,传统统计方法往往假设数据是线性相关的,在处理复杂和非线性数据时显得力不从心,且可能改变数据的原始分布;其次,基于gan的插补方法虽然能够学习全局数据分布,但在局部结构捕捉能力方面仍有不足,通常更关注全局分布的拟合而在局部区域插补效果不佳;再次,许多现有方法缺乏对插补过程的指导性信息建模,将缺失值看作完全未知的变量,忽略了已有观察值中潜在的结构信息,在缺失率较高或缺失机制复杂的场景中容易导致模型生成偏离真实分布的伪样本;最后,大多数现有方法在处理高缺失率、异质性强或小样本情况下表现不佳,难以有效建模本文档来自技高网...

【技术保护点】

1.一种基于生成对抗网络的缺失数据插补方法,其特征在于,包括:

2.根据权利要求1所述的一种基于生成对抗网络的缺失数据插补方法,其特征在于,步骤S1进一步包括:

3.根据权利要求1所述的一种基于生成对抗网络的缺失数据插补方法,其特征在于,步骤S2进一步包括:

4.根据权利要求1所述的一种基于生成对抗网络的缺失数据插补方法,其特征在于,步骤S3进一步包括:

5.根据权利要求1所述的一种基于生成对抗网络的缺失数据插补方法,其特征在于,步骤S4进一步包括:

6.根据权利要求5所述的一种基于生成对抗网络的缺失数据插补方法,其特征在于,步...

【技术特征摘要】

1.一种基于生成对抗网络的缺失数据插补方法,其特征在于,包括:

2.根据权利要求1所述的一种基于生成对抗网络的缺失数据插补方法,其特征在于,步骤s1进一步包括:

3.根据权利要求1所述的一种基于生成对抗网络的缺失数据插补方法,其特征在于,步骤s2进一步包括:

4.根据权利要求1所述的一种基于生成对抗网络的缺失数据插补方法,其特征在于,步骤s3进一步包括:

5.根据权利要求1所述的一种基于生成对抗网络的缺失数据插补方法,其特征在于,步骤s4进一步包括:

6.根...

【专利技术属性】
技术研发人员:童英华杨钦慧冯忠岭
申请(专利权)人:青海师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1