【技术实现步骤摘要】
一种缺失数据的填充方法及装置
[0001]本申请涉及数据处理领域,特别是一种缺失数据的填充方法及装置。
技术介绍
[0002]电子设备的使用会产生大量的数据,使得数据量呈几何倍数级增长,但是数据量级的飞速增加常常伴随着数据缺失的问题,由于缺失的数据可能隐藏着重要信息,处理不当会对数据的统计分析及应用造成不良影响。因此,如何合理有效地解决缺失值问题,提高原始数据的数据质量,进而提升数据分析的结果是人们关注的焦点。
技术实现思路
[0003]鉴于上述问题,本专利技术的目的在于提供一种缺失数据的填充方法及装置,从而实现对缺失数据的准确填充,具体方案如下:
[0004]第一方面,本申请实施例提供了一种缺失数据的填充方法,其特征在于,所述填充方法包括:
[0005]对缺失数据进行预填充,得到预填充缺失数据;
[0006]根据所述预填充缺失数据,确定与所述预填充缺失数据对应的插值数据和插值训练数据;所述插值数据为所述预填充缺失数据所在的数据矩阵中,所述预填充缺失数据所在行和列上的数据;所述插值数据 ...
【技术保护点】
【技术特征摘要】
1.一种缺失数据的填充方法,其特征在于,所述填充方法包括:对缺失数据进行预填充,得到预填充缺失数据;根据所述预填充缺失数据,确定与所述预填充缺失数据对应的插值数据和插值训练数据;所述插值数据为所述预填充缺失数据所在的数据矩阵中,所述预填充缺失数据所在行和列上的数据;所述插值数据包括横向插值数据和纵向插值数据;所述插值训练数据为所述预填充缺失数据所在的数据矩阵中与所述插值数据平行的完整行数据和完整列数据;所述插值训练数据包括,横向插值训练数据和纵向插值训练数据;生成对抗网络模型;根据预设长度对所述插值训练数据进行划分,得到插值训练向量;根据所述插值训练向量训练所述对抗网络模型;将所述插值数据输入至训练后的对抗网络模型中,得到初步填充插值数据;确定与所述初步填充插值数据对应的权重值;根据所述初步填充插值数据以及所述与所述初步填充插值数据对应的权重值,确定与所述缺失数据对应的填充值。2.根据权利要求1所述的填充方法,其特征在于,所述生成对抗网络模型包括:生成横向对抗网络模型和纵向对抗网络模型。3.根据权利要求1所述的填充方法,其特征在于,所述根据预设长度对所述插值训练数据进行划分,得到插值训练向量,包括:所述插值训练向量包括横向插值训练向量和纵向插值训练向量;以所述横向插值训练数据中的最左侧的数据作为起始点,根据所述预设长度向右进行向量划分,得到所述横向插值训练向量;以所述纵向插值训练数据中的最顶端的数据作为起始点,根据所述预设长度向下进行向量划分,得到所述纵向插值训练向量。4.根据权利要求1所述的填充方法,其特征在于,所述确定与所述初步填充插值数据对应的权重值,包括:计算所述横向插值数据与所述缺失数据的总距离,以及所述纵向插值数据与所述缺失数据的总距离;对所述横向插值数据与所述缺失数据的总距离和所述纵向插值数据与所述缺失数据的总距离,进行归一化处理,得到所述与所述初步填充插值数据对应的权重值;所述与所述初步填充插值数据对应的权重值包括横向初步填充结果权重值和纵向初步填充结果权重值。5.根据权利要求4所述的填充方法,其特征在于,所述计算所述横向插值数据与所述缺失数据的总距离,以及所述纵向插值数据与所述缺失数据的总距离,包括:计算所述横向插值数据中各个数据与所述缺失数据的横向坐标距离;根据所述横向坐标距离确定所述横向插值数据中各个数据的横向反距离权重;根据所述横向反距离权重,确定所述横向插值数据与缺失数据的总距离;计算所述纵向插值数据中各个数据与所述缺失数据的纵向坐标距离;根据所述纵向坐标距离...
【专利技术属性】
技术研发人员:马永征,张中献,刘冰,李洪涛,杨学,王鹤子,
申请(专利权)人:中国互联网络信息中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。