The invention provides a method of filling data, the method comprises: receiving data file needs to be filled; to be filled with location information, data acquisition data files, to be filled with data for the target data in the specified dimensions of the data, the target data for one or more dimension data; according to the location information. For filling to be filled with the reference data, the data which the target data and the reference data to meet the predetermined relationship in the corresponding dimension; and the use of reference data to fill fill data, to generate a new data file. The disclosure also provides a data filling system and a nonvolatile storage medium.
【技术实现步骤摘要】
数据填充方法及其系统
公开涉及数据处理领域,更具体地,涉及一种数据填充方法及其系统。
技术介绍
随着信息技术的飞速发展,各行各业积累了大量的数据,这些数据往往会存在一些空缺数据(又称为空值),而空缺数据的存在将直接破坏数据的完整性,严重制约后续的数据应用,严重影响数据应用结果的质量。由于好的数据质量是各种数据可以有效应用的基本条件,因此如何估算、预测、或者找回数据中的空缺数据就显得尤为重要。目前,相关技术中提供了基于统计意义上的空值填充方法。然而,在实现本公开构思的过程中,专利技术人发现相关技术中至少存在如下问题:相关技术提供的方案一般基于全局数据的分布情况填充空值,导致空值填充质量不高。针对相关技术中的上述问题,目前还未提出有效的解决方案。
技术实现思路
有鉴于此,本公开的一个方面提供了一种数据填充方法,包括:接收包含有待填充数据的数据文件;获取上述数据文件中的上述待填充数据的定位信息,其中,上述待填充数据为目标数据在指定维度上的数据,上述目标数据为单维度或多维度数据;根据上述定位信息,确定用于填充上述待填充数据的参考数据,其中,上述目标数据与上述参考数据在对应维度上满足预定关系;以及利用上述参考数据填充上述待填充数据,以生成新的数据文件。根据本公开的实施例,根据上述定位信息,确定用于填充上述待填充数据的参考数据包括:根据上述定位信息,确定用于填充上述待填充数据的拟定参考数据;计算上述拟定参考数据与上述目标数据在对应维度上的相似度;以及根据相似度计算结果,从上述拟定参考数据中选出相似度满足预设条件的拟定参考数据作为上述参考数据。根据本公开的实施例,根据相似度 ...
【技术保护点】
一种数据填充方法,包括:接收包含有待填充数据的数据文件;获取所述数据文件中的所述待填充数据的定位信息,其中,所述待填充数据为目标数据在指定维度上的数据,所述目标数据为单维度或多维度数据;根据所述定位信息,确定用于填充所述待填充数据的参考数据,其中,所述目标数据与所述参考数据在对应维度上满足预定关系;以及利用所述参考数据填充所述待填充数据,以生成新的数据文件。
【技术特征摘要】
1.一种数据填充方法,包括:接收包含有待填充数据的数据文件;获取所述数据文件中的所述待填充数据的定位信息,其中,所述待填充数据为目标数据在指定维度上的数据,所述目标数据为单维度或多维度数据;根据所述定位信息,确定用于填充所述待填充数据的参考数据,其中,所述目标数据与所述参考数据在对应维度上满足预定关系;以及利用所述参考数据填充所述待填充数据,以生成新的数据文件。2.根据权利要求1所述的方法,其中,根据所述定位信息,确定用于填充所述待填充数据的参考数据包括:根据所述定位信息,确定用于填充所述待填充数据的拟定参考数据;计算所述拟定参考数据与所述目标数据在对应维度上的相似度;以及根据相似度计算结果,从所述拟定参考数据中选出相似度满足预设条件的拟定参考数据作为所述参考数据。3.根据权利要求2所述的方法,其中,根据相似度计算结果,从所述拟定参考数据中选出相似度满足预设条件的拟定参考数据作为所述参考数据包括:根据所述相似度计算结果,按照相似度大小对所述拟定参考数据进行排序,得到对应的拟定参考数据序列;从所述拟定参考数据序列中选出相似度排在前K位的目标拟定参考数据;计算所述目标拟定参考数据在目标维度上的均值,其中,所述目标维度为所述待填充数据在所述目标数据上的维度相同;若所述均值达到最小值,则将所述目标拟定参考数据作为所述参考数据。4.根据权利要求3所述的方法,其中,利用所述参考数据填充所述待填充数据包括:将计算所述目标拟定参考数据在所述目标维度上的均值得到的最小值作为所述待填充数据进行填充。5.根据权利要求1所述的方法,其中,在获取待填充数据的定位信息之前,所述方法还包括:对所述目标数据和所述参考数据分别进行标准化处理,得到标准化后的目标数据和标准化后的参考数据;以及利用标准化后的目标数据替换所述目标数据以及利用标准化后的参考数据替换所述参考数据。6.一种数据填充系统,包括:接收模块,用于接收包含有待填充数据的数据文件;获取模块,用于获取所述数据文件中的所述待填充数据的定位信息,...
【专利技术属性】
技术研发人员:闫强,李爱华,葛胜利,
申请(专利权)人:北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。