数据填充方法及其系统技术方案

技术编号:16779464 阅读:25 留言:0更新日期:2017-12-12 23:49
本公开提供了一种数据填充方法,该方法包括:接收包含有待填充数据的数据文件;获取数据文件中的待填充数据的定位信息,其中,待填充数据为目标数据在指定维度上的数据,目标数据为单维度或多维度数据;根据定位信息,确定用于填充待填充数据的参考数据,其中,目标数据与参考数据在对应维度上满足预定关系;以及利用参考数据填充待填充数据,以生成新的数据文件。本公开还提供了一种数据填充系统以及一种非易失性存储介质。

Data filling method and its system

The invention provides a method of filling data, the method comprises: receiving data file needs to be filled; to be filled with location information, data acquisition data files, to be filled with data for the target data in the specified dimensions of the data, the target data for one or more dimension data; according to the location information. For filling to be filled with the reference data, the data which the target data and the reference data to meet the predetermined relationship in the corresponding dimension; and the use of reference data to fill fill data, to generate a new data file. The disclosure also provides a data filling system and a nonvolatile storage medium.

【技术实现步骤摘要】
数据填充方法及其系统
公开涉及数据处理领域,更具体地,涉及一种数据填充方法及其系统。
技术介绍
随着信息技术的飞速发展,各行各业积累了大量的数据,这些数据往往会存在一些空缺数据(又称为空值),而空缺数据的存在将直接破坏数据的完整性,严重制约后续的数据应用,严重影响数据应用结果的质量。由于好的数据质量是各种数据可以有效应用的基本条件,因此如何估算、预测、或者找回数据中的空缺数据就显得尤为重要。目前,相关技术中提供了基于统计意义上的空值填充方法。然而,在实现本公开构思的过程中,专利技术人发现相关技术中至少存在如下问题:相关技术提供的方案一般基于全局数据的分布情况填充空值,导致空值填充质量不高。针对相关技术中的上述问题,目前还未提出有效的解决方案。
技术实现思路
有鉴于此,本公开的一个方面提供了一种数据填充方法,包括:接收包含有待填充数据的数据文件;获取上述数据文件中的上述待填充数据的定位信息,其中,上述待填充数据为目标数据在指定维度上的数据,上述目标数据为单维度或多维度数据;根据上述定位信息,确定用于填充上述待填充数据的参考数据,其中,上述目标数据与上述参考数据在对应维度上满足预定关系;以及利用上述参考数据填充上述待填充数据,以生成新的数据文件。根据本公开的实施例,根据上述定位信息,确定用于填充上述待填充数据的参考数据包括:根据上述定位信息,确定用于填充上述待填充数据的拟定参考数据;计算上述拟定参考数据与上述目标数据在对应维度上的相似度;以及根据相似度计算结果,从上述拟定参考数据中选出相似度满足预设条件的拟定参考数据作为上述参考数据。根据本公开的实施例,根据相似度计算结果,从上述拟定参考数据中选出相似度满足预设条件的拟定参考数据作为上述参考数据包括:根据上述相似度计算结果,按照相似度大小对上述拟定参考数据进行排序,得到对应的拟定参考数据序列;从上述拟定参考数据序列中选出相似度排在前K位的目标拟定参考数据;计算上述目标拟定参考数据在目标维度上的均值,其中,上述目标维度为上述待填充数据在上述目标数据上的维度相同;若上述均值达到最小值,则将上述目标拟定参考数据作为上述参考数据。根据本公开的实施例,利用上述参考数据填充上述待填充数据包括:将计算上述目标拟定参考数据在上述目标维度上的均值得到的最小值作为上述待填充数据进行填充。根据本公开的实施例,在获取待填充数据的定位信息之前,上述方法还包括:对上述目标数据和上述参考数据分别进行标准化处理,得到标准化后的目标数据和标准化后的参考数据;以及利用标准化后的目标数据替换上述目标数据以及利用标准化后的参考数据替换上述参考数据。本公开的另一方面还提供了一种数据填充系统,包括:接收模块,用于接收包含有待填充数据的数据文件;获取模块,用于获取待填充数据的定位信息,其中,上述待填充数据为目标数据在指定维度上的数据,上述目标数据为单维度或多维度数据;确定模块,用于根据上述定位信息,确定用于填充上述待填充数据的参考数据,其中,上述目标数据与上述参考数据在对应维度上满足预定关系;以及填充模块,用于利用上述参考数据填充上述待填充数据,以生成新的数据文件。根据本公开的实施例,上述确定模块包括:第一确定单元,用于根据上述定位信息,确定用于填充上述待填充数据的拟定参考数据;计算单元,用于计算上述拟定参考数据与上述目标数据在对应维度上的相似度;以及第二确定单元,用于根据相似度计算结果,从上述拟定参考数据中选出相似度满足预设条件的拟定参考数据作为上述参考数据。根据本公开的实施例,上述第二确定单元包括:排序子单元,用于根据上述相似度计算结果,按照相似度大小对上述拟定参考数据进行排序,得到对应的拟定参考数据序列;选择子单元,用于从上述拟定参考数据序列中选出相似度排在前K位的目标拟定参考数据;计算子单元,用于计算上述目标拟定参考数据在目标维度上的均值,其中,上述目标维度为上述待填充数据在上述目标数据上的维度相同;确定子单元,用于在上述均值达到最小值的情况下,将上述目标拟定参考数据作为上述参考数据。根据本公开的实施例,上述填充模块还用于:将计算上述目标拟定参考数据在上述目标维度上的均值得到的最小值作为上述待填充数据进行填充。根据本公开的实施例,上述系统还包括:处理模块,用于在获取待填充数据的定位信息之前,对上述目标数据和上述参考数据分别进行标准化处理,得到标准化后的目标数据和标准化后的参考数据;以及替换模块,用于利用标准化后的目标数据替换上述目标数据以及利用标准化后的参考数据替换上述参考数据。本公开的另一方面还提供了一种非易失性存储介质,存储有计算机可执行指令,上述指令在被执行时用于实现如上的数据填充方法。本公开的另一方面还提供了一种数据填充系统,包括:处理器;以及上述的非易失性存储介质。根据本公开的实施例,可以至少部分地克服相关技术提供的方案在基于全局数据的分布情况填充空值时容易导致空值填充质量不高的技术问题。附图说明通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:图1示意性示出了根据本公开实施例的数据填充方法及其系统的系统架构;图2示意性示出了根据本公开实施例的数据填充方法的流程图;图3示意性示出了根据本公开实施例的数据文件的结构示意图;图4示意性示出了根据本公开实施例的数据填充系统的框图;以及图5示意性示出了根据本公开另一实施例的数据填充系统的框图。具体实施方式以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。这里使用的词语“一”、“一个(种)”和“该”等也应包括“多个”、“多种”的意思,除非上下文另外明确指出。此外,在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。附图中示出了一些方框图和/或流程图。应理解,方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。因此,本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外,本公开的技术可以采取存储有指令的计算机可读介质上的计算机程序产品的形式,该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。在本公开的上下文中,计算机可读介质可以是能够包含、存储、传送、传播或传输指令的任意介质。例如,计算机可读介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。计算机可读介质的具体示例包括:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;和本文档来自技高网...
数据填充方法及其系统

【技术保护点】
一种数据填充方法,包括:接收包含有待填充数据的数据文件;获取所述数据文件中的所述待填充数据的定位信息,其中,所述待填充数据为目标数据在指定维度上的数据,所述目标数据为单维度或多维度数据;根据所述定位信息,确定用于填充所述待填充数据的参考数据,其中,所述目标数据与所述参考数据在对应维度上满足预定关系;以及利用所述参考数据填充所述待填充数据,以生成新的数据文件。

【技术特征摘要】
1.一种数据填充方法,包括:接收包含有待填充数据的数据文件;获取所述数据文件中的所述待填充数据的定位信息,其中,所述待填充数据为目标数据在指定维度上的数据,所述目标数据为单维度或多维度数据;根据所述定位信息,确定用于填充所述待填充数据的参考数据,其中,所述目标数据与所述参考数据在对应维度上满足预定关系;以及利用所述参考数据填充所述待填充数据,以生成新的数据文件。2.根据权利要求1所述的方法,其中,根据所述定位信息,确定用于填充所述待填充数据的参考数据包括:根据所述定位信息,确定用于填充所述待填充数据的拟定参考数据;计算所述拟定参考数据与所述目标数据在对应维度上的相似度;以及根据相似度计算结果,从所述拟定参考数据中选出相似度满足预设条件的拟定参考数据作为所述参考数据。3.根据权利要求2所述的方法,其中,根据相似度计算结果,从所述拟定参考数据中选出相似度满足预设条件的拟定参考数据作为所述参考数据包括:根据所述相似度计算结果,按照相似度大小对所述拟定参考数据进行排序,得到对应的拟定参考数据序列;从所述拟定参考数据序列中选出相似度排在前K位的目标拟定参考数据;计算所述目标拟定参考数据在目标维度上的均值,其中,所述目标维度为所述待填充数据在所述目标数据上的维度相同;若所述均值达到最小值,则将所述目标拟定参考数据作为所述参考数据。4.根据权利要求3所述的方法,其中,利用所述参考数据填充所述待填充数据包括:将计算所述目标拟定参考数据在所述目标维度上的均值得到的最小值作为所述待填充数据进行填充。5.根据权利要求1所述的方法,其中,在获取待填充数据的定位信息之前,所述方法还包括:对所述目标数据和所述参考数据分别进行标准化处理,得到标准化后的目标数据和标准化后的参考数据;以及利用标准化后的目标数据替换所述目标数据以及利用标准化后的参考数据替换所述参考数据。6.一种数据填充系统,包括:接收模块,用于接收包含有待填充数据的数据文件;获取模块,用于获取所述数据文件中的所述待填充数据的定位信息,...

【专利技术属性】
技术研发人员:闫强李爱华葛胜利
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1