数据更新的方法及装置制造方法及图纸

技术编号:15763309 阅读:54 留言:0更新日期:2017-07-06 00:45
本发明专利技术实施例公开了一种数据更新的方法及装置。该方法包括:获取数据样本中缺失属性和非缺失属性的第一出现率信息;根据所述第一出现率信息计算所述缺失属性对应的各属性值的第二出现率信息;根据所述第二出现率信息确定与所述第一数据样本对应的填充值,并根据所述填充值更新所述第一数据样本。本发明专利技术实施例通过采用上述技术方案,根据缺失属性对应的各属性值在包含缺失值的数据样本中的出现率信息确定与包含缺失值的数据样本中的缺失值相对应的填充值,可以提高填充值的正确性与数据信息的有效性,提高缺失值的处理速度,减少处理缺失值所需的时间,进而提高后续数据处理流程的准确性与整个数据处理过程的平均速度。

Method and device for updating data

The embodiment of the invention discloses a method and a device for updating data. The method includes: obtaining the missing attribute and non missing attribute data in a sample of first rate information; according to the first appeared in each attribute rate information to calculate the missing attribute values corresponding to the second rate of information; according to the second filling rate information to determine with the first sample data and according to the corresponding values. The fill value updates the first data sample. The embodiment of the invention adopts the technical scheme, according to the attribute missing attribute values corresponding to the missing values in the data contained in the sample rate and contains information to determine the absence of data in the sample value corresponding to the filling value, can improve the effectiveness of the filling power and improve the processing data information. The speed of the missing value, reduce the time required to deal with the missing data, and then improve the average rate of accuracy of subsequent data processing and the data processing process.

【技术实现步骤摘要】
数据更新的方法及装置
本专利技术涉及信息处理
,尤其涉及一种数据更新的方法及装置。
技术介绍
近年来,随着信息处理技术的发展,大数据被越来越多的应用到了导航系统或城市规划等各个领域。目前的大数据架构通常是以数据流为导向来进行数据处理的,即,首先从数据源获取数据并将获取到的数据进行存储,然后对数据进行预处理,再根据预处理后的数据进行数据建模、数据分析与数据挖掘,最后实现数据变现。由此可见,数据预处理是大数据结构中整个数据处理过程的基础,其质量与精准度可能会直接影响到后续环节中数据维度建模的指标定义、数据挖掘算法的选择或数据的准确性度量等,是数据处理过程的重要环节之一。数据预处理的过程中通常会涉及到对数据中的缺失值进行处理,现有技术中,在对数据进行处理时一般会采用人工填写、删除含缺失值的记录数据(即删除法)、使用特殊字符(如NULL)填充、或者使用统计学上的均值或众数进行缺失值的填补等方法对数据中的缺失值进行处理。但是,当数据量较多或达到一定级别时,人工填写需耗费较多的时间与精力,无法满足数据流实时快速传输与处理的需求;删除含缺失值的记录数据、使用统一的特殊字符或者使用统计学上的均值或众数进行缺失值填充不具有针对性,会导致数据准精确性和有效性降低,由此可见,现有技术无法同时满足缺失值处理的高效率和高精度的要求。
技术实现思路
有鉴于此,本专利技术实施例提供一种数据更新的方法及装置,以解决现有技术中的数据处理方法无法同时满足缺失值处理的高效率和高精度的要求的技术问题。第一方面,本专利技术实施例提供了一种数据更新的方法,包括:获取数据样本中缺失属性和非缺失属性的第一出现率信息,所述数据样本包括包含缺失值的第一数据样本和未包含缺失值的第二数据样本,所述缺失属性为所述第一数据样本中缺失值对应的属性;根据所述第一出现率信息计算所述缺失属性对应的各属性值的第二出现率信息,所述第二出现率信息为缺失属性对应的各属性值在所述第一数据样本中出现的出现率信息;根据所述第二出现率信息确定与所述第一数据样本对应的填充值,并根据所述填充值更新所述第一数据样本。第二方面,本专利技术实施例还提供了一种数据更新的装置,包括:第一出现率信息获取模块,用于获取数据样本中缺失属性和非缺失属性的第一出现率信息,所述数据样本包括包含缺失值的第一数据样本和未包含缺失值的第二数据样本,所述缺失属性为所述第一数据样本中缺失值对应的属性;第二出现率信息计算模块,用于根据所述第一出现率信息计算所述缺失属性对应的各属性值的第二出现率信息,所述第二出现率信息为缺失属性对应的各属性值在所述第一数据样本中出现的出现率信息;数据样本更新模块,用于根据所述第二出现率信息确定与所述第一数据样本对应的填充值,并根据所述填充值更新所述第一数据样本。本专利技术实施例提供的数据更新的技术方案,获取数据样本中缺失属性和非缺失属性的第一出现率信息,根据所获取的第一出现率信息计算缺失属性对应的各属性值在包含缺失值的数据样本中出现的第二出现率信息,根据该第二出现率信息确定与包含缺失值的数据样本中的缺失值对应的填充值,并根据该填充值更新包含缺失值的数据样本。本专利技术实施例通过采用上述技术方案,根据缺失属性对应的各属性值在包含缺失值的数据样本中的出现率信息确定与包含缺失值的数据样本中的缺失值相对应的填充值,可以提高填充值的正确性与数据信息的有效性,提高缺失值的处理速度,减少处理缺失值所需的时间,进而提高后续数据处理流程的准确性与整个数据处理过程的平均速度。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1为本专利技术实施例一提供的一种数据更新的方法的流程示意图;图2为本专利技术实施例二提供的一种数据更新的方法的流程示意图;图3为本专利技术实施例三提供的一种数据更新的装置的结构框图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部内容。实施例一本专利技术实施例一提供一种数据更新的方法。该方法可由数据更新的装置执行,其中,该装置可由硬件和/或软件实现,一般可集成在数据处理平台中。图1是本专利技术实施例一提供的数据更新的方法的流程示意图,如图1所示,该方法包括:S110、获取数据样本中缺失属性和非缺失属性的第一出现率信息,所述数据样本包括包含缺失值的第一数据样本和未包含缺失值的第二数据样本,所述缺失属性为所述第一数据样本中缺失值对应的属性。本实施例中,缺失属性为包含缺失值的数据样本中缺失值对应的属性,相应的,非缺失属性为包含缺失值的数据样本中非缺失值对应的属性。其中,数据样本可以是实体类数据样本。包含缺失值的数据样本和不包含缺失值的数据样本的具体定义可以根据处理方式的不同灵活设定,例如,可以将任意一个或多个属性值缺失的数据样本均定义为包含缺失值的数据样本,相应的,将不包含缺失值的数据样本定义为所有属性值均不缺失的数据样本;也可以在对数据样本某一个属性中包含的缺失值进行处理时,只将该属性的属性值缺失的数据样本定义为包含缺失值的数据样本,相应的,将不包含缺失值的数据样本定义为该属性的属性值不缺失的数据样本或所有属性值均不缺失的数据样本。本实施例中,在对数据样本中包含的缺失值进行处理时,可以以横向或纵向的顺序进行处理,即,可以以数据样本为单位进行处理,也可以以属性为单位进行处理,此处不作限制。在对数据样本中的缺失值进行处理时,可以将缺失值对应属性相同且非缺失属性的属性值也相同的数据样本归为一组,在进行缺失值处理时同时对该组数据样本中的缺失值进行处理。其中,非缺失属性可以是除缺失属性之外的其他所有属性,也可以是缺失属性的相关属性。考虑到计算的简便性,优选的,所述非缺失属性为缺失属性的相关属性。相应的,在对某一数据样本某一个属性中包含的缺失值进行处理时,可以只将该数据样本定义为包含缺失值的数据样本(即第一数据样本),将相关属性的属性值均不缺失的数据样本定义为不包含缺失值的数据样本(即第二数据样本)。其中,某一缺失属性的相关属性可以由开发商或运营商根据需要灵活设定,也可以根据数据样本各相关属性与该缺失属性的关联度信息确定,关联度信息可以通过统计该缺失属性对应属性值发生变化时其他属性的属性值发生变化的概率获得。缺失属性和非缺失属性的第一出现率信息可以是缺失属性对应的各属性值在数据样本中的出现率信息、缺失属性对应的各属性值在第二数据样本中的出现率信息、非缺失属性各属性值在数据样本中的出现率信息、非缺失属性各属性值在第二数据样本中的出现率信息或者非缺失属性各属性值在以缺失属性为条件时的条件概率信息,此处不作限制。考虑到各出现率信息的实用性与计算的简洁性,优选的,所述第一出现率信息包括缺失属性对应的各属性值在第二数据样本中的第一子出现率信息以及所述第一数据样本中各非缺失属性的属性值在第二数据样本中以缺失属性对应的属性值为条件的第二子出现率信息;或者,所述第一出现率信息包括所述缺失属性对应的各属性值在第二数据样本中的第一子出现率信息、所述第一数据样本中各非缺失属性的属性值在第二数据样本中以缺失属性对应的属性值为条件的第二子本文档来自技高网...
数据更新的方法及装置

【技术保护点】
一种数据更新的方法,其特征在于,包括:获取数据样本中缺失属性和非缺失属性的第一出现率信息,所述数据样本包括包含缺失值的第一数据样本和未包含缺失值的第二数据样本,所述缺失属性为所述第一数据样本中缺失值对应的属性;根据所述第一出现率信息计算所述缺失属性对应的各属性值的第二出现率信息,所述第二出现率信息为缺失属性对应的各属性值在所述第一数据样本中出现的出现率信息;根据所述第二出现率信息确定与所述第一数据样本对应的填充值,并根据所述填充值更新所述第一数据样本。

【技术特征摘要】
1.一种数据更新的方法,其特征在于,包括:获取数据样本中缺失属性和非缺失属性的第一出现率信息,所述数据样本包括包含缺失值的第一数据样本和未包含缺失值的第二数据样本,所述缺失属性为所述第一数据样本中缺失值对应的属性;根据所述第一出现率信息计算所述缺失属性对应的各属性值的第二出现率信息,所述第二出现率信息为缺失属性对应的各属性值在所述第一数据样本中出现的出现率信息;根据所述第二出现率信息确定与所述第一数据样本对应的填充值,并根据所述填充值更新所述第一数据样本。2.根据权利要求1所述的方法,其特征在于,所述第一出现率信息包括缺失属性对应的各属性值在第二数据样本中的第一子出现率信息以及所述第一数据样本中各非缺失属性的属性值在第二数据样本中以缺失属性对应的属性值为条件的第二子出现率信息;所述根据所述第一出现率信息计算缺失属性对应的各属性值的第二出现率信息包括:根据公式计算缺失属性对应的各属性值的第二出现率信息,其中,P(yi|R)为所述缺失属性对应的属性值yi的第二出现率信息,P(yi)为所述缺失属性对应的属性值yi的第一子出现率信息,P(Rj|yi)为属性值Rj以属性值yi为条件的第二子出现率信息,所述属性值Rj为所第一数据样本中非缺失属性的属性值。3.根据权利要求1所述的方法,其特征在于,所述第一出现率信息包括所述缺失属性对应的各属性值在第二数据样本中的第一子出现率信息、所述第一数据样本中各非缺失属性的属性值在第二数据样本中以缺失属性对应的属性值为条件的第二子出现率信息以及所述第一数据样本非缺失属性的属性值对应的权重值信息;所述根据所述第一出现率信息计算缺失属性对应的各属性值的第二出现率信息包括:根据公式计算缺失属性对应的各属性值的第二出现率信息,其中,P(yi|R)为所述缺失属性对应的属性值yi在的第二出现率信息,P(yi)为所述缺失属性对应的属性值yi的第一子出现率信息,Wj为属性值Rj对应的权重值信息,P(Rj|yi)为属性值Rj以属性值yi为条件的第二子出现率信息,所述属性值Rj为所述第一数据样本中非缺失属性的属性值。4.根据权利要求1所述的方法,其特征在于,在所述获取数据样本中缺失属性和非缺失属性的第一出现率信息之前,还包括:对第二数据样本进行训练以确定数据样本中缺失属性和非缺失属性的第一出现率信息。5.根据权利要求4所述的方法,其特征在于,所述对第二数据样本进行训练以确定数据样本中缺失属性和非缺失属性的第一出现率信息,包括:按照设定比例将第二数据样本划分为训练样本集和测试样本集;对所述训练样本集进行训练以确定数据样本中缺失属性和非缺失属性的当前出现率信息;采用所述测试样本集对所述当前出现率信息进行测试以生成测试结果;如果所述测试结果符合设定的准确率阈值,则结束训练操作;否则,则重新划分训练样本集和测试样本集,并对重新划分后的训练样本集进行训练直至所述测试结果符合设定的准确率阈值为止;将结束训练时的当前出现率信息标记为数据样本中缺失属性和非缺失属性的第一出现率信息。6.根据权利要求1-5任一所述的方法,其特征在于,所述非缺失属性为...

【专利技术属性】
技术研发人员:徐骄
申请(专利权)人:广州视源电子科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1