数据处理的方法及装置制造方法及图纸

技术编号:15501101 阅读:304 留言:0更新日期:2017-06-03 22:37
本发明专利技术实施例公开了一种数据处理的方法及装置。该方法包括:获取数据样本;根据未包含缺失值的数据样本的各属性项的属性信息确定未包含缺失值的数据样本的各属性项中与缺失值对应的频繁项集;从频繁项集中选择填充属性项;根据填充属性项中与包含缺失值的数据样本中的缺失值的对应属性的属性值确定填充值,并根据填充值更新包含缺失值的数据样本。本发明专利技术实施例通过采用上述技术方案,根据未包含缺失值的各属性项的属性信息确定用于填充缺失值的填充属性项,综合考虑缺失值对应属性与其它各属性之间的关联关系,可以提高填充值的正确性与数据信息的有效性,提高缺失值的处理速度,减少处理缺失值所需的时间。

Method and apparatus for data processing

The embodiment of the invention discloses a method and a device for data processing. The method comprises: acquiring data; does not contain missing values is determined according to the data sample of each attribute in the missing value of frequent itemsets corresponding to each attribute item attribute information does not contain missing values in the data sample; choose to focus from frequent items fill property; according to the filling property and corresponding property contains the absence of value the data in the sample value of the attribute value in determining the filling value, and according to the fill value update contains missing values in the data sample. The embodiment of the invention adopts the technical scheme, according to each attribute item does not contain the attribute information of the missing value is determined for the filling of missing values filling properties, the relationship between the corresponding attribute and other attributes value considering the lack of, can improve the effectiveness and correctness of data filling, improve processing the speed of the missing value, reduce the value required to handle missing time.

【技术实现步骤摘要】
数据处理的方法及装置
本专利技术涉及信息处理
,尤其涉及一种数据处理的方法及装置。
技术介绍
近年来,随着信息处理技术的发展,大数据被越来越多的应用到了导航系统或城市规划等各个领域。目前的大数据架构通常是以数据流为导向来进行数据处理的,即,首先从数据源获取数据并将获取到的数据进行存储,然后对数据进行预处理,再根据预处理后的数据进行数据建模、数据分析与数据挖掘,最后实现数据变现。由此可见,数据预处理是大数据结构中整个数据处理过程的基础,其质量与精准度可能会直接影响到后续环节中数据维度建模的指标定义、数据挖掘算法的选择或数据的准确性度量等,是数据处理过程的重要环节之一。数据预处理的过程中通常会涉及到对数据中的缺失值进行处理,现有技术中,在对数据进行处理时一般会采用人工填写、删除含缺失值的记录数据(即删除法)、使用特殊字符(如NULL)填充、或者使用统计学上的均值或众数进行缺失值的填补等方法对数据中的缺失值进行处理。但是,当数据量较多或达到一定级别时,人工填写需耗费较多的时间与精力,无法满足数据流实时快速传输与处理的需求;删除含缺失值的记录数据、使用统一的特殊字符或者使用统计学上的均值或众数进行缺失值填充不具有针对性,会导致数据准精确性和有效性降低,由此可见,现有技术无法同时满足缺失值处理的高效率和高精度的要求。
技术实现思路
有鉴于此,本专利技术实施例提供一种数据处理的方法及装置,以解决现有技术中的数据处理方法无法同时满足缺失值处理的高效率和高精度的要求的技术问题。第一方面,本专利技术实施例提供了一种数据处理的方法,包括:获取数据样本,所述数据样本包括包含缺失值的数据样本和未包含缺失值的数据样本;根据所述未包含缺失值的数据样本的各属性项的属性信息确定所述未包含缺失值的数据样本的各属性项中与所述缺失值对应的频繁项集;从所述频繁项集中选择填充属性项;根据所述填充属性项中与所述包含缺失值的数据样本中的缺失值的对应属性的属性值确定填充值,并根据所述填充值更新所述包含缺失值的数据样本。第二方面,本专利技术实施例还提供了一种数据处理的装置,包括:数据样本获取模块,用于获取数据样本,所述数据样本包括包含缺失值的数据样本和未包含缺失值的数据样本;频繁项集确定模块,用于根据所述未包含缺失值的数据样本的各属性项的属性信息确定所述未包含缺失值的数据样本的各属性项中与所述缺失值对应的频繁项集;填充属性项选择模块,用于从所述频繁项集中选择填充属性项;填充值确定模块,用于根据所述填充属性项中与所述包含缺失值的数据样本中的缺失值的对应属性的属性值确定填充值,并根据所述填充值更新所述包含缺失值的数据样本。本专利技术实施例提供的数据处理的技术方案,获取数据样本,根据未包含缺失值的数据样本各属性的属性信息确定未包含缺失值的数据样本的各属性项中与包含缺失值的数据样本中的缺失值对应的频繁项集,从频繁项集中选择填充属性项,根据填充项中与缺失值对应属性的属性值确定填充值,并根据所确定的填充值对包含缺失值的数据样本进行更新。本专利技术实施例通过采用上述技术方案,根据未包含缺失值的各属性项的属性信息确定用于填充缺失值的填充属性项,综合考虑缺失值对应属性与其它各属性之间的关联关系,可以提高填充值的正确性与数据信息的有效性,提高缺失值的处理速度,减少处理缺失值所需的时间,进而提高后续数据处理流程的准确性与整个数据处理过程的平均速度。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1为本专利技术实施例一提供的一种数据处理的方法的流程示意图;图2为本专利技术实施例二提供的一种数据处理的方法的流程示意图;图3为本专利技术实施例三提供的一种数据处理的装置的结构框图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部内容。实施例一本专利技术实施例一提供一种数据处理的方法。该方法可由数据处理的装置执行,其中该装置可以由硬件和/或软件实现,一般可集成在数据处理平台中。图1是本专利技术实施例一提供的数据处理的方法的流程示意图,如图1所示,该方法包括:S110、获取数据样本,所述数据样本包括包含缺失值的数据样本和未包含缺失值的数据样本。本实施例中,数据样本可以是实体类数据样本,数据样本可以包括第一数据样本和第二数据样本,其中第一数据样本是包含缺失值的数据样本,第二数据样本是未包含缺失值的数据样本。具体应用中,数据样本可以预先存储在与数据处理平台相对应的数据库中,在获取数据样本时,直接从数据样本的存储位置调用该数据样本即可;也可以实时从数据传输接口获取其他平台或数据库发送的数据样本并对数据样本中的缺失值进行处理,此处不作限制。S120、根据所述未包含缺失值的数据样本的各属性项的属性信息确定所述未包含缺失值的数据样本的各属性项中与所述缺失值对应的频繁项集。本实施例中,为减少确定用于填充缺失值的填充值所需的计算量,包含缺失值的数据样本的各属性项优选为可用属性项,即,属性项中的各属性均不为缺失值。其中,各属性项中可以包括两个属性值、三个属性值甚至更多个属性值,此处不作限制。在对数据样本中包含的缺失值进行处理时,可以以横向或纵向的顺序进行处理,即,可以以数据样本为单位进行处理,也可以以属性为单位进行处理。包含缺失值的数据样本和不包含缺失值的数据样本的具体定义可以根据处理方式的不同灵活设定,例如,可以将任意一个或多个属性值缺失的数据样本均定义为包含缺失值的数据样本,相应的,将不包含缺失值的数据样本定义为所有属性值均不缺失的数据样本;也可以在对数据样本某一个属性中包含的缺失值进行处理时,只将该属性的属性值缺失的数据样本定义为包含缺失值的数据样本,相应的,将不包含缺失值的数据样本定义为该属性的属性值不缺失的数据样本。考虑到在对数据样本某一个属性中包含的缺失值进行处理时,该属性的属性值不缺失但是其他属性的属性值缺失的数据样本也可以包含一个或多个属性项,例如,假设包含缺失值的数据样本中缺失值所对应的属性为属性A,某一数据样本共有4个属性:属性A(属性值为a1)、属性B(属性值为b1)、属性C和属性D(属性值为d1),其中,该数据样本中属性C的属性值缺失,此时该数据样本仍可构成如下属性项:(a1,b1)、(a1,d1)、(b1,d1)和(a1,b1,d1),因此,优选的,在对数据样本某一个属性中包含的缺失值进行处理时,可以只将该属性的属性值缺失的数据样本定义为包含缺失值的数据样本,将不包含缺失值的数据样本定义为该属性的属性值不缺失的数据样本。在对某一缺失值进行处理时,未包含缺失值的数据样本的各属性项中可以包含缺失值对应属性的属性值,也可以不包含缺失值对应属性的属性值。例如,假设包含缺失值的数据样本中缺失值所对应的属性为属性A,某一未包含缺失值的数据样本共有4个属性:属性A(属性值为a2)、属性B(属性值为b2)、属性C(属性值为c2)和属性D(属性值为d2),则由该未包含缺失值的数据样本组成的属性项可以包含缺失值对应属性(属性A)的属性值a2,如属性项可以为(a2,b2)、(a2,c2)、(a2,d2)本文档来自技高网...
数据处理的方法及装置

【技术保护点】
一种数据处理的方法,其特征在于,包括:获取数据样本,所述数据样本包括包含缺失值的数据样本和未包含缺失值的数据样本;根据所述未包含缺失值的数据样本的各属性项的属性信息确定所述未包含缺失值的数据样本的各属性项中与所述缺失值对应的频繁项集;从所述频繁项集中选择填充属性项;根据所述填充属性项中与所述包含缺失值的数据样本中的缺失值的对应属性的属性值确定填充值,并根据所述填充值更新所述包含缺失值的数据样本。

【技术特征摘要】
1.一种数据处理的方法,其特征在于,包括:获取数据样本,所述数据样本包括包含缺失值的数据样本和未包含缺失值的数据样本;根据所述未包含缺失值的数据样本的各属性项的属性信息确定所述未包含缺失值的数据样本的各属性项中与所述缺失值对应的频繁项集;从所述频繁项集中选择填充属性项;根据所述填充属性项中与所述包含缺失值的数据样本中的缺失值的对应属性的属性值确定填充值,并根据所述填充值更新所述包含缺失值的数据样本。2.根据权利要求1所述的方法,其特征在于,所述属性信息包括属性项的支持度信息和置信度信息,相应的,所述根据所述未包含缺失值的数据样本的各属性项的属性信息确定所述未包含缺失值的数据样本的各属性项中与所述缺失值对应的频繁项集,包括:根据所述数据样本中与所述缺失值对应的属性的非缺失率确定与所述缺失值相对应的最小支持阈值和最小置信阈值;从所述未包括缺失值的数据样本中选取支持度信息大于或等于最小支持阈值的属性项组成候选频繁项集,所述属性项包含与所述缺失值对应的属性的属性值;从所述候选频繁项集中选取置信度信息大于或等于最小置信阈值的属性项组成与所述缺失值对应的频繁项集。3.根据权利要求2所述的方法,其特征在于,所述根据所述数据样本中与所述缺失值对应的属性的非缺失率确定与所述缺失值相对应的最小支持阈值和最小置信阈值,包括:如果Rnm≥90%,则MinSup=1-Rnm;如果60%≤Rnm<90%,则MinSup=1-0.9×Rnm;如果Rnm<60%,则MinSup=Rnm;其中,Rnm为所述数据样本中与所述缺失值对应的属性的非缺失率,MinSup为与所述缺失值相对应的最小支持阈值。4.根据权利要求3所述的方法,其特征在于,所述根据所述数据样本中与所述缺失值对应的属性的非缺失率确定与所述缺失值相对应的最小支持阈值和最小置信阈值,还包括:如果Rnm≥90%,则MinCon=0.92;如果80%≤Rnm<90%,则MinCon=0.9×Rnm+0.1;如果70%≤Rnm<80%,则MinCon=0.95×Rnm+0.1;如果Rnm<70%,则MinCon=0.75;其中,Rnm为所述数据样本中与所述缺失值对应的属性的非缺失率,MinCon为与所述缺失值相对应的最小置信阈值。5.根据权利要求1所述的方法,其特征在于,所述从所述频繁项集中选择填充属性项,具体为:根据所述频繁项集中各属性项的支持度信息和/或对应的有效属性值个数,确定与所述缺失值对应的填充属性项,其中,所述有效...

【专利技术属性】
技术研发人员:徐骄
申请(专利权)人:广州视源电子科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1