The embodiment of the invention discloses a method and a device for data processing. The method comprises: acquiring data; does not contain missing values is determined according to the data sample of each attribute in the missing value of frequent itemsets corresponding to each attribute item attribute information does not contain missing values in the data sample; choose to focus from frequent items fill property; according to the filling property and corresponding property contains the absence of value the data in the sample value of the attribute value in determining the filling value, and according to the fill value update contains missing values in the data sample. The embodiment of the invention adopts the technical scheme, according to each attribute item does not contain the attribute information of the missing value is determined for the filling of missing values filling properties, the relationship between the corresponding attribute and other attributes value considering the lack of, can improve the effectiveness and correctness of data filling, improve processing the speed of the missing value, reduce the value required to handle missing time.
【技术实现步骤摘要】
数据处理的方法及装置
本专利技术涉及信息处理
,尤其涉及一种数据处理的方法及装置。
技术介绍
近年来,随着信息处理技术的发展,大数据被越来越多的应用到了导航系统或城市规划等各个领域。目前的大数据架构通常是以数据流为导向来进行数据处理的,即,首先从数据源获取数据并将获取到的数据进行存储,然后对数据进行预处理,再根据预处理后的数据进行数据建模、数据分析与数据挖掘,最后实现数据变现。由此可见,数据预处理是大数据结构中整个数据处理过程的基础,其质量与精准度可能会直接影响到后续环节中数据维度建模的指标定义、数据挖掘算法的选择或数据的准确性度量等,是数据处理过程的重要环节之一。数据预处理的过程中通常会涉及到对数据中的缺失值进行处理,现有技术中,在对数据进行处理时一般会采用人工填写、删除含缺失值的记录数据(即删除法)、使用特殊字符(如NULL)填充、或者使用统计学上的均值或众数进行缺失值的填补等方法对数据中的缺失值进行处理。但是,当数据量较多或达到一定级别时,人工填写需耗费较多的时间与精力,无法满足数据流实时快速传输与处理的需求;删除含缺失值的记录数据、使用统一的特殊字符或者使用统计学上的均值或众数进行缺失值填充不具有针对性,会导致数据准精确性和有效性降低,由此可见,现有技术无法同时满足缺失值处理的高效率和高精度的要求。
技术实现思路
有鉴于此,本专利技术实施例提供一种数据处理的方法及装置,以解决现有技术中的数据处理方法无法同时满足缺失值处理的高效率和高精度的要求的技术问题。第一方面,本专利技术实施例提供了一种数据处理的方法,包括:获取数据样本,所述数据样本包括包含缺 ...
【技术保护点】
一种数据处理的方法,其特征在于,包括:获取数据样本,所述数据样本包括包含缺失值的数据样本和未包含缺失值的数据样本;根据所述未包含缺失值的数据样本的各属性项的属性信息确定所述未包含缺失值的数据样本的各属性项中与所述缺失值对应的频繁项集;从所述频繁项集中选择填充属性项;根据所述填充属性项中与所述包含缺失值的数据样本中的缺失值的对应属性的属性值确定填充值,并根据所述填充值更新所述包含缺失值的数据样本。
【技术特征摘要】
1.一种数据处理的方法,其特征在于,包括:获取数据样本,所述数据样本包括包含缺失值的数据样本和未包含缺失值的数据样本;根据所述未包含缺失值的数据样本的各属性项的属性信息确定所述未包含缺失值的数据样本的各属性项中与所述缺失值对应的频繁项集;从所述频繁项集中选择填充属性项;根据所述填充属性项中与所述包含缺失值的数据样本中的缺失值的对应属性的属性值确定填充值,并根据所述填充值更新所述包含缺失值的数据样本。2.根据权利要求1所述的方法,其特征在于,所述属性信息包括属性项的支持度信息和置信度信息,相应的,所述根据所述未包含缺失值的数据样本的各属性项的属性信息确定所述未包含缺失值的数据样本的各属性项中与所述缺失值对应的频繁项集,包括:根据所述数据样本中与所述缺失值对应的属性的非缺失率确定与所述缺失值相对应的最小支持阈值和最小置信阈值;从所述未包括缺失值的数据样本中选取支持度信息大于或等于最小支持阈值的属性项组成候选频繁项集,所述属性项包含与所述缺失值对应的属性的属性值;从所述候选频繁项集中选取置信度信息大于或等于最小置信阈值的属性项组成与所述缺失值对应的频繁项集。3.根据权利要求2所述的方法,其特征在于,所述根据所述数据样本中与所述缺失值对应的属性的非缺失率确定与所述缺失值相对应的最小支持阈值和最小置信阈值,包括:如果Rnm≥90%,则MinSup=1-Rnm;如果60%≤Rnm<90%,则MinSup=1-0.9×Rnm;如果Rnm<60%,则MinSup=Rnm;其中,Rnm为所述数据样本中与所述缺失值对应的属性的非缺失率,MinSup为与所述缺失值相对应的最小支持阈值。4.根据权利要求3所述的方法,其特征在于,所述根据所述数据样本中与所述缺失值对应的属性的非缺失率确定与所述缺失值相对应的最小支持阈值和最小置信阈值,还包括:如果Rnm≥90%,则MinCon=0.92;如果80%≤Rnm<90%,则MinCon=0.9×Rnm+0.1;如果70%≤Rnm<80%,则MinCon=0.95×Rnm+0.1;如果Rnm<70%,则MinCon=0.75;其中,Rnm为所述数据样本中与所述缺失值对应的属性的非缺失率,MinCon为与所述缺失值相对应的最小置信阈值。5.根据权利要求1所述的方法,其特征在于,所述从所述频繁项集中选择填充属性项,具体为:根据所述频繁项集中各属性项的支持度信息和/或对应的有效属性值个数,确定与所述缺失值对应的填充属性项,其中,所述有效...
【专利技术属性】
技术研发人员:徐骄,
申请(专利权)人:广州视源电子科技股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。