The embodiment of the invention discloses a method and a device for updating data. The method includes: obtaining the missing attribute and non missing attribute data in a sample of first rate information; according to the first appeared in each attribute rate information to calculate the missing attribute values corresponding to the second rate of information; according to the second filling rate information to determine with the first sample data and according to the corresponding values. The fill value updates the first data sample. The embodiment of the invention adopts the technical scheme, according to the attribute missing attribute values corresponding to the missing values in the data contained in the sample rate and contains information to determine the absence of data in the sample value corresponding to the filling value, can improve the effectiveness of the filling power and improve the processing data information. The speed of the missing value, reduce the time required to deal with the missing data, and then improve the average rate of accuracy of subsequent data processing and the data processing process.
【技术实现步骤摘要】
数据更新的方法及装置
本专利技术涉及信息处理
,尤其涉及一种数据更新的方法及装置。
技术介绍
近年来,随着信息处理技术的发展,大数据被越来越多的应用到了导航系统或城市规划等各个领域。目前的大数据架构通常是以数据流为导向来进行数据处理的,即,首先从数据源获取数据并将获取到的数据进行存储,然后对数据进行预处理,再根据预处理后的数据进行数据建模、数据分析与数据挖掘,最后实现数据变现。由此可见,数据预处理是大数据结构中整个数据处理过程的基础,其质量与精准度可能会直接影响到后续环节中数据维度建模的指标定义、数据挖掘算法的选择或数据的准确性度量等,是数据处理过程的重要环节之一。数据预处理的过程中通常会涉及到对数据中的缺失值进行处理,现有技术中,在对数据进行处理时一般会采用人工填写、删除含缺失值的记录数据(即删除法)、使用特殊字符(如NULL)填充、或者使用统计学上的均值或众数进行缺失值的填补等方法对数据中的缺失值进行处理。但是,当数据量较多或达到一定级别时,人工填写需耗费较多的时间与精力,无法满足数据流实时快速传输与处理的需求;删除含缺失值的记录数据、使用统一的特殊字符或者使用统计学上的均值或众数进行缺失值填充不具有针对性,会导致数据准精确性和有效性降低,由此可见,现有技术无法同时满足缺失值处理的高效率和高精度的要求。
技术实现思路
有鉴于此,本专利技术实施例提供一种数据更新的方法及装置,以解决现有技术中的数据处理方法无法同时满足缺失值处理的高效率和高精度的要求的技术问题。第一方面,本专利技术实施例提供了一种数据更新的方法,包括:获取数据样本中缺失属性和非缺失属性的 ...
【技术保护点】
一种数据更新的方法,其特征在于,包括:获取数据样本中缺失属性和非缺失属性的第一出现率信息,所述数据样本包括包含缺失值的第一数据样本和未包含缺失值的第二数据样本,所述缺失属性为所述第一数据样本中缺失值对应的属性;根据所述第一出现率信息计算所述缺失属性对应的各属性值的第二出现率信息,所述第二出现率信息为缺失属性对应的各属性值在所述第一数据样本中出现的出现率信息;根据所述第二出现率信息确定与所述第一数据样本对应的填充值,并根据所述填充值更新所述第一数据样本。
【技术特征摘要】
1.一种数据更新的方法,其特征在于,包括:获取数据样本中缺失属性和非缺失属性的第一出现率信息,所述数据样本包括包含缺失值的第一数据样本和未包含缺失值的第二数据样本,所述缺失属性为所述第一数据样本中缺失值对应的属性;根据所述第一出现率信息计算所述缺失属性对应的各属性值的第二出现率信息,所述第二出现率信息为缺失属性对应的各属性值在所述第一数据样本中出现的出现率信息;根据所述第二出现率信息确定与所述第一数据样本对应的填充值,并根据所述填充值更新所述第一数据样本。2.根据权利要求1所述的方法,其特征在于,所述第一出现率信息包括缺失属性对应的各属性值在第二数据样本中的第一子出现率信息以及所述第一数据样本中各非缺失属性的属性值在第二数据样本中以缺失属性对应的属性值为条件的第二子出现率信息;所述根据所述第一出现率信息计算缺失属性对应的各属性值的第二出现率信息包括:根据公式计算缺失属性对应的各属性值的第二出现率信息,其中,P(yi|R)为所述缺失属性对应的属性值yi的第二出现率信息,P(yi)为所述缺失属性对应的属性值yi的第一子出现率信息,P(Rj|yi)为属性值Rj以属性值yi为条件的第二子出现率信息,所述属性值Rj为所第一数据样本中非缺失属性的属性值。3.根据权利要求1所述的方法,其特征在于,所述第一出现率信息包括所述缺失属性对应的各属性值在第二数据样本中的第一子出现率信息、所述第一数据样本中各非缺失属性的属性值在第二数据样本中以缺失属性对应的属性值为条件的第二子出现率信息以及所述第一数据样本非缺失属性的属性值对应的权重值信息;所述根据所述第一出现率信息计算缺失属性对应的各属性值的第二出现率信息包括:根据公式计算缺失属性对应的各属性值的第二出现率信息,其中,P(yi|R)为所述缺失属性对应的属性值yi在的第二出现率信息,P(yi)为所述缺失属性对应的属性值yi的第一子出现率信息,Wj为属性值Rj对应的权重值信息,P(Rj|yi)为属性值Rj以属性值yi为条件的第二子出现率信息,所述属性值Rj为所述第一数据样本中非缺失属性的属性值。4.根据权利要求1所述的方法,其特征在于,在所述获取数据样本中缺失属性和非缺失属性的第一出现率信息之前,还包括:对第二数据样本进行训练以确定数据样本中缺失属性和非缺失属性的第一出现率信息。5.根据权利要求4所述的方法,其特征在于,所述对第二数据样本进行训练以确定数据样本中缺失属性和非缺失属性的第一出现率信息,包括:按照设定比例将第二数据样本划分为训练样本集和测试样本集;对所述训练样本集进行训练以确定数据样本中缺失属性和非缺失属性的当前出现率信息;采用所述测试样本集对所述当前出现率信息进行测试以生成测试结果;如果所述测试结果符合设定的准确率阈值,则结束训练操作;否则,则重新划分训练样本集和测试样本集,并对重新划分后的训练样本集进行训练直至所述测试结果符合设定的准确率阈值为止;将结束训练时的当前出现率信息标记为数据样本中缺失属性和非缺失属性的第一出现率信息。6.根据权利要求1-5任一所述的方法,其特征在于,所述非缺失属性为...
【专利技术属性】
技术研发人员:徐骄,
申请(专利权)人:广州视源电子科技股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。