The invention provides a data cleaning method and a data cleaning device. The data cleaning method includes obtaining the original sample data to be cleaned, determining at least one data screening mechanism for cleaning the original sample data, and obtaining a user based on the original sample data for each of the data screening mechanisms. The selected screening values are selected; the original sample data is screened according to the at least one data screening mechanism and the user set selected values to clean the original sample data. The technical scheme of the invention can fully clean the original sample data, and can reduce the dependence of the data cleaning process to the operator, ensure the accuracy and stability of the data cleaning results, and can also effectively shorten the length of the data cleaning.
【技术实现步骤摘要】
数据清洗方法及数据清洗装置
本专利技术涉及数据处理
,具体而言,涉及一种数据清洗方法及数据清洗装置。
技术介绍
在用户的定量研究和轻量级数据的处理过程中,均需对数据进行清洗处理,以剔除异常数据,保证数据结果的信度和效度。目前,因调研数据和轻量级数据的多变性,对数据往往采取人工清洗的方式,缺少统一、标准的清洗流程,人工清洗的方式主要存在以下问题:1、数据清洗耗时长,人工清洗的方式依赖于操作人员进行数据判断,且判断后需要一步步完成清洗,需要大量时间;2、数据清洗容易出现遗漏,操作人员在进行大量数据操作时会因为某些条件遗漏而导致部分样本未被清洗;3、数据清洗结果不稳定,数据清洗的结果会因操作人员的不同而出现清洗结果不一致的问题;4、数据清洗过程不可回溯,当出现清洗失误时无法回查修正;5、数据清洗结果核查费时费力,清洗完成后需对数据进行重新统计,核查数据清洗结果。因此需要一种新的数据清洗方案来对数据进行清洗。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本专利技术的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本专利技术 ...
【技术保护点】
1.一种数据清洗方法,其特征在于,包括:获取待清洗的原始样本数据;确定对所述原始样本数据进行清洗的至少一种数据筛选机制,并获取用户根据所述原始样本数据对每种所述数据筛选机制设定的筛选值;根据所述至少一种数据筛选机制和用户设定的所述筛选值对所述原始样本数据进行筛选,以对所述原始样本数据进行清洗。
【技术特征摘要】
1.一种数据清洗方法,其特征在于,包括:获取待清洗的原始样本数据;确定对所述原始样本数据进行清洗的至少一种数据筛选机制,并获取用户根据所述原始样本数据对每种所述数据筛选机制设定的筛选值;根据所述至少一种数据筛选机制和用户设定的所述筛选值对所述原始样本数据进行筛选,以对所述原始样本数据进行清洗。2.根据权利要求1所述的数据清洗方法,其特征在于,在所述至少一种数据筛选机制包括样本剔除机制、且所述筛选值包括目标样本特征的情况下,对所述原始样本数据进行筛选的步骤,包括:对所述原始样本数据进行分析,以得到所述原始样本数据中的至少一个样本特征和每个样本特征对应于的样本数据;将与所述目标样本特征相对应的样本数据作为筛选出的样本数据,并删除所述原始样本数据中的其它样本数据。3.根据权利要求1所述的数据清洗方法,其特征在于,在所述至少一种数据筛选机制包括评分矩阵筛选、且所述筛选值包括评分矩阵题目的起止位置的情况下,对所述原始样本数据进行筛选的步骤,包括:针对所述原始样本数据中的任一样本数据,计算所述任一样本数据中的评分矩阵题目的答题数;判断所述答题数是否等于所述任一样本数据中的评分矩阵题目的总数目;若所述答题数等于所述总数目,则计算所述任一样本数据对应的评分矩阵的方差,并根据所述任一样本数据对应的评分矩阵的方差确定是否将所述任一样本数据从所述原始样本数据中删除;若所述答题数不等于所述总数目,则将所述任一样本数据从所述原始样本数据中删除。4.根据权利要求3所述的数据清洗方法,其特征在于,根据所述任一样本数据对应的评分矩阵的方差确定是否将所述任一样本数据从所述原始样本数据中删除的步骤,包括:若所述任一样本数据对应的评分矩阵的方差为0,则将所述任一样本数据从所述原始样本数据中删除;若所述任一样本数据对应的评分矩阵的方差不为0,则在所述原始样本数据中保留所述任一样本数据。5.根据权利要求1所述的数据清洗方法,其特征在于,在所述至少一种数据筛选机制包括作答时间筛选、且所述筛选值包括作答时间存储位置的情况下,对所述原始样本数据进行筛选的步骤,包括:针对所述原始样本数据中的任一样本数据,根据所述作答时间存储位置获取所述任一样本数据的作答时间;判断所述任一样本数据的作答时间是否与所述任一样本数据对应的作答标准时间相匹配;若所述任一样本数据的作答时间与所述作答标准时间不匹配,则将所述任一样本数据从所述原始样本数据中删除;若所述任一样本数据的作答时间与所述作答标准时间相匹配,则在所述原始样本数据中保留所述任一样本数据。6.根据权利要求5所述的数据清洗方法,其特征在于,还包括:在获取到所述原始样本数据之后,将所述原始样本数据中答题数相同的样本数据归为...
【专利技术属性】
技术研发人员:赵强,杨敏,
申请(专利权)人:北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。