【技术实现步骤摘要】
数据清理方法及装置
本专利技术涉及数据清理技术,尤其涉及一种数据清理方法及装置。
技术介绍
随着信息技术快速发展,大数据时代到来,各行各业开始建立信息系统并积累大量的数据。而数据的准确性,则是各种数据分析的基本条件。然而,现实中由于采集、传输、存储、处理过程中的各种原因,数据的准确性问题普遍存在。数据清理的目的是检测数据中存在的错误数据,剔除或者改正错误数据,以提高数据的准确性和质量。常见的数据错误包括空值、取值越界等。现有技术中,为了剔除或者改正错误数据,常见的数据清理方法主要为基于领域专用语言的编程数据清理方法,具体地,研发人员每次对表单进行数据清理时,研发人员为该表单制定错误数据的清理规则,然后根据错误数据的清理规则,确定具体的清理算法,再根据清理算法,编写数据清理程序,最后通过该数据清理程序实现数据的自动检测和修正。然而,通过数据清理程序实现数据的自动检测和修正,虽然实现了对数据的自动检测和修正,但是该方法要求研发人员在每次清理数据时,都要编写或修改数据清理程序,不仅对研发人员的要求较高,而且效率低下,使得现有技术的数据清理方法不具有普适性和易用性。
技术实现思路
本专利技术实施例提供一种数据清理方法及装置,以克服现有数据清理方法效率低,不具有普适性和易用性问题。本专利技术实施例一方面提供一种数据清理方法,包括:在历史表单库中选取与当前表单具有相同描述对象的历史表单,当前表单中含有m个标题字段,历史表单中含有n个标题字段,其中m和n为正整数;按照第一预设算法计算m个标题字段中每个标题字段与n个标题字段中的每个标题字段之间的相似度;针对任一相似度SIM( ...
【技术保护点】
一种数据清理方法,其特征在于,所述方法包括:在历史表单库中选取与当前表单具有相同描述对象的历史表单,所述当前表单中含有m个标题字段,所述历史表单中含有n个标题字段,其中m和n为正整数;按照第一预设算法计算所述m个标题字段中每个标题字段与所述n个标题字段中的每个标题字段之间的相似度;针对任一相似度SIM(i,j),若按照预设匹配规则判定出第i标题字段和第j标题字段匹配,则获取所述第j标题字段的约束条件;其中i表示所述m个标题字段中的第i标题字段,j表示所述n个标题字段中的第j标题字段,i的取值包括不大于m的所有自然数,j的取值包括不大于n的所有自然数;对所述第i标题字段对应的数据中不符合所述约束条件的数据进行数据清理。
【技术特征摘要】
1.一种数据清理方法,其特征在于,所述方法包括:在历史表单库中选取与当前表单具有相同描述对象的历史表单,所述当前表单中含有m个标题字段,所述历史表单中含有n个标题字段,其中m和n为正整数;按照第一预设算法计算所述m个标题字段中每个标题字段与所述n个标题字段中的每个标题字段之间的相似度;针对任一相似度SIM(i,j),若按照预设匹配规则判定出第i标题字段和第j标题字段匹配,则获取所述第j标题字段的约束条件;其中i表示所述m个标题字段中的第i标题字段,j表示所述n个标题字段中的第j标题字段,i的取值包括不大于m的所有自然数,j的取值包括不大于n的所有自然数;对所述第i标题字段对应的数据中不符合所述约束条件的数据进行数据清理。2.根据权利要求1所述的方法,其特征在于,所述针对任一相似度SIM(i,j),按照预设匹配规则判定出第i标题字段和第j标题字段匹配包括:若所述相似度SIM(i,j)大于第一预设值,则判定出所述m个标题字段中的第i标题字段和所述n个标题字段中的第j标题字段匹配。3.根据权利要求1所述的方法,其特征在于,所述针对任一相似度SIM(i,j),按照预设匹配规则判定出第i标题字段和第j标题字段匹配包括:若所述相似度SIM(i,j)不大于第一预设值且m、n大于1时,依据所述当前表单的预设字段关联关系确定出k个标题字段,对所述k个标题字段中的第s标题字段,在所述第s标题字段与所述n个标题字段中的每个标题字段之间的相似度中,确定最大的相似度SIMs,其中s的取值包括不大于k的所有自然数,k为依据所述当前表单的预设字段关联关系确定出的与所述第i标题字段关联的标题字段的总个数,其中k小于m;根据所述相似度SIMs通过第二预设算法对所述SIM(i,j)进行修正,得到修正后的相似度SIM0(i,j);若所述SIM0(i,j)大于所述第一预设值,则判定出所述m个标题字段中的第i标题字段和所述n个标题字段中的第j标题字段匹配。4.根据权利要求1所述的方法,其特征在于,所述针对任一相似度SIM(i,j),按照预设匹配规则判定出第i标题字段和第j标题字段匹配包括:若所述相似度SIM(i,j)不大于第一预设值且m、n大于1时,依据所述当前表单的预设字段关联关系确定出k个标题字段,对所述k个标题字段中的第s标题字段,在所述第s标题字段与所述n个标题字段中的每个标题字段之间的相似度中,确定最大的相似度SIMs,其中s的取值包括不大于k的所有自然数,k为依据所述当前表单的预设字段关联关系确定出的与所述第i标题字段关联的标题字段的总个数,其中k小于m;根据所述相似度SIMs通过第二预设算法对所述SIM(i,j)进行修正,得到修正后的相似度SIM0(i,j);若所述SIM0(i,j)不大于所述第一预设值,则对SIM0(i,j)进行持续修正Y次后,得到SIM0+Y(i,j),若所述SIM0+Y(i,j)大于所述第一预设值时,则判定出所述m个标题字段中的第i标题字段和所述n个标题字段中的第j标题字段匹配;其中,在第y次修正中,根据所述相似度SIMs通过第二预设算法对SIM0+y-1(i,j)进行修正,得到SIM0+y(i,j),y的取值包括不大于Y的正整数。5.根据权利要求3或4所述的方法,其特征在于,所述第二预设算法为如下所示的公式一:其中,SIM为待修正的相似度,SIM*为修正后的相似度,a为预设权重系数。6.根据权利要求1所述的方法,其特征在于,所述按照第一预设算法计算所述m个标题字段中每个标题字段与所述n个标题字段中的每个标题字段之间的相似度,包括:按照所述当前表单中的所述m个标题字段的标题字段名称与所述历史表单中的所述n个标题字段的标题字段名称的重合度,获取所述m个标题字段中每个标题字段与所述n个标题字段中的每个标题字段之间的相似度;或者按照所述当前表单中的所述m个标题字段的标题字段名称与所述历史表单中的所述n个标题字段的标题字段名称,根据第三方知识库获取所述m个标题字段中每个标题字段与所述n个标题字段中的每个标题字段之间的相似度;或者按照所述当前表单中的所述m个标题字段的字段取值集与所述历史表单中的所述n个标题字段的字段取值集的重合度,获取所述m个标题字段中每个标题字段与所述n个标题字段中的每个标题字段之间的相似度。7.根据权利要求6所述的方法,其特征在于,所述按照所述当前表单中的所述m个标题字段的字段取值集与所述历史表单中的所述n个标题字段的字段取值集的重合度,获取所述m个标题字段中每个标题字段与所述n个标题字段中的每个标题字段之间的相似度,包括:当所述当前表单中的所述m个标题字段的字段取值集为离散型时,通过如下公式二确定所述相似度:其中,表示第i标题字段的字段取值集,表示第j标题字段的字段取值集;或者当所述当前表单中的所述m个标题字段的字段取值集为连续型时,通过如下公式三确定所述相似度:其中,max1表示第i标题字段的最大值,min1表示第i标题字段的最小值,max2表示第j标题字段的最大值,min2表示第j标题字段的最小值。8.一种数据清理装置,其特征在于,所述装置包括:历史表单获取模块,用于在历史表单库中选取与当前表单具有相同描...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。