数据清理方法及装置制造方法及图纸

技术编号:15791953 阅读:284 留言:0更新日期:2017-07-09 22:44
本发明专利技术提供一种数据清理方法及装置。该方法包括:在历史表单库中选取与当前表单具有相同描述对象的历史表单,当前表单中含有m个标题字段,历史表单中含有n个标题字段,其中m和n为正整数;按照第一预设算法计算m个标题字段中每个标题字段与n个标题字段中的每个标题字段之间的相似度;针对任一相似度SIM(i,j),若按照预设匹配规则判定出第i标题字段和第j标题字段匹配,则获取第j标题字段的约束条件;对第i标题字段对应的数据中不符合约束条件的数据进行数据清理。本发明专利技术提供的数据清理方法及装置提高了数据清理的效率和准确性,提高了数据源的准确性和可靠性。

【技术实现步骤摘要】
数据清理方法及装置
本专利技术涉及数据清理技术,尤其涉及一种数据清理方法及装置。
技术介绍
随着信息技术快速发展,大数据时代到来,各行各业开始建立信息系统并积累大量的数据。而数据的准确性,则是各种数据分析的基本条件。然而,现实中由于采集、传输、存储、处理过程中的各种原因,数据的准确性问题普遍存在。数据清理的目的是检测数据中存在的错误数据,剔除或者改正错误数据,以提高数据的准确性和质量。常见的数据错误包括空值、取值越界等。现有技术中,为了剔除或者改正错误数据,常见的数据清理方法主要为基于领域专用语言的编程数据清理方法,具体地,研发人员每次对表单进行数据清理时,研发人员为该表单制定错误数据的清理规则,然后根据错误数据的清理规则,确定具体的清理算法,再根据清理算法,编写数据清理程序,最后通过该数据清理程序实现数据的自动检测和修正。然而,通过数据清理程序实现数据的自动检测和修正,虽然实现了对数据的自动检测和修正,但是该方法要求研发人员在每次清理数据时,都要编写或修改数据清理程序,不仅对研发人员的要求较高,而且效率低下,使得现有技术的数据清理方法不具有普适性和易用性。
技术实现思路
本专利技术实施例提供一种数据清理方法及装置,以克服现有数据清理方法效率低,不具有普适性和易用性问题。本专利技术实施例一方面提供一种数据清理方法,包括:在历史表单库中选取与当前表单具有相同描述对象的历史表单,当前表单中含有m个标题字段,历史表单中含有n个标题字段,其中m和n为正整数;按照第一预设算法计算m个标题字段中每个标题字段与n个标题字段中的每个标题字段之间的相似度;针对任一相似度SIM(i,j),若按照预设匹配规则判定出第i标题字段和第j标题字段匹配,则获取第j标题字段的约束条件;其中i表示m个标题字段中的第i标题字段,j表示n个标题字段中的第j标题字段,i的取值包括不大于m的所有自然数,j的取值包括不大于n的所有自然数;对第i标题字段对应的数据中不符合约束条件的数据进行数据清理。通过结合历史表单库中的具有相同描述对象的历史表单,将历史表单的标题字段的约束条件适应性的应用到当前表单的标题字段中,基于该约束条件对当前表单的标题字段对应的数据进行数据清理,无需研发人员在每次进行数据清理时进行清理算法代码程序的编写和维护,降低了用户的使用门槛,具有广泛的适用性,同时减少了人工进行数据清理的工作强度;也实现了数据库中大数据的自动清洗,提高了数据清理的效率和准确性,提高了数据源的准确性和可靠性。进一步地,针对任一相似度SIM(i,j),按照预设匹配规则判定出第i标题字段和第j标题字段匹配包括:若相似度SIM(i,j)大于第一预设值,则判定出m个标题字段中的第i标题字段和n个标题字段中的第j标题字段匹配。进一步地,针对任一相似度SIM(i,j),按照预设匹配规则判定出第i标题字段和第j标题字段匹配包括:若相似度SIM(i,j)不大于第一预设值且m、n大于1时,依据当前表单的预设字段关联关系确定出k个标题字段,对k个标题字段中的第s标题字段,在第s标题字段与m个标题字段中的每个标题字段之间的相似度中,确定最大的相似度SIMs,其中s的取值包括不大于k的所有自然数,k为依据当前表单的预设字段关联关系确定出的与第i标题字段关联的标题字段的总个数,其中k小于m;根据相似度SIMs通过第二预设算法对SIM(i,j)进行修正,得到修正后的相似度SIM0(i,j);若SIM0(i,j)大于第一预设值,则判定出m个标题字段中的第i标题字段和n个标题字段中的第j标题字段匹配。进一步地,针对任一相似度SIM(i,j),按照预设匹配规则判定出第i标题字段和第j标题字段匹配包括:若相似度SIM(i,j)不大于第一预设值且m、n大于1时,依据当前表单的预设字段关联关系确定出k个标题字段,对k个标题字段中的第s标题字段,在第s标题字段与n个标题字段中的每个标题字段之间的相似度中,确定最大的相似度SIMs,其中s的取值包括不大于k的所有自然数,k为依据当前表单的预设字段关联关系确定出的与第i标题字段关联的标题字段的总个数,其中k小于m;根据相似度SIMs通过第二预设算法对SIM(i,j)进行修正,得到修正后的相似度SIM0(i,j);若SIM0(i,j)不大于第一预设值,则对SIM0(i,j)进行持续修正Y次后,得到SIM0+Y(i,j),若SIM0+Y(i,j)大于第一预设值时,则判定出m个标题字段中的第i标题字段和n个标题字段中的第j标题字段匹配;其中,在第y次修正中,根据相似度SIMs通过第二预设算法对SIM0+y-1(i,j)进行修正,得到SIM0+y(i,j),y的取值包括不大于Y的正整数。进一步地,第二预设算法为如下所示的公式:其中,SIM为待修正的相似度,SIM*为修正后的相似度,a为预设权重系数。在确定匹配标题字段的过程中,通过利用表单中预设的标题字段间关联关系,对标题字段的相似度进行修正,得到修正后的更为准确的相似度,可确定出更多匹配标题字段,获得更多的约束条件,提高了数据清理的效率。进一步地,按照第一预设算法计算m个标题字段中每个标题字段与n个标题字段中的每个标题字段之间的相似度,包括:按照当前表单中的m个标题字段的标题字段名称与历史表单中的n个标题字段的标题字段名称的重合度,获取m个标题字段中每个标题字段与n个标题字段中的每个标题字段之间的相似度;或者按照当前表单中的m个标题字段的标题字段名称与历史表单中的n个标题字段的标题字段名称,根据第三方知识库获取m个标题字段中每个标题字段与n个标题字段中的每个标题字段之间的相似度;或者按照当前表单中的m个标题字段的字段取值集与历史表单中的n个标题字段的字段取值集的重合度,获取m个标题字段中每个标题字段与n个标题字段中的每个标题字段之间的相似度。进一步地,按照当前表单中的m个标题字段的字段取值集与历史表单中的n个标题字段的字段取值集的重合度,获取m个标题字段中每个标题字段与n个标题字段中的每个标题字段之间的相似度,包括:当当前表单中的m个标题字段的字段取值集为离散型时,通过如下公式确定相似度:其中,表示第i标题字段的字段取值集,表示第j标题字段的字段取值集;或者当当前表单中的m个标题字段的字段取值集为连续型时,通过如下公式确定相似度:其中,max1表示第i标题字段的最大值,min1表示第i标题字段的最小值,max2表示第j标题字段的最大值,min2表示第j标题字段的最小值。进一步地,对当前表单进行数据清理之后,还包括:将当前表单以及当前表单的约束条件存储至历史表单库中。下面介绍本专利技术实施例提供的一种数据清理装置,该装置与方法一一对应,用以实现上述实施例中的数据清理方法,具有相同的技术特征和技术效果,本专利技术对此不再赘述。本专利技术实施例另一方面提供一种数据清理装置,包括:历史表单获取模块,用于在历史表单库中选取与当前表单具有相同描述对象的历史表单,当前表单中含有m个标题字段,历史表单中含有n个标题字段,其中m和n为正整数;相似度计算模块,用于按照第一预设算法计算历史表单获取模块获取的m个标题字段中每个标题字段与n个标题字段中的每个标题字段之间的相似度;匹配模块,用于针对相似度计算模块计算得到的本文档来自技高网...
数据清理方法及装置

【技术保护点】
一种数据清理方法,其特征在于,所述方法包括:在历史表单库中选取与当前表单具有相同描述对象的历史表单,所述当前表单中含有m个标题字段,所述历史表单中含有n个标题字段,其中m和n为正整数;按照第一预设算法计算所述m个标题字段中每个标题字段与所述n个标题字段中的每个标题字段之间的相似度;针对任一相似度SIM(i,j),若按照预设匹配规则判定出第i标题字段和第j标题字段匹配,则获取所述第j标题字段的约束条件;其中i表示所述m个标题字段中的第i标题字段,j表示所述n个标题字段中的第j标题字段,i的取值包括不大于m的所有自然数,j的取值包括不大于n的所有自然数;对所述第i标题字段对应的数据中不符合所述约束条件的数据进行数据清理。

【技术特征摘要】
1.一种数据清理方法,其特征在于,所述方法包括:在历史表单库中选取与当前表单具有相同描述对象的历史表单,所述当前表单中含有m个标题字段,所述历史表单中含有n个标题字段,其中m和n为正整数;按照第一预设算法计算所述m个标题字段中每个标题字段与所述n个标题字段中的每个标题字段之间的相似度;针对任一相似度SIM(i,j),若按照预设匹配规则判定出第i标题字段和第j标题字段匹配,则获取所述第j标题字段的约束条件;其中i表示所述m个标题字段中的第i标题字段,j表示所述n个标题字段中的第j标题字段,i的取值包括不大于m的所有自然数,j的取值包括不大于n的所有自然数;对所述第i标题字段对应的数据中不符合所述约束条件的数据进行数据清理。2.根据权利要求1所述的方法,其特征在于,所述针对任一相似度SIM(i,j),按照预设匹配规则判定出第i标题字段和第j标题字段匹配包括:若所述相似度SIM(i,j)大于第一预设值,则判定出所述m个标题字段中的第i标题字段和所述n个标题字段中的第j标题字段匹配。3.根据权利要求1所述的方法,其特征在于,所述针对任一相似度SIM(i,j),按照预设匹配规则判定出第i标题字段和第j标题字段匹配包括:若所述相似度SIM(i,j)不大于第一预设值且m、n大于1时,依据所述当前表单的预设字段关联关系确定出k个标题字段,对所述k个标题字段中的第s标题字段,在所述第s标题字段与所述n个标题字段中的每个标题字段之间的相似度中,确定最大的相似度SIMs,其中s的取值包括不大于k的所有自然数,k为依据所述当前表单的预设字段关联关系确定出的与所述第i标题字段关联的标题字段的总个数,其中k小于m;根据所述相似度SIMs通过第二预设算法对所述SIM(i,j)进行修正,得到修正后的相似度SIM0(i,j);若所述SIM0(i,j)大于所述第一预设值,则判定出所述m个标题字段中的第i标题字段和所述n个标题字段中的第j标题字段匹配。4.根据权利要求1所述的方法,其特征在于,所述针对任一相似度SIM(i,j),按照预设匹配规则判定出第i标题字段和第j标题字段匹配包括:若所述相似度SIM(i,j)不大于第一预设值且m、n大于1时,依据所述当前表单的预设字段关联关系确定出k个标题字段,对所述k个标题字段中的第s标题字段,在所述第s标题字段与所述n个标题字段中的每个标题字段之间的相似度中,确定最大的相似度SIMs,其中s的取值包括不大于k的所有自然数,k为依据所述当前表单的预设字段关联关系确定出的与所述第i标题字段关联的标题字段的总个数,其中k小于m;根据所述相似度SIMs通过第二预设算法对所述SIM(i,j)进行修正,得到修正后的相似度SIM0(i,j);若所述SIM0(i,j)不大于所述第一预设值,则对SIM0(i,j)进行持续修正Y次后,得到SIM0+Y(i,j),若所述SIM0+Y(i,j)大于所述第一预设值时,则判定出所述m个标题字段中的第i标题字段和所述n个标题字段中的第j标题字段匹配;其中,在第y次修正中,根据所述相似度SIMs通过第二预设算法对SIM0+y-1(i,j)进行修正,得到SIM0+y(i,j),y的取值包括不大于Y的正整数。5.根据权利要求3或4所述的方法,其特征在于,所述第二预设算法为如下所示的公式一:其中,SIM为待修正的相似度,SIM*为修正后的相似度,a为预设权重系数。6.根据权利要求1所述的方法,其特征在于,所述按照第一预设算法计算所述m个标题字段中每个标题字段与所述n个标题字段中的每个标题字段之间的相似度,包括:按照所述当前表单中的所述m个标题字段的标题字段名称与所述历史表单中的所述n个标题字段的标题字段名称的重合度,获取所述m个标题字段中每个标题字段与所述n个标题字段中的每个标题字段之间的相似度;或者按照所述当前表单中的所述m个标题字段的标题字段名称与所述历史表单中的所述n个标题字段的标题字段名称,根据第三方知识库获取所述m个标题字段中每个标题字段与所述n个标题字段中的每个标题字段之间的相似度;或者按照所述当前表单中的所述m个标题字段的字段取值集与所述历史表单中的所述n个标题字段的字段取值集的重合度,获取所述m个标题字段中每个标题字段与所述n个标题字段中的每个标题字段之间的相似度。7.根据权利要求6所述的方法,其特征在于,所述按照所述当前表单中的所述m个标题字段的字段取值集与所述历史表单中的所述n个标题字段的字段取值集的重合度,获取所述m个标题字段中每个标题字段与所述n个标题字段中的每个标题字段之间的相似度,包括:当所述当前表单中的所述m个标题字段的字段取值集为离散型时,通过如下公式二确定所述相似度:其中,表示第i标题字段的字段取值集,表示第j标题字段的字段取值集;或者当所述当前表单中的所述m个标题字段的字段取值集为连续型时,通过如下公式三确定所述相似度:其中,max1表示第i标题字段的最大值,min1表示第i标题字段的最小值,max2表示第j标题字段的最大值,min2表示第j标题字段的最小值。8.一种数据清理装置,其特征在于,所述装置包括:历史表单获取模块,用于在历史表单库中选取与当前表单具有相同描...

【专利技术属性】
技术研发人员:蒋瑜
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1