数据清理方法及装置制造方法及图纸

技术编号：15791953 阅读：284 留言：0更新日期：2017-07-09 22:44

本发明专利技术提供一种数据清理方法及装置。该方法包括：在历史表单库中选取与当前表单具有相同描述对象的历史表单，当前表单中含有m个标题字段，历史表单中含有n个标题字段，其中m和n为正整数；按照第一预设算法计算m个标题字段中每个标题字段与n个标题字段中的每个标题字段之间的相似度；针对任一相似度SIM(i,j)，若按照预设匹配规则判定出第i标题字段和第j标题字段匹配，则获取第j标题字段的约束条件；对第i标题字段对应的数据中不符合约束条件的数据进行数据清理。本发明专利技术提供的数据清理方法及装置提高了数据清理的效率和准确性，提高了数据源的准确性和可靠性。

全部详细技术资料下载

【技术实现步骤摘要】
数据清理方法及装置
本专利技术涉及数据清理技术，尤其涉及一种数据清理方法及装置。
技术介绍
随着信息技术快速发展，大数据时代到来，各行各业开始建立信息系统并积累大量的数据。而数据的准确性，则是各种数据分析的基本条件。然而，现实中由于采集、传输、存储、处理过程中的各种原因，数据的准确性问题普遍存在。数据清理的目的是检测数据中存在的错误数据，剔除或者改正错误数据，以提高数据的准确性和质量。常见的数据错误包括空值、取值越界等。现有技术中，为了剔除或者改正错误数据，常见的数据清理方法主要为基于领域专用语言的编程数据清理方法，具体地，研发人员每次对表单进行数据清理时，研发人员为该表单制定错误数据的清理规则，然后根据错误数据的清理规则，确定具体的清理算法，再根据清理算法，编写数据清理程序，最后通过该数据清理程序实现数据的自动检测和修正。然而，通过数据清理程序实现数据的自动检测和修正，虽然实现了对数据的自动检测和修正，但是该方法要求研发人员在每次清理数据时，都要编写或修改数据清理程序，不仅对研发人员的要求较高，而且效率低下，使得现有技术的数据清理方法不具有普适性和易用性。
技术实现思路
本专利技术实施例提供一种数据清理方法及装置，以克服现有数据清理方法效率低，不具有普适性和易用性问题。本专利技术实施例一方面提供一种数据清理方法，包括：在历史表单库中选取与当前表单具有相同描述对象的历史表单，当前表单中含有m个标题字段，历史表单中含有n个标题字段，其中m和n为正整数；按照第一预设算法计算m个标题字段中每个标题字段与n个标题字段中的每个标题字段之间的相似度；针对任一相似度SIM(...
数据清理方法及装置

【技术保护点】
一种数据清理方法，其特征在于，所述方法包括：在历史表单库中选取与当前表单具有相同描述对象的历史表单，所述当前表单中含有m个标题字段，所述历史表单中含有n个标题字段，其中m和n为正整数；按照第一预设算法计算所述m个标题字段中每个标题字段与所述n个标题字段中的每个标题字段之间的相似度；针对任一相似度SIM(i,j)，若按照预设匹配规则判定出第i标题字段和第j标题字段匹配，则获取所述第j标题字段的约束条件；其中i表示所述m个标题字段中的第i标题字段，j表示所述n个标题字段中的第j标题字段，i的取值包括不大于m的所有自然数，j的取值包括不大于n的所有自然数；对所述第i标题字段对应的数据中不符合所述约束条件的数据进行数据清理。

【技术特征摘要】
1.一种数据清理方法，其特征在于，所述方法包括：在历史表单库中选取与当前表单具有相同描述对象的历史表单，所述当前表单中含有m个标题字段，所述历史表单中含有n个标题字段，其中m和n为正整数；按照第一预设算法计算所述m个标题字段中每个标题字段与所述n个标题字段中的每个标题字段之间的相似度；针对任一相似度SIM(i,j)，若按照预设匹配规则判定出第i标题字段和第j标题字段匹配，则获取所述第j标题字段的约束条件；其中i表示所述m个标题字段中的第i标题字段，j表示所述n个标题字段中的第j标题字段，i的取值包括不大于m的所有自然数，j的取值包括不大于n的所有自然数；对所述第i标题字段对应的数据中不符合所述约束条件的数据进行数据清理。2.根据权利要求1所述的方法，其特征在于，所述针对任一相似度SIM(i,j)，按照预设匹配规则判定出第i标题字段和第j标题字段匹配包括：若所述相似度SIM(i,j)大于第一预设值，则判定出所述m个标题字段中的第i标题字段和所述n个标题字段中的第j标题字段匹配。3.根据权利要求1所述的方法，其特征在于，所述针对任一相似度SIM(i,j)，按照预设匹配规则判定出第i标题字段和第j标题字段匹配包括：若所述相似度SIM(i,j)不大于第一预设值且m、n大于1时，依据所述当前表单的预设字段关联关系确定出k个标题字段，对所述k个标题字段中的第s标题字段，在所述第s标题字段与所述n个标题字段中的每个标题字段之间的相似度中，确定最大的相似度SIMs，其中s的取值包括不大于k的所有自然数，k为依据所述当前表单的预设字段关联关系确定出的与所述第i标题字段关联的标题字段的总个数，其中k小于m；根据所述相似度SIMs通过第二预设算法对所述SIM(i,j)进行修正，得到修正后的相似度SIM0(i,j)；若所述SIM0(i,j)大于所述第一预设值，则判定出所述m个标题字段中的第i标题字段和所述n个标题字段中的第j标题字段匹配。4.根据权利要求1所述的方法，其特征在于，所述针对任一相似度SIM(i,j)，按照预设匹配规则判定出第i标题字段和第j标题字段匹配包括：若所述相似度SIM(i,j)不大于第一预设值且m、n大于1时，依据所述当前表单的预设字段关联关系确定出k个标题字段，对所述k个标题字段中的第s标题字段，在所述第s标题字段与所述n个标题字段中的每个标题字段之间的相似度中，确定最大的相似度SIMs，其中s的取值包括不大于k的所有自然数，k为依据所述当前表单的预设字段关联关系确定出的与所述第i标题字段关联的标题字段的总个数，其中k小于m；根据所述相似度SIMs通过第二预设算法对所述SIM(i,j)进行修正，得到修正后的相似度SIM0(i,j)；若所述SIM0(i,j)不大于所述第一预设值，则对SIM0(i,j)进行持续修正Y次后，得到SIM0+Y(i,j)，若所述SIM0+Y(i,j)大于所述第一预设值时，则判定出所述m个标题字段中的第i标题字段和所述n个标题字段中的第j标题字段匹配；其中，在第y次修正中，根据所述相似度SIMs通过第二预设算法对SIM0+y-1(i,j)进行修正，得到SIM0+y(i,j)，y的取值包括不大于Y的正整数。5.根据权利要求3或4所述的方法，其特征在于，所述第二预设算法为如下所示的公式一：其中，SIM为待修正的相似度，SIM*为修正后的相似度，a为预设权重系数。6.根据权利要求1所述的方法，其特征在于，所述按照第一预设算法计算所述m个标题字段中每个标题字段与所述n个标题字段中的每个标题字段之间的相似度，包括：按照所述当前表单中的所述m个标题字段的标题字段名称与所述历史表单中的所述n个标题字段的标题字段名称的重合度，获取所述m个标题字段中每个标题字段与所述n个标题字段中的每个标题字段之间的相似度；或者按照所述当前表单中的所述m个标题字段的标题字段名称与所述历史表单中的所述n个标题字段的标题字段名称，根据第三方知识库获取所述m个标题字段中每个标题字段与所述n个标题字段中的每个标题字段之间的相似度；或者按照所述当前表单中的所述m个标题字段的字段取值集与所述历史表单中的所述n个标题字段的字段取值集的重合度，获取所述m个标题字段中每个标题字段与所述n个标题字段中的每个标题字段之间的相似度。7.根据权利要求6所述的方法，其特征在于，所述按照所述当前表单中的所述m个标题字段的字段取值集与所述历史表单中的所述n个标题字段的字段取值集的重合度，获取所述m个标题字段中每个标题字段与所述n个标题字段中的每个标题字段之间的相似度，包括：当所述当前表单中的所述m个标题字段的字段取值集为离散型时，通过如下公式二确定所述相似度：其中，表示第i标题字段的字段取值集，表示第j标题字段的字段取值集；或者当所述当前表单中的所述m个标题字段的字段取值集为连续型时，通过如下公式三确定所述相似度：其中，max1表示第i标题字段的最大值，min1表示第i标题字段的最小值，max2表示第j标题字段的最大值，min2表示第j标题字段的最小值。8.一种数据清理装置，其特征在于，所述装置包括：历史表单获取模块，用于在历史表单库中选取与当前表单具有相同描...

【专利技术属性】
技术研发人员：蒋瑜，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人