一种数据清洗方法、装置及系统制造方法及图纸

技术编号:34520130 阅读:12 留言:0更新日期:2022-08-13 21:09
本申请实施例提供了一种数据清洗方法、装置及系统,该方法包括:获取待清洗字段;基于规则类别划分算法,分别计算待清洗字段与预先建立的清洗规则类别库中所有数据字段集合的数据字段的相似度,得到最大相似度;判断最大相似度是否大于预设阈值;若是,将待清洗字段添加至最大相似度对应的数据字段所属的数据字段集合中。利用该方案对同类源系统或同类数据项进行分类,不同类别使用不同的清洗规则,并不断积累及修正完善清洗规则,能够实现自动化划分清洗规则,有效减少人工干预,提高了数据清洗的效率和准确性。清洗的效率和准确性。清洗的效率和准确性。

【技术实现步骤摘要】
一种数据清洗方法、装置及系统


[0001]本申请涉及数据处理领域,尤其涉及一种数据清洗方法、装置及系统。

技术介绍

[0002]数据清洗是大数据时代的必要流程,从各个源系统汇集的数据需要统一清洗转换,不同的源系统每项数据都有特定的含义。目前,对于源系统数据,直接使用统一的清洗规则进行数据清洗或者人工指定每项数据的清洗规则。直接使用统一的清洗规则进行数据清洗,使得数据清洗的准确性得不到保证,影响后续数据的使用;清洗规则由人工指定,对工作人员的要求较高,大大降低了数据清洗的效率。

技术实现思路

[0003]有鉴于此,本申请的目的在于提供了一种数据清洗方法、装置及系统,对同类源系统或同类数据项进行分类,不同类别使用不同的清洗规则,并不断积累及修正完善清洗规则,以实现自动化划分清洗规则,有效减少人工干预,提高了数据清洗的效率和准确性,其具体技术方案如下:
[0004]第一方面,本申请提供了一种数据清洗方法,所述方法包括:
[0005]获取待清洗字段;
[0006]基于规则类别划分算法,分别计算所述待清洗字段与预先建立的清洗规则类别库中所有数据字段集合的数据字段的相似度,得到最大相似度;
[0007]判断所述最大相似度是否大于预设阈值;
[0008]若是,将所述待清洗字段添加至所述最大相似度对应的数据字段所属的数据字段集合中。
[0009]在一种可能的实现方式中,所述清洗规则类别库包括清洗规则及其对应的数据字段集合,所述数据字段集合包括数据字段的字段类型、字段中文名、字段英文名、字段注释。
[0010]在一种可能的实现方式中,所述待清洗字段的属性信息包括字段注释,所述规则类别划分算法包括中文机械分词算法,所述方法还包括:
[0011]利用所述中文机械分词算法对所述待清洗字段的字段注释进行分词。
[0012]在一种可能的实现方式中,所述基于规则类别划分算法,分别计算所述待清洗字段与预先建立的清洗规则类别库中所有数据字段集合的数据字段的相似度,得到最大相似度,包括:
[0013]分别计算所述待清洗字段的字段类型与所述清洗规则类别库中所有数据字段的字段类型的相似度,得到n个字段类型相似度,n为正整数;
[0014]分别计算所述待清洗字段的字段英文名与所述清洗规则类别库中所有数据字段的字段英文名的相似度,得到n个字段英文名相似度;
[0015]分别计算所述待清洗字段的字段中文名与所述清洗规则类别库中所有数据字段的字段中文名的相似度,得到n个字段中文名相似度;
[0016]分别计算所述待清洗字段的字段注释与所述清洗规则类别库中所有数据字段的字段注释的相似度,得到n个字段注释相似度;
[0017]基于所述n个字段类型相似度、所述n个字段英文名相似度、所述n个字段中文名相似度和所述n个字段注释相似度,生成二维数组;
[0018]按照预设的字段类型、字段英文名、字段中文名和字段注释对应的权重系数,基于所述二维数组,分别计算所述待清洗字段与所述清洗规则类别库中所有数据字段的相似度;
[0019]获取所述待清洗字段与所述清洗规则类别库中所有数据字段的相似度中的最大值,作为最大相似度。
[0020]在一种可能的实现方式中,所述方法还包括:
[0021]若否,基于用户创建的新清洗规则,将所述待清洗字段添加至所述新清洗规则对应的数据字段集合中,
[0022]或基于用户在所述所有数据字段集合的数据字段中选择的特定数据字段,将所述待清洗字段添加至所述特定数据字段所属的数据字段集合中。
[0023]第二方面,本申请还提供了一种数据清洗装置,所述装置包括:
[0024]获取模块,用于获取待清洗字段;
[0025]计算模块,用于基于规则类别划分算法,分别计算所述待清洗字段与预先建立的清洗规则类别库中所有数据字段集合的数据字段的相似度,得到最大相似度;
[0026]判断模块,用于判断所述最大相似度是否大于预设阈值;
[0027]添加模块,用于若判断最大相似度大于预设阈值,将所述待清洗字段添加至所述最大相似度对应的数据字段所属的数据字段集合中。
[0028]在一种可能的实现方式中,所述待清洗字段的属性信息包括字段注释,所述规则类别划分算法包括中文机械分词算法,所述装置还包括:
[0029]分词模块,用于利用所述中文机械分词算法对所述待清洗字段的字段注释进行分词。
[0030]在一种可能的实现方式中,所述计算模块,具体用于:
[0031]分别计算所述待清洗字段的字段类型与所述清洗规则类别库中所有数据字段的字段类型的相似度,得到n个字段类型相似度,n为正整数;
[0032]分别计算所述待清洗字段的字段英文名与所述清洗规则类别库中所有数据字段的字段英文名的相似度,得到n个字段英文名相似度;
[0033]分别计算所述待清洗字段的字段中文名与所述清洗规则类别库中所有数据字段的字段中文名的相似度,得到n个字段中文名相似度;
[0034]分别计算所述待清洗字段的字段注释与所述清洗规则类别库中所有数据字段的字段注释的相似度,得到n个字段注释相似度;
[0035]基于所述n个字段类型相似度、所述n个字段英文名相似度、所述n个字段中文名相似度和所述n个字段注释相似度,生成二维数组;
[0036]按照预设的字段类型、字段英文名、字段中文名和字段注释对应的权重系数,基于所述二维数组,分别计算所述待清洗字段与所述清洗规则类别库中所有数据字段的相似度;
[0037]获取所述待清洗字段与所述清洗规则类别库中所有数据字段的相似度中的最大值,作为最大相似度。
[0038]第三方面,本申请还提供了一种数据清洗系统,包括:
[0039]处理器和存储器;
[0040]其中,所述处理器用于执行所述存储器中存储的程序;
[0041]所述存储器用于存储程序,所述程序至少用于:
[0042]获取待清洗字段;
[0043]基于规则类别划分算法,分别计算所述待清洗字段与预先建立的清洗规则类别库中所有数据字段集合的数据字段的相似度,得到最大相似度;
[0044]判断所述最大相似度是否大于预设阈值;
[0045]若是,将所述待清洗字段添加至所述最大相似度对应的数据字段所属的数据字段集合中。
[0046]第四方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上第一方面或第一方面任一项所述的数据清洗方法。
[0047]本申请实施例提供的方法,获取待清洗字段;基于规则类别划分算法,分别计算待清洗字段与预先建立的清洗规则类别库中所有数据字段集合的数据字段的相似度,得到最大相似度;判断最大相似度是否大于预设阈值;若是,将待清洗字段添加至最大相似度对应的数据字段所属的数据字段集合中。利用本申请实施例,对同类源系统或同本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据清洗方法,其特征在于,所述方法包括:获取待清洗字段;基于规则类别划分算法,分别计算所述待清洗字段与预先建立的清洗规则类别库中所有数据字段集合的数据字段的相似度,得到最大相似度;判断所述最大相似度是否大于预设阈值;若是,将所述待清洗字段添加至所述最大相似度对应的数据字段所属的数据字段集合中。2.根据权利要求1所述的方法,其特征在于,所述清洗规则类别库包括清洗规则及其对应的数据字段集合,所述数据字段集合包括数据字段的字段类型、字段中文名、字段英文名和字段注释。3.根据权利要求2所述的方法,其特征在于,所述待清洗字段的属性信息包括字段注释,所述规则类别划分算法包括中文机械分词算法,所述方法还包括:利用所述中文机械分词算法对所述待清洗字段的字段注释进行分词。4.根据权利要求3所述的方法,其特征在于,所述基于规则类别划分算法,分别计算所述待清洗字段与预先建立的清洗规则类别库中所有数据字段集合的数据字段的相似度,得到最大相似度,包括:分别计算所述待清洗字段的字段类型与所述清洗规则类别库中所有数据字段的字段类型的相似度,得到n个字段类型相似度,n为正整数;分别计算所述待清洗字段的字段英文名与所述清洗规则类别库中所有数据字段的字段英文名的相似度,得到n个字段英文名相似度;分别计算所述待清洗字段的字段中文名与所述清洗规则类别库中所有数据字段的字段中文名的相似度,得到n个字段中文名相似度;分别计算所述待清洗字段的字段注释与所述清洗规则类别库中所有数据字段的字段注释的相似度,得到n个字段注释相似度;基于所述n个字段类型相似度、所述n个字段英文名相似度、所述n个字段中文名相似度和所述n个字段注释相似度,生成二维数组;按照预设的字段类型、字段英文名、字段中文名和字段注释对应的权重系数,基于所述二维数组,分别计算所述待清洗字段与所述清洗规则类别库中所有数据字段的相似度;获取所述待清洗字段与所述清洗规则类别库中所有数据字段的相似度中的最大值,作为最大相似度。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:若否,基于用户创建的新清洗规则,将所述待清洗字段添加至所述新清洗规则对应的数据字段集合中,或基于用户在所述所有数据字段集合的数据字段中选择的特定数据字段,将所述待清洗字段添加至所述特定数据字段所属的数据字段集合中。6.一种数据清洗装置,其特征在于,所述装置包括:获取模块,用于获取待清洗字段;计算模块,...

【专利技术属性】
技术研发人员:周康王嘉玮
申请(专利权)人:中国农业银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1