一种供水行业数据清洗方法技术

技术编号:36188832 阅读:51 留言:0更新日期:2022-12-31 20:59
本申请提出一种供水行业数据清洗方法,所述方法可以包括,获取历史供水数据表;对所述历史供水数据表中每一字段下的数据进行分析,得到所述历史供水数据表中每一字段对应的字段属性;基于每一所述字段与对应字段属性,生成数据清洗字典;利用所述数据清洗字典对待清洗供水数据表中的数据进行数据清洗。由此可以无需人工指定清洗规则,降低清洗成本并且提升清洗正确性。清洗正确性。清洗正确性。

【技术实现步骤摘要】
一种供水行业数据清洗方法


[0001]本申请涉及计算机技术,具体涉及一种供水行业数据清洗方法。

技术介绍

[0002]在很多场景中需要收集供水行业数据,进行一些分析。收集到的供水行业数据表良莠不齐,需要进行清洗之后才可以使用。例如在供水行业现状分析场景中,需求部门会通过供水行业数据表,从各局点(例如,地市,县、乡等)手机供水行业数据。
[0003]目前常用的方法是由人工配置清洗规则,然后利用配置的清洗规则进行清洗。然而如此操作由于人工的介入,一方面,成本较高,另一方面,容易出错。

技术实现思路

[0004]有鉴于此,本申请公开一种供水行业数据清洗方法,所述方法可以包括:获取历史供水数据表;对所述历史供水数据表中每一字段下的数据进行分析,得到所述历史供水数据表中每一字段对应的字段属性;基于每一所述字段与对应字段属性,生成数据清洗字典;利用所述数据清洗字典对待清洗供水数据表中的数据进行数据清洗。
[0005]在一些实施例中,所述字段属性包括所述字段对应数据的数据格式、数据长度、数据范围;所述对所述历史供水数据表中每一字段下的数据进行分析,得到所述历史供水数据表中每一字段对应的字段属性,包括:对每一所述字段下包括的数据进行分析,得到每一所述字段对应数据的数据格式、数据长度、数据范围。
[0006]在一些实施例中,所述对每一所述字段下包括的数据进行分析,得到每一所述字段对应数据的数据格式、数据长度、数据范围,包括:将第一字段对应的首个数据,作为所述第一字段的名称;所述第一字段为所述历史供水数据表中的任意字段;读取所述第一字段下包括的数据,确定所述第一字段对应数据的数据格式;响应于所述数据格式为文本格式,将各所述历史供水数据表中所述第一字段下的文本数据进行汇总集合作为所述第一字段对应数据的数据范围,以及根据各所述历史供水数据表中所述第一字段下的最长文本数据确定所述第一字段对应数据的数据长度;响应于所述数据格式为字符串格式,将各所述历史供水数据表中所述第一字段下的字符串数据进行汇总集合,作为所述第一字段对应数据的数据范围,以及根据各所述历史供水数据表中所述第一字段下的最长字符串数据确定所述第一字段对应数据的数据长度;响应于所述数据格式为数值格式,将各所述历史供水数据表中所述第一字段下的最小数值数据和最大数值数据形成的范围,作为所述第一字段对应数据的数据范围,以及根据各所述历史供水数据表中所述第一字段下的最长数值数据确定所述第一字段对应数据的数据长度。
[0007]在一些实施例中,所述字段属性包括针对所述字段对应数据的描述信息;所述描述信息用于指示针对所述字段的填写规则;所述对所述历史供水数据表中每一字段下的数据进行分析,得到所述历史供水数据表中每一字段对应的字段属性,包括:利用预先部署的图片截图插件,对所述历史供水数据表进行截图操作,得到与所述历史供水据表对应的表
截图;对所述表截图进行文字提取,得到所述表截图包含的若干文字组合;针对每一文字组合,将所述文字组合内的文字与预设文字库中的文字进行比较,将包含预设文字库中文字的目标文字组合,作为针对第二字段对应数据的描述信息;所述预设文字库中包含基于若干描述信息样本提取的描述信息关键字;所述第二字段为所述历史供水数据表中的任意字段;将与所述目标文字组合在竖直方向距离为预设距离的文字组合作为所述第二字段的名称。
[0008]在一些实施例中,所述对所述表截图进行文字提取,得到所述表截图包含的若干文字组合,包括:针对所述表截图包含的每一像素点,以所述像素点作为预设框的中心,利用所述预设框得到与所述像素点对应的锚框;利用预先训练的文本图像识别模型对每一所述锚框围成的锚框图像进行分类,得到包含文本的文本锚框图像;利用OCR技术对每一文本锚框图像进行文字识别,得到每一文本锚框图像包含的文本作为文字组合。
[0009]在一些实施例中,所述将与所述目标文字组合在竖直方向距离为预设距离的文字组合作为所述第二字段的名称,包括:将与所述目标文字组合对应的目标锚框图像的中心像素点为起点,延竖直向上的方向移动所述预设距离,获取对应的目标像素点;将所述目标像素点所属的文本锚框图像包含的文字组合作为所述第二字段的名称。
[0010]在一些实施例中,所述基于每一所述字段与对应字段属性,生成数据清洗字典,包括:将所述第一字段作为所述数据清洗字典中的第三字段,并将所述第一字段的名称作为所述第三字段的名称;将所述第一字段对应数据的数据格式、数据长度、数据范围,作为所述第三字段对应数据的数据格式、数据长度、数据范围;针对每一所述第三字段,在所述第二字段中,确定与所述第三字段名称相同的目标第二字段,以及将所述目标第二字段对应的描述信息,确定为所述第三字段的描述信息。
[0011]在一些实施例中,所述利用所述数据清洗字典对待清洗供水数据表中的数据进行数据清洗,包括:针对所述待清洗供水数据表中的每一目标字段,根据所述目标字段的首个数据确定所述目标字段的目标字段名,从所述数据清洗字典中查找与所述目标字段名匹配的目标第三字段,利用所述目标第三字段对应的字段属性包括的数据格式、数据长度、数据范围,确定所述目标字段下的脏数据,以及确定所述目标字段下的缺失数据。
[0012]在一些实施例中,在确定所述脏数据和所述缺失数据之后,所述方法还包括:将所述目标字段下的缺失数据和所述脏数据分别对应的数据位置,所述目标字段的字段名以及所述目标第三字段对应的字段属性包含的描述信息,输出至所述待清洗供水数据表提供方,以由所述提供方基于输出的信息进行所述缺失数据和所述脏数据的修改。
[0013]在一些实施例中,响应于接收到所述提供方针对所述缺失数据和所述脏数据的修改,所述方法还包括:将修改后的数据按照对应的数据位置写入所述待清洗供水数据表,完成数据清洗。
[0014]基于前述任意实施例记载的技术方案,可以对每一所述字段下包括的数据进行分析,得到每一所述字段对应数据的数据格式、数据长度、数据范围从历史供水数据表中分析出各字段的字段属性,然后总结为数据清洗字典,然后依据该数据清洗字典完成数据清洗,与相关技术相比,无需人工指定清洗规则,降低清洗成本并且提升清洗正确性。
附图说明
[0015]下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍。
[0016]图1为本申请实施例示出的一种供水行业数据清洗方法的方法流程示意图;
[0017]图2为本申请实施例示出的一种确定字段属性的方法的流程示意图;
[0018]图3为本申请实施例示出的一种抽取描述信息的方法流程示意图;
[0019]图4本申请实施例示出的一种提取文字组合的方法流程示意图;
[0020]图5为本申请实施例示出的确定字段名称的方法流程示意图;
[0021]图6为本申请实施例示出的一种生成数据清洗字典的方法流程示意图;
[0022]图7为本申请实施例示出的一种清洗方法流程示意图;
[0023]图8为本申请实施例示出的一种供水行业数据清洗装置的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种供水行业数据清洗方法,其特征在于,所述方法包括:获取历史供水数据表;对所述历史供水数据表中每一字段下的数据进行分析,得到所述历史供水数据表中每一字段对应的字段属性;基于每一所述字段与对应字段属性,生成数据清洗字典;利用所述数据清洗字典对待清洗供水数据表中的数据进行数据清洗。2.根据权利要求1所述的方法,其特征在于,所述字段属性包括所述字段对应数据的数据格式、数据长度、数据范围;所述对所述历史供水数据表中每一字段下的数据进行分析,得到所述历史供水数据表中每一字段对应的字段属性,包括:对每一所述字段下包括的数据进行分析,得到每一所述字段对应数据的数据格式、数据长度、数据范围。3.根据权利要求2所述的方法,其特征在于,所述对每一所述字段下包括的数据进行分析,得到每一所述字段对应数据的数据格式、数据长度、数据范围,包括:将第一字段对应的首个数据,作为所述第一字段的名称;所述第一字段为所述历史供水数据表中的任意字段;读取所述第一字段下包括的数据,确定所述第一字段对应数据的数据格式;响应于所述数据格式为文本格式,将各所述历史供水数据表中所述第一字段下的文本数据进行汇总集合作为所述第一字段对应数据的数据范围,以及根据各所述历史供水数据表中所述第一字段下的最长文本数据确定所述第一字段对应数据的数据长度;响应于所述数据格式为字符串格式,将各所述历史供水数据表中所述第一字段下的字符串数据进行汇总集合,作为所述第一字段对应数据的数据范围,以及根据各所述历史供水数据表中所述第一字段下的最长字符串数据确定所述第一字段对应数据的数据长度;响应于所述数据格式为数值格式,将各所述历史供水数据表中所述第一字段下的最小数值数据和最大数值数据形成的范围,作为所述第一字段对应数据的数据范围,以及根据各所述历史供水数据表中所述第一字段下的最长数值数据确定所述第一字段对应数据的数据长度。4.根据权利要求3所述的方法,其特征在于,所述字段属性包括针对所述字段对应数据的描述信息;所述描述信息用于指示针对所述字段的填写规则;所述对所述历史供水数据表中每一字段下的数据进行分析,得到所述历史供水数据表中每一字段对应的字段属性,包括:利用预先部署的图片截图插件,对所述历史供水数据表进行截图操作,得到与所述历史供水据表对应的表截图;对所述表截图进行文字提取,得到所述表截图包含的若干文字组合;针对每一文字组合,将所述文字组合内的文字与预设文字库中的文字进行比较,将包含预设文字库中文字的目标文字组合,作为针对第二字段对应数据的描述信息;所述预设文字库中包含基于若干描述信息样本提取的描述信息关键字;所述第二字段为所述历史供水数据...

【专利技术属性】
技术研发人员:田志民牛豫海张娟王建伟宋鹏飞王泽民张强曹红梅朱乾
申请(专利权)人:河北建投水务投资有限公司沧州市供水排水集团有限公司河北建投衡水水务有限公司唐山市曹妃甸供水有限责任公司廊坊市清泉供水有限责任公司辛集市建投水务有限责任公司河北建投沙河供水有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1