一种数据清洗的方法及用于数据清洗的装置制造方法及图纸

技术编号:20025633 阅读:36 留言:0更新日期:2019-01-06 04:30
本发明专利技术公开了一种数据清洗的方法及用于数据清洗的装置,该数据清洗的方法包括:依据第一清洗策略对源数据进行清洗得到第一清洗数据和/或第一清洗数据摘要,并将第一清洗数据和/或第一清洗数据摘要发送给服务端;接收服务端依据第一清洗数据和/或第一清洗数据摘要调整更新后的第二清洗策略;依据补偿清洗策略对第一清洗数据和/或对应第一清洗数据的源数据进行处理得到第一处理数据;依据第二清洗策略对未清洗的数据进行清洗得到第二清洗数据和/或第二清洗数据摘要。该数据清洗的方法由客户端进行数据清洗,将清洗之后的数据发送给服务端,减轻了服务端的数据处理压力,提高了数据清洗的效率。

【技术实现步骤摘要】
一种数据清洗的方法及用于数据清洗的装置
本专利技术属于数据处理
,更具体地,涉及一种数据清洗的方法及用于数据清洗的装置。
技术介绍
随着企业信息化系统的广泛应用,信息化系统已经成为企业维持业务运转的关键,企业多样化的业务类型导致数据访问需求日趋复杂化,同时数据量的急剧攀升也导致数据库服务端不堪重负。因此,需要建立数据中心以提高信息系统的可用性和访问查询效率。但是由于信息系统的建设差异,在建立数据中心的过程中,经常需要对来自各信息系统的源数据进行清洗整合。目前,数据中心服务端从客户端获取到源数据后,再对源数据进行清洗整合,造成传输数据量大。尤其是在数据中心服务端与多个客户端连接,会造成数据中心服务端执行压力大、执行效率低的问题。鉴于此,克服该现有技术所存在的缺陷是本
亟待解决的问题。
技术实现思路
针对现有技术的以上缺陷或改进需求,本专利技术提供了一种数据清洗的方法及用于数据清洗的装置,其目的在于由客户端进行数据清洗,将清洗之后的数据发送给服务端,减轻了服务端的数据处理压力;同时,客户端可以依据服务端发送的清洗策略之间的关联关系确定补偿清洗策略,并依据补偿清洗策略对已清洗的数据进行再次清洗,节省了数据清洗的时间,提高了数据清洗的效率,由此解决目前服务端从客户端获取到源数据后,再对源数据进行清洗整合,造成传输数据量大、数据处理压力大、执行效率低的问题的技术问题。为实现上述目的,本专利技术实施例采用如下技术方案:第一方面,提供一种数据清洗的方法,所述数据清洗的方法包括:客户端依据第一清洗策略对源数据进行清洗得到第一清洗数据和/或第一清洗数据摘要,并将所述第一清洗数据和/或所述第一清洗数据摘要发送给服务端;接收所述服务端依据所述第一清洗数据和/或所述第一清洗数据摘要调整更新后的第二清洗策略;依据所述第一清洗策略和所述第二清洗策略之间的关联关系得到补偿清洗策略,依据所述补偿清洗策略对所述第一清洗数据和/或对应所述第一清洗数据的源数据进行处理得到第一处理数据,并将所述第一处理数据发送给所述服务端;依据所述第二清洗策略对未清洗的数据进行清洗得到第二清洗数据和/或第二清洗数据摘要,并将所述第二清洗数据和/或所述第二清洗数据摘要发送给所述服务端。优选地,所述依据所述第一清洗策略和所述第二清洗策略之间的关联关系得到补偿清洗策略,依据所述补偿清洗策略对所述第一清洗数据和/或对应所述第一清洗数据的源数据进行处理得到第一处理数据,并将所述第一处理数据发送给所述服务端包括:判断确定所述第一清洗策略得到的清洗结果和所述第二清洗策略得到的清洗结果是否可复用;若所述第一清洗策略得到的清洗结果和所述第二清洗策略得到的清洗结果可复用,则对所述第一清洗数据和/或对应所述第一清洗数据的源数据进行补偿清洗策略的数据清洗;若所述第一清洗策略得到的清洗结果和所述第二清洗策略得到的清洗结果不可复用,则对所述对应所述第一清洗数据的源数据按照所述第二清清洗策略进行数据清洗。优选地,所述依据所述第一清洗策略和所述第二清洗策略之间的关联关系得到补偿清洗策略,依据所述补偿清洗策略对所述第一清洗数据和/或对应所述第一清洗数据的源数据进行处理得到第一处理数据,并将所述第一处理数据发送给所述服务端包括:判断确定所述第二清洗策略是否为所述第一清洗策略的子集;若所述第二清洗策略为所述第一清洗策略的子集,则对所述第一清洗数据按照所述第二清洗策略再次进行清洗得到第一处理数据;将所述第一处理数据发送给所述服务端。优选地,所述依据所述第一清洗策略和所述第二清洗策略之间的关联关系得到补偿清洗策略,依据所述补偿清洗策略对所述第一清洗数据和/或对应所述第一清洗数据的源数据进行处理得到第一处理数据,并将所述第一处理数据发送给所述服务端包括:判断确定所述第一清洗策略是否为所述第二清洗策略的子集;若所述第一清洗策略为所述第二清洗策略的子集,依据所述补偿清洗策略对所述第一清洗数据对应的源数据进行清洗得到补偿清洗数据;将所述补偿清洗数据与所述第一清洗数据进行整合得到第一处理数据;将所述第一处理数据发送给所述服务端。优选地,所述第一清洗策略中携带有预设的清洗速率阈值;所述客户端依据第一清洗策略对源数据进行清洗得到第一清洗数据和/或第一清洗数据摘要,并将所述第一清洗数据和/或所述第一清洗数据摘要发送给服务端包括:客户端依据第一清洗策略对源数据进行清洗得到第一清洗数据和/或第一清洗数据摘要;客户端判断确定其实际清洗速率是否小于所述预设的清洗速率阈值;若所述实际清洗速率小于所述预设的清洗速率阈值,则客户端获取当前清洗进度,将所述第一清洗数据和/或所述第一清洗数据摘要以及所述当前清洗进度发送给服务端,以使所述服务端依据所述当前清洗进度调整清洗策略。优选地,所述客户端依据第一清洗策略对源数据进行清洗得到第一清洗数据和/或第一清洗数据摘要,并将所述第一清洗数据和/或所述第一清洗数据摘要发送给服务端包括:客户端依据第一清洗策略对源数据进行清洗得到第一清洗数据和/或第一清洗数据摘要;将所述第一清洗数据和/或所述第一清洗数据摘要以及所述客户端的标识码发送给服务端,以使所述服务端依据所述标识码进行分区管理。优选地,所述依据所述第二清洗策略对未清洗的数据进行清洗得到第二清洗数据和/或第二清洗数据摘要,并将所述第二清洗数据和/或所述第二清洗数据摘要发送给服务端包括:依据所述第二清洗策略对未清洗的数据进行清洗得到第二清洗数据和/或第二清洗数据摘要;将所述第二清洗数据和/或所述第二清洗数据摘要以及所述客户端的标识码发送给所述服务端,以使所述服务端依据所述标识码进行分区管理。第二方面,提供了一种数据清洗的方法,所述数据清洗的方法包括:服务端向客户端发送第一清洗策略,并接收所述客户端依据所述第一清洗策略对源数据进行清洗之后的第一清洗数据和/或第一清洗数据的摘要;对所述第一清洗数据和/或所述第一清洗数据的摘要进行解析,并依据所述第一清洗数据和/或所述第一清洗数据的摘要调整清洗策略得到第二清洗策略,依据所述第一清洗策略和所述第二清洗策略之间的关联关系得到补偿清洗策略;将所述第二清洗策略和所述补偿清洗策略发送给所述客户端,以使所述客户端依据所述补偿清洗策略对所述第一清洗数据和/或对应所述第一清洗数据的源数据进行处理,依据所述第二清洗策略对未清洗的数据进行清洗;接收所述客户端依据所述补偿清洗策略对所述第一清洗数据和/或对应所述第一清洗数据的源数据进行处理而得到的第一处理数据以及所述客户端依据所述第二清洗策略对所述未清洗的数据进行清洗而得到的第二清洗数据和/或第二清洗数据摘要。优选地,所述第一清洗数据中携带有当前清洗进度;所述对所述第一清洗数据和/或所述第一清洗数据的摘要进行解析,并依据所述第一清洗数据和/或所述第一清洗数据的摘要调整清洗策略得到第二清洗策略,依据所述第一清洗策略和所述第二清洗策略之间的关联关系得到补偿清洗策略包括:对所述第一清洗数据和/或所述第一清洗数据的摘要进行解析得到当前清洗进度;依据所述当前清洗进度获取客户端的清洗速率,判断确定所述客户端的清洗速率是否小于预设的清洗速率;若所述客户端的清洗速率小于所述预设的清洗速率,依据所述第一清洗数据和/或所述第一清洗数据的摘要调整清洗策略得到第二清洗策略,并依据所述本文档来自技高网...

【技术保护点】
1.一种数据清洗的方法,其特征在于,所述数据清洗的方法包括:客户端依据第一清洗策略对源数据进行清洗得到第一清洗数据和/或第一清洗数据摘要,并将所述第一清洗数据和/或所述第一清洗数据摘要发送给服务端;接收所述服务端依据所述第一清洗数据和/或所述第一清洗数据摘要调整更新后的第二清洗策略;依据所述第一清洗策略和所述第二清洗策略之间的关联关系得到补偿清洗策略,依据所述补偿清洗策略对所述第一清洗数据和/或对应所述第一清洗数据的源数据进行处理得到第一处理数据,并将所述第一处理数据发送给所述服务端;依据所述第二清洗策略对未清洗的数据进行清洗得到第二清洗数据和/或第二清洗数据摘要,并将所述第二清洗数据和/或所述第二清洗数据摘要发送给所述服务端。

【技术特征摘要】
1.一种数据清洗的方法,其特征在于,所述数据清洗的方法包括:客户端依据第一清洗策略对源数据进行清洗得到第一清洗数据和/或第一清洗数据摘要,并将所述第一清洗数据和/或所述第一清洗数据摘要发送给服务端;接收所述服务端依据所述第一清洗数据和/或所述第一清洗数据摘要调整更新后的第二清洗策略;依据所述第一清洗策略和所述第二清洗策略之间的关联关系得到补偿清洗策略,依据所述补偿清洗策略对所述第一清洗数据和/或对应所述第一清洗数据的源数据进行处理得到第一处理数据,并将所述第一处理数据发送给所述服务端;依据所述第二清洗策略对未清洗的数据进行清洗得到第二清洗数据和/或第二清洗数据摘要,并将所述第二清洗数据和/或所述第二清洗数据摘要发送给所述服务端。2.根据权利要求1所述的数据清洗的方法,其特征在于,所述依据所述第一清洗策略和所述第二清洗策略之间的关联关系得到补偿清洗策略,依据所述补偿清洗策略对所述第一清洗数据和/或对应所述第一清洗数据的源数据进行处理得到第一处理数据,并将所述第一处理数据发送给所述服务端包括:判断确定所述第一清洗策略得到的清洗结果和所述第二清洗策略得到的清洗结果是否可复用;若所述第一清洗策略得到的清洗结果和所述第二清洗策略得到的清洗结果可复用,则对所述第一清洗数据和/或对应所述第一清洗数据的源数据进行补偿清洗策略的数据清洗;若所述第一清洗策略得到的清洗结果和所述第二清洗策略得到的清洗结果不可复用,则对所述对应所述第一清洗数据的源数据按照所述第二清清洗策略进行数据清洗。3.根据权利要求1所述的数据清洗的方法,其特征在于,所述依据所述第一清洗策略和所述第二清洗策略之间的关联关系得到补偿清洗策略,依据所述补偿清洗策略对所述第一清洗数据和/或对应所述第一清洗数据的源数据进行处理得到第一处理数据,并将所述第一处理数据发送给所述服务端包括:判断确定所述第二清洗策略是否为所述第一清洗策略的子集;若所述第二清洗策略为所述第一清洗策略的子集,则对所述第一清洗数据按照所述第二清洗策略再次进行清洗得到第一处理数据;将所述第一处理数据发送给所述服务端。4.根据权利要求1所述的数据清洗的方法,其特征在于,所述依据所述第一清洗策略和所述第二清洗策略之间的关联关系得到补偿清洗策略,依据所述补偿清洗策略对所述第一清洗数据和/或对应所述第一清洗数据的源数据进行处理得到第一处理数据,并将所述第一处理数据发送给所述服务端包括:判断确定所述第一清洗策略是否为所述第二清洗策略的子集;若所述第一清洗策略为所述第二清洗策略的子集,依据所述补偿清洗策略对所述第一清洗数据对应的源数据进行清洗得到补偿清洗数据;将所述补偿清洗数据与所述第一清洗数据进行整合得到第一处理数据;将所述第一处理数据发送给所述服务端。5.根据权利要求1~4任一项所述的数据清洗的方法,其特征在于,所述第一清洗策略中携带有预设的清洗速率阈值;所述客户端依据第一清洗策略对源数据进行清洗得到第一清洗数据和/或第一清洗数据摘要,并将所述第一清洗数据和/或所述第一清洗数据摘要发送给服务端包括:客户端依据第一清洗策略对源数据进行清洗得到第一清洗数据和/或第一清洗数据摘要;客户端判断确定其实际清洗速率是否小于所述预设的清洗速率阈值;若所述实际清洗速率小于所述预设的...

【专利技术属性】
技术研发人员:张勇高东升付铨梅纲
申请(专利权)人:武汉达梦数据库有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1