数据清洗系统技术方案

技术编号:15464293 阅读:54 留言:0更新日期:2017-06-01 07:58
本实用新型专利技术提供一种数据清洗系统,包括,数据服务器集群,数据清洗设备,清洗规则库服务器,交换机,硬件防火墙和众包服务器;数据服务器集群连接于数据清洗设备,且数据清洗设备连接于清洗规则库服务器;交换机分别连接数据服务器集群,清洗规则库服务器和硬件防火墙;硬件防火墙连接众包服务器,且交换机通过硬件防火墙与众包服务器连接。本实用新型专利技术的数据清洗系统,可以同时支持采用数据清洗设备进行数据清洗和采用众包服务器以众包的形式进行数据清洗,可以提高数据清洗质量,能够满足对数据清洗提供硬件支持。

Data cleaning system

The utility model provides a data cleaning system, including data, server cluster, data cleaning equipment, cleaning rule database server, switch, hardware firewall and crowdsourcing server; data server cluster is connected to data cleaning equipment, cleaning equipment and data cleaning rules connected to the database server; switches are respectively connected with the data server cluster, database server cleaning rules and the hardware firewall; hardware firewall connection Crowdsourcing server and switch through the hardware firewall and Crowdsourcing server connection. The data cleaning system of the utility model, can also support the use of data cleaning equipment for data cleaning and data cleaning by Crowdsourcing server to Crowdsourcing form, can improve the quality of cleaning data, can satisfy the data cleaning hardware support.

【技术实现步骤摘要】
数据清洗系统
本技术涉及计算机技术,尤其涉及一种数据清洗系统。
技术介绍
数据清洗是指发现并纠正数据文件中的可识别的错误,主要包括检查数据一致性,处理数据中的无效值和缺失值等,银行地址数据清洗属于数据清洗中的一种。目前,银行进行信用卡推广的过程中,会接收到大量的用户地址信息,并且,为了便于后续与用户进行联系,还需要保证这些地址信息的真实有效。但实际上,用户提供的地址可能是错误的或者不全的,这就需要通过数据清洗的方式得到标准地址,即对地址数据进行清洗。为了实现对庞大的数据进行有效清洗,例如对地址数据进行清洗,需要与之配套的硬件环境提供硬件支持,以满足对数据清洗的需要。
技术实现思路
本技术要解决的技术问题是提供一种数据清洗系统,为满足对数据清洗提供硬件支持。为解决上述技术问题,本技术提供一种数据清洗系统,包括,数据服务器集群,数据清洗设备,清洗规则库服务器,交换机,硬件防火墙和众包服务器;数据服务器集群连接于数据清洗设备,且数据清洗设备连接于清洗规则库服务器;交换机分别连接数据服务器集群,清洗规则库服务器和硬件防火墙;硬件防火墙连接众包服务器,且交换机通过硬件防火墙与众包服务器连接。进一步地,硬件防火墙与众包服务器连接的载体是互联网。进一步地,数据库服务器集群与数据清洗设备连接的载体为线缆或互联网。进一步地,交换机为光纤交换机。本技术提供的数据清洗系统,数据清洗设备能够将数据服务器集群中的数据(例如,地址数据)引流至数据清洗设备,并根据清洗规则库服务器中保存的清洗规则进行数据清洗,并将清洗好的数据回流至数据服务器集群中,如此完成对数据的清洗。此外,对于数据清洗设备无法清洗的数据,则通过交换机和硬件防火墙将其发送至众包服务器中,由众包服务器将这些无法清洗的数据以众包的形式进行分发再将清洗好的数据收回以完成对数据的清洗。本技术的数据清洗系统,可以同时支持采用数据清洗设备进行数据清洗和采用众包服务器以众包的形式进行数据清洗,两种数据清洗方式相结合,可以提高数据清洗的质量。也就是说,本技术提供的数据清洗系统,能够满足对数据清洗提供硬件支持。附图说明图1是本技术提供的数据清洗系统的结构框图。具体实施方式下面通过具体的实施例进一步说明本技术,但是,应当理解为,这些实施例仅仅是用于更详细具体地说明之用,而不应理解为用于以任何形式限制本技术。结合图1,本实施例提供的数据清洗系统,包括,数据服务器集群1,数据清洗设备2,清洗规则库服务器3,交换机4,硬件防火墙5和众包服务器6;数据服务器集群1连接于数据清洗设备2,且数据清洗设备2连接于清洗规则库服务器3;交换机4分别连接数据服务器集群1,清洗规则库服务器3和硬件防火墙5;硬件防火墙5连接众包服务器6,且交换机4通过硬件防火墙5与众包服务器6连接。本实施例提供的数据清洗系统,数据清洗设备2能够将数据服务器集群1中的数据(例如,地址数据)引流至数据清洗设备2,并根据清洗规则库服务器3中保存的清洗规则进行数据清洗,并将清洗好的数据回流至数据服务器集群1中,如此完成对数据的清洗。此外,对于数据清洗设备2无法清洗的数据,则通过交换机4和硬件防火墙5将其发送至众包服务器6中,由众包服务器6将这些无法清洗的数据以众包的形式进行分发再将清洗好的数据收回以完成对数据的清洗。本实施例的数据清洗系统,可以同时支持采用数据清洗设备2进行数据清洗和采用众包服务器6以众包的形式进行数据清洗,两种数据清洗方式相结合,可以提高数据清洗的质量。也就是说,本实施例提供的数据清洗系统,能够满足对数据清洗提供硬件支持。此外,本实施例中,还能够将通过众包服务器6返回给交换机4中的清洗好的数据,作为数据清洗规则存储在清洗规则库服务器3中,可以实现数据清洗设备2的自学习,从而,可以不断提高数据清洗设备2对数据的清洗能力。优选地,硬件防火墙5与众包服务器6连接的载体是互联网。进一步优选地,数据库服务器集群与数据清洗设备2连接的载体为线缆或互联网。进一步优选地,交换机4为光纤交换机。尽管本技术已进行了一定程度的描述,明显地,在不脱离本技术的精神和范围的条件下,可进行各个条件的适当变化。可以理解,本技术不限于所述实施方案,而归于权利要求的范围,其包括所述每个因素的等同替换。本文档来自技高网...
数据清洗系统

【技术保护点】
一种数据清洗系统,其特征在于,包括:数据服务器集群,数据清洗设备,清洗规则库服务器,交换机,硬件防火墙和众包服务器;所述数据服务器集群连接于所述数据清洗设备,且所述数据清洗设备连接于所述清洗规则库服务器;所述交换机分别连接所述数据服务器集群,所述清洗规则库服务器和所述硬件防火墙;所述硬件防火墙连接所述众包服务器,且所述交换机通过所述硬件防火墙与所述众包服务器连接。

【技术特征摘要】
1.一种数据清洗系统,其特征在于,包括:数据服务器集群,数据清洗设备,清洗规则库服务器,交换机,硬件防火墙和众包服务器;所述数据服务器集群连接于所述数据清洗设备,且所述数据清洗设备连接于所述清洗规则库服务器;所述交换机分别连接所述数据服务器集群,所述清洗规则库服务器和所述硬件防火墙;所述硬件防火墙连接所述众包服务器,且所述交换...

【专利技术属性】
技术研发人员:贾西贝
申请(专利权)人:深圳市华傲数据技术有限公司
类型:新型
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1