The invention discloses a method for verifying data through data quality firewall. By filtering out the data with quality problems and allowing the remaining valid data to be stored in the database, the problem of data collection and post-processing in large data platform is solved, the utilization rate of the system is further improved, the storage cost of the system is reduced, and the data quality is fireproof. The data processed by the wall are all valid data, which makes the data quality really improved.
【技术实现步骤摘要】
一种通过数据质量防火墙验证数据的方法
本专利技术涉及数据手机和数据分析
,具体涉及一种通过数据质量防火墙验证数据的方法。
技术介绍
随着2013年大数据元年的开启,各行各业都已经将大数据视为推动企业发展、推进行业进步、加快产业升级、促进民生繁荣、巩固社会安全甚至提升国家竞争力的核心武器。大数据正受到来自政治、经济、社会、文化、军事等各个领域的广泛关注,并越来越彰显其巨大价值。所有的互联网巨头公司,以及政府、企事业单位,都在根据自己的业务需求收集数据,其数据收集的手段和方式各种各样,效率也不一而足。在这一发展过程中,数据质量逐步受到越来越多的重视。数据质量过程的主要目标在于捕获错误和无效的数据,处理它们并消除重复数据,最后将有效数据存储到数据库中。业界对数据质量的控制通常是先收集数据,存入大数据存储系统,然后利用大数据分析平台如ApacheHadoop、ApacheSpark等平台对存入的数据进行分析、过滤、处理。这种处理过程的方式并不够高效,且成本较高,因为有很多低效、甚至无效的数据也进行了存储,也被分析和计算了。
技术实现思路
本专利技术的目的在于提供一种通过数据质量防火墙验证数据的方法,具有滤掉存在质量问题的数据并允许将剩余的有效数据通过并存储到数据库中进而提高了效率、节约了成本。本专利技术的上述目的是通过以下技术方案得以实现的:一种通过数据质量防火墙验证数据的方法,包括以下步骤:步骤101,根据具体的业务需求,为数据质量防火墙配置数据契约,数据契约是对数据的约束性的数学逻辑描述,包括对数据的完整性、准确性、一致性、关联性、及时性进行逻辑描述;步骤1 ...
【技术保护点】
1.一种通过数据质量防火墙验证数据的方法,其特征在于,包括以下步骤:步骤101,根据具体的业务需求,为数据质量防火墙配置数据契约,数据契约是对数据的约束性的数学逻辑描述,包括对数据的完整性、准确性、一致性、关联性、及时性进行逻辑描述;步骤102,启动数据质量防火墙,加载数据质量防火墙的各项配置,各项配置包括数据源的IP地址段、数据质量防火墙自身绑定的IP地址、监控的端口、访问控制策略通过条件,数据源包括块数据、连续流数据、文本数据、二进制数据;步骤103,数据源连接到数据质量防火墙,数据源包括业务员平台系统的数据输出、物流网IoT终端设备上报的采集数据、其他的数据存储系统的输出和日志Agent工具输出的日志数据;步骤104,对数据源的合法性进行验证,如果数据源不在数据质量防火墙的配置文件中预定义的IP地址段范围内以及数据源未通过数据质量防火墙的身份认证,那么数据源的身份不合法,则直接进行下一步骤,若合法则进行步骤106;步骤105,数据质量防火墙丢弃数据源的连接,并拒绝该数据源的再次连接;步骤106,根据步骤101中对数据契约的数学逻辑定义,对数据的合规性进行验证,如果数据满足数据契约 ...
【技术特征摘要】
1.一种通过数据质量防火墙验证数据的方法,其特征在于,包括以下步骤:步骤101,根据具体的业务需求,为数据质量防火墙配置数据契约,数据契约是对数据的约束性的数学逻辑描述,包括对数据的完整性、准确性、一致性、关联性、及时性进行逻辑描述;步骤102,启动数据质量防火墙,加载数据质量防火墙的各项配置,各项配置包括数据源的IP地址段、数据质量防火墙自身绑定的IP地址、监控的端口、访问控制策略通过条件,数据源包括块数据、连续流数据、文本数据、二进制数据;步骤103,数据源连接到数据质量防火墙,数据源包括业务员平台系统的数据输出、物流网IoT终端设备上报的采集数据、其他的数据存储系统的输出和日志Agent工具输出的日志数据;步骤104,对数据源的合法性进行验证,如果数据源不在数据质量防火墙的配置文件中预定义的IP地址段范围内以及数据源未通过数据质量防火墙的身份认证,那么数据源的身份不合法,则直接进行下一步骤,若合法则进行步骤106;步骤105,数据质量防火墙丢弃数据源的连接,并拒绝该数据源的再次连接;步骤106,根据步骤101中对数据契约的数学逻辑定义,对数据的合规性进行验证,如果数据满足数据契约,则转到步骤110,否则转到步骤107;步骤107,进...
【专利技术属性】
技术研发人员:李强,王凤琴,
申请(专利权)人:四川长虹电器股份有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。