一种分布式实时数据处理政务服务数据的融合与共享方法技术

技术编号:17388570 阅读:28 留言:0更新日期:2018-03-04 13:46
一种分布式实时数据处理政务服务数据的融合与共享方法,包括提供数据采集接口,提交数据,获取数据,处理数据,存储数据,共享数据六个步骤,支持分布式数据存储和处理的集群体系架构;支持海量数据的存储和大量数据并发进行的数据交换,分布式集群架构使得部署的硬件设备也具备高可靠性,多台低成本的PC服务器组成的集群,即使有多台节点出现故障都依然可以不间断的提供数据融合和共享服务,根据存储和性能的需要,按需进行动态的增减节点,数据的存储能力和处理性能都会按照线性的趋势增长。

A method of integration and sharing of government service data in distributed real-time data processing

A fusion of government service data in distributed real-time data processing and sharing methods, including data acquisition interface, submit data, data acquisition, data processing, data storage, data sharing six steps cluster architecture for distributed data storage and processing; support the massive data storage and data concurrent data exchange. Distributed cluster architecture makes the deployment of hardware equipment also have high reliability, a low cost PC server consists of clusters and even provide data integration and sharing service of multiple node failures are still uninterrupted, according to the needs of storage and performance, change dynamically according to the requirements of storage and processing performance the data will be in accordance with the linear growth trend.

【技术实现步骤摘要】
一种分布式实时数据处理政务服务数据的融合与共享方法
本专利技术属于政务大数据的采集、处理、存储和应用
,具体涉及一种分布式实时数据处理政务服务数据的融合与共享方法。
技术介绍
政务服务数据是来自各个政务业务系统的数据源,所以数据独立分割从而形成了“数据孤岛”。市民、企业在申办政务服务时,会重复填写大量的数据到不同的业务系统中,使得服务政务申报事项、审批事项数据碎片化。市民、企业申报政务事项时,重复填写申报数据,提交重复附件材料,降低了政务服务体验及政务服务效率,增多了市民、企业在申办事项过程中所需的中间环节及申办材料,导致申办等候时间及项目审批时间延长。因此,基于该专利说明实现政务服务数据的跨平台多源数据融合共享。目前存在的问题:1)如何从多个数据源高效采集正确的数据各个业务系统的数据源都不一样,有大量的历史数据,也有新数据的不断进入。而且各个业务系统都在稳定运行,不会进行大幅度的修改,在保证数据采集的同时尽量不需要修改业务系统。对接业务系统繁多,怎样保证高吞吐稳定的采集数据;2)如何对采集的数据做ETL从多个数据源采集的数据,会有大量的重复冗余数据,需要去识别这些不同命名方式但是实际意思一样的数据项,同时对证件类型、籍贯、民族等有国家标准的数据按相应规则处理,对于其他有明显类型分别的属性字段进行自定义码表处理,整理出一套统一的数据规范体系。按照该体系对所有的数据进行加载、抽取、转化。3)如何对数据融合和共享采集的数据经过清洗过后,需要将数据进行归集、归纳。通过不同的主题将数据分类。通过进一步的处理将数据沉淀,将原本碎片化的政务服务数据融合。融合过后的数据,需要向业务系统提供数据服务,需要统一规范的形式对业务系统提供接口,保证业务系统可以共享使用所有政务服务数据。
技术实现思路
为了克服上述现有技术的不足,本专利技术的目的是提供一种分布式实时数据处理政务服务数据的融合与共享方法,具有高性能、高稳定性、高可扩展性。为了实现上述目的,本专利技术采用的技术方案是:一种分布式实时数据处理政务服务数据的融合与共享方法,其特征在于,包括以下步骤:1)提供数据采集接口:数据采集程序通过封装分布式消息订阅系统Kafka提供RestfulAPI数据接口,对所有业务系统提供统一的数据采集格式;2)提交数据:业务系统向数据采集接口提交业务数据;3)获取数据:通过SparkStreaming分布式内存数据处理框架,从Kafka中获取不同的业务数据;4)处理数据:获取后的数据通过SparkOnYarn分布式数据计算程序,进行抽取、加工、转化;5)存储数据:将处理后的数据存储在高容错分布式的非关系型数据库Hbase中或者传统关系型数据库Sqlserver、Mysql中;6)共享数据:通过封装RestfulAPI接口提供数据获取和数据查询程序,对所有业务系统提供统一完整的政务服务数据。本专利技术的有益效果是;通过实时分布式处理数据解决政务服务数据大吞吐量和碎片化问题。具有1)高性能支持分布式数据存储和处理的集群体系架构;支持海量数据的存储和大量数据并发进行的数据交换2)高稳定性分布式集群架构使得部署的硬件设备也具备高可靠性,多台低成本的PC服务器组成的集群,即使有多台节点出现故障都依然可以不间断的提供数据融合和共享服务。3)高可扩展性根据存储和性能的需要,按需进行动态的增减节点,数据的存储能力和处理性能都会按照线性的的趋势增长。附图说明图1为本专利技术的原理流程图。具体实施方式以下结合附图及实施例对本专利技术进一步叙述。如图1所示,一种分布式实时数据处理政务服务数据的融合与共享方法,其特征在于,包括以下步骤:1)提供数据采集接口:数据采集程序通过封装Kafka提供RestfulAPI接口,对所有业务系统如工商局、烟草局、食药监局等提供统一的数据采集格式;2)采集数据:各个业务系统如工商局、烟草局等向数据采集接口提交数据;3)获取数据:通过SparkStreaming分布式内存数据处理框架,实时从Kafka中获取不同主题的业务数据,如工商、烟草、公安等;4)数据处理:获取数据后通过SparkOnYarn分布式数据计算程序,对数据进行抽取、加工、转化;5)数据存储:将处理后的数据,进行融合处理,并存储在高容错分布式的非关系型数据库Hbase、MongoDB中或者传统关系型数据库Sqlserver、Mysql中;6)共享数据:通过封装RestfulAPI接口提供数据获取和数据查询程序,对所有业务系统提供统一完整的政务服务数据。本文档来自技高网
...
一种分布式实时数据处理政务服务数据的融合与共享方法

【技术保护点】
一种分布式实时数据处理政务服务数据的融合与共享方法,其特征在于,包括以下步骤:1)提供数据采集接口:数据采集程序通过封装分布式消息订阅系统Kafka提供RestfulAPI数据接口,对所有业务系统提供统一的数据采集格式;2)提交数据:业务系统向数据采集接口提交业务数据;3)获取数据:通过SparkStreaming分布式内存数据处理框架,从Kafka中获取不同的业务数据;4)处理数据:获取后的数据通过Spark On Yarn分布式数据计算程序,进行抽取、加工、转化;5)存储数据:将处理后的数据存储在高容错分布式的非关系型数据库Hbase中或者传统关系型数据库Sqlserver、Mysql中;6)共享数据:通过封装RestfulAPI接口提供数据获取和数据查询程序,对所有业务系统提供统一完整的政务服务数据。

【技术特征摘要】
1.一种分布式实时数据处理政务服务数据的融合与共享方法,其特征在于,包括以下步骤:1)提供数据采集接口:数据采集程序通过封装分布式消息订阅系统Kafka提供RestfulAPI数据接口,对所有业务系统提供统一的数据采集格式;2)提交数据:业务系统向数据采集接口提交业务数据;3)获取数据:通过SparkStreaming分布式内存数据处理框架,从Kafka中...

【专利技术属性】
技术研发人员:赵扬
申请(专利权)人:北京易讯通信息技术股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1