A fusion of government service data in distributed real-time data processing and sharing methods, including data acquisition interface, submit data, data acquisition, data processing, data storage, data sharing six steps cluster architecture for distributed data storage and processing; support the massive data storage and data concurrent data exchange. Distributed cluster architecture makes the deployment of hardware equipment also have high reliability, a low cost PC server consists of clusters and even provide data integration and sharing service of multiple node failures are still uninterrupted, according to the needs of storage and performance, change dynamically according to the requirements of storage and processing performance the data will be in accordance with the linear growth trend.
【技术实现步骤摘要】
一种分布式实时数据处理政务服务数据的融合与共享方法
本专利技术属于政务大数据的采集、处理、存储和应用
,具体涉及一种分布式实时数据处理政务服务数据的融合与共享方法。
技术介绍
政务服务数据是来自各个政务业务系统的数据源,所以数据独立分割从而形成了“数据孤岛”。市民、企业在申办政务服务时,会重复填写大量的数据到不同的业务系统中,使得服务政务申报事项、审批事项数据碎片化。市民、企业申报政务事项时,重复填写申报数据,提交重复附件材料,降低了政务服务体验及政务服务效率,增多了市民、企业在申办事项过程中所需的中间环节及申办材料,导致申办等候时间及项目审批时间延长。因此,基于该专利说明实现政务服务数据的跨平台多源数据融合共享。目前存在的问题:1)如何从多个数据源高效采集正确的数据各个业务系统的数据源都不一样,有大量的历史数据,也有新数据的不断进入。而且各个业务系统都在稳定运行,不会进行大幅度的修改,在保证数据采集的同时尽量不需要修改业务系统。对接业务系统繁多,怎样保证高吞吐稳定的采集数据;2)如何对采集的数据做ETL从多个数据源采集的数据,会有大量的重复冗余数据,需要去 ...
【技术保护点】
一种分布式实时数据处理政务服务数据的融合与共享方法,其特征在于,包括以下步骤:1)提供数据采集接口:数据采集程序通过封装分布式消息订阅系统Kafka提供RestfulAPI数据接口,对所有业务系统提供统一的数据采集格式;2)提交数据:业务系统向数据采集接口提交业务数据;3)获取数据:通过SparkStreaming分布式内存数据处理框架,从Kafka中获取不同的业务数据;4)处理数据:获取后的数据通过Spark On Yarn分布式数据计算程序,进行抽取、加工、转化;5)存储数据:将处理后的数据存储在高容错分布式的非关系型数据库Hbase中或者传统关系型数据库Sqlserv ...
【技术特征摘要】
1.一种分布式实时数据处理政务服务数据的融合与共享方法,其特征在于,包括以下步骤:1)提供数据采集接口:数据采集程序通过封装分布式消息订阅系统Kafka提供RestfulAPI数据接口,对所有业务系统提供统一的数据采集格式;2)提交数据:业务系统向数据采集接口提交业务数据;3)获取数据:通过SparkStreaming分布式内存数据处理框架,从Kafka中...
【专利技术属性】
技术研发人员:赵扬,
申请(专利权)人:北京易讯通信息技术股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。