一种多环境隔离的政务大数据处理方法技术

技术编号:36754027 阅读:10 留言:0更新日期:2023-03-04 10:43
本发明专利技术公开了一种多环境隔离的政务大数据处理方法,包括政务数据交换平台、生产集群、开发集群、数据同步模块、程序验证模块、数据处理的脚本或程序,所述政务数据交换平台的输出端与生产集群的输入端单向电性连接,所述生产集群的输出端与数据同步模块的输入端单向电性连接,所述数据同步模块的输出端与开发集群的输入端单向电性连接;本发明专利技术通过隔离生产集群与开发集群,应用元数据同步和数据脱敏技术,实现了数据开发人员不必接触真实数据且开发成果可无缝移植的效果,达到了数据可用不可见的目标,能够更好地确保政务大数据安全。能够更好地确保政务大数据安全。能够更好地确保政务大数据安全。

【技术实现步骤摘要】
一种多环境隔离的政务大数据处理方法


[0001]本专利技术涉及大数据处理
,具体为一种多环境隔离的政务大数据处理方法。

技术介绍

[0002]现有的政务大数据处理平台,多通过数据共享交换平台采集各政务部门的真实数据存储于大数据集群中,并在同一集群中进行ETL流程的开发和部署。由于大数据分析多关注数据间的关联性和数据规模,常规开发环境难以达到完全一致,数据开发人员不可避免地需要直接接触真实数据,为保障数据安全,需要进行较复杂的数据分级分类管控和人员授权、操作审计工作。
[0003]现有技术的步骤:将数据从交换平台采集至大数据平台;开发人员根据数据需求进行开发,如编写hivesql脚本/spark程序;测试和验证脚本/程序可正常执行并能得到预期结果,一般将其写入专用临时性存储区域;测试通过后将脚本/程序正式部署至集群。
[0004]现有技术的缺点:数据开发人员直接在生产环境操作,存在较高的误操作风险,影响不可控;开发人员可接触到真实明细数据,有数据泄露风险;开发测试阶段消耗集群的存储空间和算力,可能影响生产的可用性。

技术实现思路

[0005]为实现上述目的,本专利技术提供如下技术方案:一种多环境隔离的政务大数据处理方法,包括政务数据交换平台、生产集群、开发集群、数据同步模块、程序验证模块、数据处理的脚本或程序,所述政务数据交换平台的输出端与生产集群的输入端单向电性连接,所述生产集群的输出端与数据同步模块的输入端单向电性连接,所述数据同步模块的输出端与开发集群的输入端单向电性连接,所述程序验证模块的输出端与生产集群的输入端单向电性连接,所述数据处理的脚本或程序的输出端与开发集群的输入端单向电性连接。
[0006]优选的,所述政务数据交换平台指用于政务部门间数据共享和传输的基础设施,数据处理部门可通过它以前置数据库、FTP服务器、接口等方式采集其他局办交换过来的数据。
[0007]优选的,所述生产集群是基于Hadoop体系的大数据处理平台,包括存储组件和计算组件,存储组件组织和存放从数据交换平台采集来的真实数据,计算组件提供对存储模块中数据进行处理分析的能力,计算结果存放于存储组件中。
[0008]优选的,所述开发集群是与生产集群相同但独立的部署版本,其存储组件根据生产集群中存储组件的元数据镜像生成,计算组件提供对存储组件中数据进行处理分析的能力,计算结果存放于存储组件中。
[0009]优选的,所述数据处理脚本或程序指由开发人员编写的用于实现具体数据需求的建模脚本、Spark程序、ETL流程配置文件等,可在计算组件中执行。
[0010]优选的,所述数据交换平台与生产集群可通信,与其他部件皆不可通信。
[0011]优选的,所述生产集群与开发集群不可直接通信,数据同步模块与生产集群通信,获取其存储组件的元数据和部分脱敏样例数据,应用到开发集群的存储组件中。
[0012]优选的,所述数据处理脚本或程序由开发人员提交至开发集群的计算组件中,脚本或程序只能读写开发集群存储组件中的脱敏数据,开发人员可在开发集群中调试、验证执行结果。
[0013]优选的,所述程序验证模块从开发集群获取数据开发人员提交的脚本或程序,通过人工评审后,上传部署至生产集群的计算组件中。
[0014]与现有技术相比,本专利技术的有益效果如下:
[0015]1.确保汇聚一处的政务数据被严格管控,降低数据安全风险;
[0016]2.在开发人员不接触真实数据的前提下,仍能正常实现数据需求,达到数据可用不可见的效果;
[0017]3.消除数据开发阶段大量调试、验证工作对生产环境带来的影响,包括资源抢用、高危误操作等;
[0018]4.本专利技术通过隔离生产集群与开发集群,应用元数据同步和数据脱敏技术,实现了数据开发人员不必接触真实数据且开发成果可无缝移植的效果,达到了数据可用不可见的目标,能够更好地确保政务大数据安全。
附图说明
[0019]图1为现有政务大数据处理平台多采用单一集群方法示意图;
[0020]图2为本专利技术流程示意图;
[0021]图3为本专利技术步骤流程示意图。
具体实施方式
[0022]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0023]请参阅图1,一种多环境隔离的政务大数据处理方法,包括政务数据交换平台1、生产集群2(由存储组件3与计算组件4构成)、开发集群5(由存储组件6与计算组件7构成)、数据同步模块8、程序验证模块10、数据处理的脚本或程序9,政务数据交换平台1的输出端与生产集群2的输入端单向电性连接,生产集群2的输出端与数据同步模块8的输入端单向电性连接,数据同步模块8的输出端与开发集群5的输入端单向电性连接,程序验证模块10的输出端与生产集群2的输入端单向电性连接,数据处理的脚本或程序9的输出端与开发集群5的输入端单向电性连接。
[0024]政务数据交换平台1指用于政务部门间数据共享和传输的基础设施,部门的数据处理人员可通过它以前置数据库、FTP服务器、接口等方式采集其他局办交换过来的数据。
[0025]生产集群2是基于Hadoop体系的大数据处理平台,包括存储组件3和计算组件4,存储组件3组织和存放从数据交换平台采集来的真实数据,计算组件4可运行数据处理脚本或程序9,读取存储组件3中的数据并将计算结果写入其中。
[0026]开发集群5是与生产集群2完全相同但独立部署的另一集群,性能可显著弱于生产集群2,其存储组件6根据生产集群2中存储组件3的元数据镜像生成,计算组件7可运行数据处理脚本或程序9,读取存储组件6中的数据并将计算结果写入其中。
[0027]数据同步模块8可与生产集群2和开发集群5通信,从生产集群2中获取存储组件3的元数据和部分脱敏样例数据,应用到开发集群5的存储组件6中,使得存储组件6成为存储组件3的脱敏镜像。
[0028]数据处理脚本或程序9指由数据开发人员编写的用于实现具体数据需求的建模脚本、Spark程序、ETL流程配置文件等,在生产集群2或开发集群5中均可运行。在生产集群2上运行时,使用计算组件4执行,读写存储组件3中的数据;在开发集群5上运行时,使用计算组件7执行,读写存储组件6中的数据。开发人员可将数据处理脚本或程序9直接提交至开发集群5中运行、调试,但无法提交至生产集群2中。
[0029]所属程序验证模块10是代码版本管理工具,具备代码检测、人工评审功能,用于验证数据处理脚本或程序9中没有恶意代码、不会产生危险行为、未操作敏感数据等。数据处理脚本或程序9必须先提交至该模块,通过代码检测和人工评审之后,再由程序验证模块10上传至生产集群2的计算组件4中运行。
[0030]数据交换平台1仅与生产集群2本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多环境隔离的政务大数据处理方法,其特征在于:包括政务数据交换平台、生产集群、开发集群、数据同步模块、程序验证模块、数据处理的脚本或程序,所述政务数据交换平台的输出端与生产集群的输入端单向电性连接,所述生产集群的输出端与数据同步模块的输入端单向电性连接,所述数据同步模块的输出端与开发集群的输入端单向电性连接,所述程序验证模块的输出端与生产集群的输入端单向电性连接,所述数据处理的脚本或程序的输出端与开发集群的输入端单向电性连接。2.根据权利要求1所述的一种多环境隔离的政务大数据处理方法,其特征在于:所述政务数据交换平台指用于政务部门间数据共享和传输的基础设施,数据处理部门可通过它以前置数据库、FTP服务器、接口等方式采集其他局办交换过来的数据。3.根据权利要求1所述的一种多环境隔离的政务大数据处理方法,其特征在于:所述生产集群是基于Hadoop体系的大数据处理平台,包括存储组件和计算组件,存储组件组织和存放从数据交换平台采集来的真实数据,计算组件提供对存储模块中数据进行处理分析的能力,计算结果存放于存储组件中。4.根据权利要求1所述的一种多环境隔离的政务大数据处理方法,其特征在于:所述开发集群是与生产集群相同但独立的部署版本,其存储组件根据...

【专利技术属性】
技术研发人员:宋绪文何海兵王宏峰
申请(专利权)人:苏州大数据交易服务有限公司苏州大数据研究院有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1