基于大数据集群架构的数据处理系统、方法、设备及介质技术方案

技术编号:37793607 阅读:23 留言:0更新日期:2023-06-09 09:23
本发明专利技术实施例提供了一种基于大数据集群架构的数据处理系统、方法、设备及介质,涉及大数据技术领域,其中,该系统包括:管理节点包括:任务接收模块,用于针对通过身份认证和权限检查的用户,接收所述用户输入的计算任务;任务划分模块,用于将所述计算任务中敏感数据的计算任务划分为第一计算任务;任务提交模块,用于向所述大数据集群架构中的计算节点发送第一运行请求,其中,所述第一运行请求用于请求在可信执行环境中运行所述第一计算任务;计算节点包括:第一任务运行模块,用于响应于所述第一运行请求,在所述可信执行环境中运行所述第一计算任务。该方案有利于提高运行敏感数据的计算任务的安全性。数据的计算任务的安全性。数据的计算任务的安全性。

【技术实现步骤摘要】
基于大数据集群架构的数据处理系统、方法、设备及介质


[0001]本专利技术涉及大数据
,特别涉及一种基于大数据集群架构的数据处理系统、方法、设备及介质。

技术介绍

[0002]随着互联网发展带来的数据规模的提升,大数据计算平台随之诞生且经历了飞速发展,从谷歌提出的GFS和开源的Hadoop,到后来的Spark、Hive、Presto等大数据计算框架,如今支撑着众多大数据场景的计算任务。这些大数据框架在数据规模提升到单机很难在可接受的时间内完成的计算场景中,可以将用户输入的计算任务分解到集群内的众多节点上以分布式的方式完成,汇总得到最后的结果。
[0003]这些大数据框架部署在可以扩展节点数量的集群上,同时配备了一定的安全措施,如Hadoop和Presto等框架的服务验证鉴权支持kerberos系统。如图1所示,应用服务作为客户端Client调用其他服务Service前,需要通过kerberos的密钥分发服务器KDC进行身份认证获取访问票据TGT(Ticket Getting Ticket)。客户端再用需要访问的服务名称(如HDFS)去KDC获取SGT(Service Granting Ticket,服务许可票据),客户端就可以用SGT去访问服务,服务就可以验证客户端的身份,验证通过后客户端就可以正常访问Service服务。
[0004]大数据系统的维护方和用户主要可以分为系统运维人员、应用系统管理员和普通用户。
[0005]任何系统都不能保证在未来不会面临新的安全威胁场景,比如,系统隐藏的漏洞、安全策略的过期、运维人员的疏忽导致权限控制不当、社工攻击导致管理员账号泄漏、新的密码破解算法等导致的安全威胁场景。
[0006]在以上安全威胁场景中,攻击者可以从多个位置以多种形式进行攻击,例如,
[0007]1.攻击者可以伪造为普通用户或应用系统管理员,从而具有Client的执行权限,可以通过Kerberos的认证过程,获得访问数据的权限,进而窃取用户数据;
[0008]2.攻击者攻击大数据系统本身,从应用系统底层获取运维人员权限,可以修改应用服务运行参数,因而可以绕过kerberos等认证方式,进而可以窃取任意用户数据。
[0009]综上,目前基于大数据框架的数据处理依然面临安全威胁,存在安全性低的缺陷。

技术实现思路

[0010]有鉴于此,本专利技术实施例提供了一种基于大数据集群架构的数据处理系统,以解决现有技术中基于大数据框架的数据处理存在安全性低的技术问题。所述大数据集群架构包括管理节点和计算节点,所述系统包括:
[0011]所述管理节点,包括:
[0012]任务接收模块,用于针对通过身份认证和权限检查的用户,接收所述用户输入的计算任务;
[0013]任务划分模块,用于将所述计算任务中敏感数据的计算任务划分为第一计算任
务;
[0014]任务提交模块,用于向所述大数据集群架构中的计算节点发送第一运行请求,其中,所述第一运行请求用于请求在可信执行环境中运行所述第一计算任务;
[0015]所述计算节点,包括:
[0016]第一任务运行模块,用于响应于所述第一运行请求,在所述可信执行环境中运行所述第一计算任务。
[0017]本专利技术实施例还提供了一种数据处理方法,所述数据处理方法运行在大数据集群架构中的管理节点上,以解决现有技术中基于大数据框架的数据处理存在安全性低的技术问题。该方法包括:
[0018]针对通过身份认证和权限检查的用户,接收所述用户输入的计算任务;
[0019]将所述计算任务中敏感数据的计算任务划分为第一计算任务;
[0020]向所述大数据集群架构中的计算节点发送第一运行请求,其中,所述第一运行请求用于请求在可信执行环境中运行所述第一计算任务。
[0021]本专利技术实施例还提供了一种数据处理方法,所述数据处理方法运行在大数据集群架构中的计算节点上,以解决现有技术中基于大数据框架的数据处理存在安全性低的技术问题。该方法包括:
[0022]接收第一运行请求,其中,所述第一运行请求用于请求在可信执行环境中运行第一计算任务,所述第一计算任务包括敏感数据的计算任务;
[0023]响应于所述第一运行请求,在所述可信执行环境中运行所述第一计算任务。
[0024]本专利技术实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意的数据处理方法,以解决现有技术中基于大数据框架的数据处理存在安全性低的技术问题。
[0025]本专利技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述任意的数据处理方法的计算机程序,以解决现有技术中基于大数据框架的数据处理存在安全性低的技术问题。
[0026]与现有技术相比,本说明书实施例采用的上述至少一个技术方案能够达到的有益效果至少包括:针对通过身份认证和权限检查的用户,管理节点接收该用户输入的计算任务后,将计算任务中敏感数据的计算任务划分为第一计算任务,进而计算节点响应于第一运行请求,在可信执行环境中运行第一计算任务。实现了基于零信任的理念,为大数据集群引入TEE(可信执行环境)计算环境,结合身份认证服务和权限控制服务,对用户身份进行验证和权限检查之后,通过计算任务划分将敏感数据的计算任务划分出来,进而将敏感数据的计算任务在可信执行环境中运行,实现了敏感数据的计算任务的隔离运行,有利于避免敏感数据的计算任务被篡改或数据泄露,进而有利于提高运行敏感数据的计算任务的安全性。
附图说明
[0027]为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0028]图1是现有技术中的一种用于大数据集群架构的服务验证鉴权的示意图;
[0029]图2是本专利技术实施例提供的一种大数据集群架构的示意图;
[0030]图3是本专利技术实施例提供的一种基于大数据集群架构的数据处理系统的结构框图;
[0031]图4是本专利技术实施例提供的一种用于上述基于大数据集群架构的数据处理系统处理数据的流程示意图;
[0032]图5是本专利技术实施例提供的一种运行在大数据集群架构中的管理节点上的数据处理方法的流程图;
[0033]图6是本专利技术实施例提供的一种运行在大数据集群架构中的计算节点上的数据处理方法的流程图;
[0034]图7是本专利技术实施例提供的一种计算机设备的结构框图。
具体实施方式
[0035]下面结合附图对本申请实施例进行详细描述。
[0036]以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。显然,所描述的实施例仅仅是本申请一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据集群架构的数据处理系统,所述大数据集群架构包括管理节点和计算节点,其特征在于,所述系统包括:所述管理节点,包括:任务接收模块,用于针对通过身份认证和权限检查的用户,接收所述用户输入的计算任务;任务划分模块,用于将所述计算任务中敏感数据的计算任务划分为第一计算任务;任务提交模块,用于向所述大数据集群架构中的计算节点发送第一运行请求,其中,所述第一运行请求用于请求在可信执行环境中运行所述第一计算任务;所述计算节点,包括:第一任务运行模块,用于响应于所述第一运行请求,在所述可信执行环境中运行所述第一计算任务。2.如权利要求1所述的基于大数据集群架构的数据处理系统,其特征在于,所述任务划分模块,用于在所述计算任务中确定与自然人有关的每一条信息;确定每一条信息所属的自然人的数量,将所述数量小于预设阈值的每一条信息确定为敏感数据,并将与所述敏感数据有关的计算任务划分为所述第一计算任务。3.如权利要求1所述的基于大数据集群架构的数据处理系统,其特征在于,所述任务提交模块,用于在所述第一运行请求中添加所述可信执行环境的相关信息和待运行的程序命令后,向所述大数据集群架构中的计算节点发送所述第一运行请求;所述第一任务运行模块,用于响应于所述第一运行请求,采用可信执行环境虚拟机,根据所述可信执行环境的相关信息,构建所述可信执行环境,在所述可信执行环境中运行所述待运行的程序命令。4.如权利要求3所述的基于大数据集群架构的数据处理系统,其特征在于,所述计算节点,还包括:服务度量模块,用于通过服务度量服务判断所述可信执行环境虚拟机中可信执行环境的相关信息与所述可信执行环境的相关信息是否一致;所述第一任务运行模块,用于在所述可信执行环境虚拟机中可信执行环境的相关信息与所述可信执行环境的相关信息一致时,在所述可信执行环境中运行所述待运行的程序命令。5.如权利要求4所述的基于大数据集群架构的数据处理系统,其特征在于,所述服务度量模块,还用于在所述可信执行环境中运行所述待运行的程序命令的过程中,通过服务度量服务判断...

【专利技术属性】
技术研发人员:请求不公布姓名
申请(专利权)人:北京瑞莱智慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1