一种基于配置文件和日志文件的跨组件数据流向审计方法和系统技术方案

技术编号:29708916 阅读:17 留言:0更新日期:2021-08-17 14:39
本发明专利技术涉及一种基于配置文件和日志文件的跨组件数据流向审计方法和系统。该方法的步骤包括:采集大数据平台中各个组件的配置文件和日志文件;根据采集的配置文件和日志文件,识别分布式环境下部署在不同物理服务器上的大数据组件;根据识别出的大数据组件并结合日志文件中的信息,构建跨组件的数据流向图;根据数据流向图进行数据流向的异常判定及告警。本发明专利技术通过采集各个组件的配置文件、运行日志文件、审计日志文件实现交叉验证,实现高精度的组件识别,结合凝练的安全审计模型,实现大数据平台整体数据流转情况的采集,进而支持业务流程中不同环节的数据使用情况审计,并能够对异常任务、异常数据使用场景进行识别和告警。

【技术实现步骤摘要】
一种基于配置文件和日志文件的跨组件数据流向审计方法和系统
本专利技术属于大数据
,具体提出一种基于大数据组件配置文件和日志文件的跨组件数据流向审计的方法和系统。
技术介绍
以Hadoop为代表的大数据技术自推出以来,重点解决了分布式环境下利用通用服务器进行海量数据计算的各类痛点,随着云技术的推广,各个集群陆续从内网走向外网,因为缺乏原生的数据保护机制,且大数据组件种类多、搭配和组合多,导致数据层面屡次出现泄漏事件,虽然各个组件也陆续推出了各种保护措施,但是缺乏整体角度的数据使用情况审计,无法对整个集群的数据流转及运行情况进行安全评估。数据流向不同于数据血缘,前者的重点在数据的流转过程,例如Kafka的订阅,本身不会产生新的数据关系,但是其被不同的用户订阅走的数据都需要进行追踪;数据血缘重点关注数据的衍生关系,并且囿于技术体系的不同,数据血缘的探究多在同一个组件中,一旦数据跨组件流转,尤其是在不同数据组件之间流转时,血缘关系很难获取,此外,因为不同的组件代表不同的处理过程,此时去追踪血缘也没有那么必要了。而数据流向的追踪对于数据安全,尤其是跟踪数据的使用情况,就显得非常重要。可以通过数据流向,跟踪每个不同的业务的具体处理逻辑,可以从不同的数据交互、业务逻辑交互中梳理出数据流转路径;可以通过数据流向发现业务的使用异常,例如一个新的数据流向的产生,以及一个既有数据流的中断,都一般是业务上产生了新变化或故障导致;可以通过数据流向情况,结合权限信息,发现一些漏洞,例如用户没有某个数据的权限,但是却拥有该数据的一个下游子集的权限,则必然会导致信息的泄露。
技术实现思路
本专利技术聚焦Hadoop生态下,采用轻量级侵扰方式,通过采集各个组件的配置文件、运行日志文件、审计日志文件实现交叉验证,实现高精度的组件识别,结合凝练的安全审计模型,实现大数据平台整体数据流转情况的采集,进而支持业务流程中不同环节的数据使用情况审计,并能够对异常任务、异常数据使用场景进行识别和告警。为实现上述目的,本专利技术采用的技术方案如下:一种基于配置文件和日志文件的跨组件数据流向审计方法,包括以下步骤:采集大数据平台中各个组件的配置文件和日志文件;根据采集的配置文件和日志文件,识别分布式环境下部署在不同物理服务器上的大数据组件;根据识别出的大数据组件并结合日志文件中的信息,构建跨组件的数据流向图;根据数据流向图进行数据流向的异常判定及告警。进一步地,所述日志文件包括运行日志文件、审计日志文件。进一步地,通过包含集群、服务、角色、实例四层结构的组件构建模型,实现任意大数据组件的全局统一描述,其中:集群:对应不同的数据中心,任意一个独立的数据中心就是一个集群;服务:对应不同的大数据组件;角色:对应某个服务下的不同功能角色;实例:是指某个具体的运行的进程,是配置文件的最小单元。进一步地,所述根据采集的配置文件和日志文件,识别分布式环境下部署在不同物理服务器上的大数据组件,包括:1)采集某一组件的信息,依据组件构建模型所定义的要求,根据提前确定的数据字典,采集包括所属集群、服务、角色、实例等具体的基础信息;2)将采集的基础信息作为初始判定列表,并在整个集群中探查所有节点;3)对于待探查的节点,基于集群、服务名、角色名、实例IP,依次判定是否在初始判定列表中出现,如果没有出现,则将该待探查的节点的所属集群、服务名、角色名、实例IP插入初始判定列表,并基于“集群-服务-角色-添加时间-随机码”形成唯一的组件ID;4)如果该待探查的节点的所属集群、服务名、角色名、实例IP已经在初始判定列表中出现,则交叉验证该待探查的节点的配置文件中的关键IP是否已经在初始判定列表中出现,如果未出现,则将该待探查的节点的配置文件中的关键IP插入初始判定列表;5)如果该待探查的节点的配置文件中的关键IP已经在初始判定列表中出现,则进一步比对该待探查的节点的运行日志中的IP是否在初始判定列表中出现,如果有出现,则将该待探查的节点的运行日志中的IP更新到已有的对应ID下的组件,并更新属性;6)如果该待探查的节点的运行日志中的IP没有在初始判定列表中出现,则放弃放弃该待探查的节点的运行日志中的IP;7)依次循环执行上述过程,直至完成数据字典中所有已知组件和集群下所有节点的判定,最终的判定列表即为本集群的所有组件。进一步地,所述根据识别出的大数据组件并结合日志文件中的信息,构建跨组件的数据流向图,包括:基于所述组件构建模型,从日志数据中提取两个关键实体:数据实体、程序实体;基于程序实体、数据实体构建数据流向图,数据流向图中的任意两个实体都通过读、写关系关联。进一步地,构建所述数据流向图时,首先构建原子数据流向信息,然后将多个原子数据流向信息进行去重、合并、统一后得到整个集群的完整数据流向信息。进一步地,所述根据数据流向图进行数据流向的异常判定及告警,包括:1)通过关联权限信息,支持查验是否有权限设置的遗漏环节,具体包括以下步骤:a)构建集群的数据流向信息,存储在图数据库中;b)将待核验的用户权限信息作为输入条件,在数据流向中进行检索,查看被授权数据的前后数据流;c)确定前后流转关系中是否出现该用户无权访问的信息,如果有,则进行告警;2)通过设定判定阈值,自动发现流量变化异常的数据流,含新增、中断流程,并支持展示相关组件和对应的部署信息,对变化异常的数据流进行告警推送;具体包括以下步骤:a)构建集群的数据流向信息,存储在图数据库中;b)基于时间条件,查看某个时间点之前存在数据流向,但是该时间点后消失的数据流向,并将检索结果推送告警;c)基于时间条件,查看某个时间点之前不存在数据流向,但是该时间点后出现的数据流向,并将检索结果推送告警。一种采用上述方法的基于配置文件和日志文件的跨组件数据流向审计系统,包括文件采集模块、日志实时计算模块、日志存储模块、日志离线分析模块和可视化展示模块;所述文件采集模块用于采集物理服务器的配置文件和日志文件,并对本地数据进行去重、标准化处理;所述日志实时计算模块用于进行全局的数据去重、标准化、归一化,并进行大数据组件的识别和ID生成;所述日志离线分析模块用于实现数据流向图的构建和数据流向异常分析;所述日志存储模块用于实现各类原始日志数据、配置文件数据的存储;所述可视化展示模块用于展示包括数据、程序实体、组件属性在内的各种信息。本专利技术提出的方法具有以下的优点及效果:1.组件自动识别。通过预置的元数据和字典信息(字典信息即大数据组件的一些关键信息,例如对于HDFS,该字典会存储HDFS的NameNode的URI、配置文件所在的存储目录等信息),自动识别任意大数据集群中不同物理机上部署的各个不同大数据组件的具体角色,准确率高,并能将信息进行统一汇总,支持去重本文档来自技高网
...

【技术保护点】
1.一种基于配置文件和日志文件的跨组件数据流向审计方法,其特征在于,包括以下步骤:/n采集大数据平台中各个组件的配置文件和日志文件;/n根据采集的配置文件和日志文件,识别分布式环境下部署在不同物理服务器上的大数据组件;/n根据识别出的大数据组件并结合日志文件中的信息,构建跨组件的数据流向图;/n根据数据流向图进行数据流向的异常判定及告警。/n

【技术特征摘要】
1.一种基于配置文件和日志文件的跨组件数据流向审计方法,其特征在于,包括以下步骤:
采集大数据平台中各个组件的配置文件和日志文件;
根据采集的配置文件和日志文件,识别分布式环境下部署在不同物理服务器上的大数据组件;
根据识别出的大数据组件并结合日志文件中的信息,构建跨组件的数据流向图;
根据数据流向图进行数据流向的异常判定及告警。


2.根据权利要求1所述的方法,其特征在于,所述日志文件包括运行日志文件、审计日志文件。


3.根据权利要求1所述的方法,其特征在于,通过包含集群、服务、角色、实例四层结构的组件构建模型,实现任意大数据组件的全局统一描述,其中:
集群:对应不同的数据中心,任意一个独立的数据中心就是一个集群;
服务:对应不同的大数据组件;
角色:对应某个服务下的不同功能角色;
实例:是指某个具体的运行的进程,是配置文件的最小单元。


4.根据权利要求3所述的方法,其特征在于,所述根据采集的配置文件和日志文件,识别分布式环境下部署在不同物理服务器上的大数据组件,包括:
1)采集某一组件的信息,依据组件构建模型所定义的要求,根据提前确定的数据字典,采集包括所属集群、服务、角色、实例等具体的基础信息;
2)将采集的基础信息作为初始判定列表,并在整个集群中探查所有节点;
3)对于待探查的节点,基于集群、服务名、角色名、实例IP,依次判定是否在初始判定列表中出现,如果没有出现,则将该待探查的节点的所属集群、服务名、角色名、实例IP插入初始判定列表,并基于“集群-服务-角色-添加时间-随机码”形成唯一的组件ID;
4)如果该待探查的节点的所属集群、服务名、角色名、实例IP已经在初始判定列表中出现,则交叉验证该待探查的节点的配置文件中的关键IP是否已经在初始判定列表中出现,如果未出现,则将该待探查的节点的配置文件中的关键IP插入初始判定列表;
5)如果该待探查的节点的配置文件中的关键IP已经在初始判定列表中出现,则进一步比对该待探查的节点的运行日志中的IP是否在初始判定列表中出现,如果有出现,则将该待探查的节点的运行日志中的IP更新到已有的对应ID下的组件,并更新属性;
6)如果该待探查的节点的运行日志中的IP没有在初始判定列表中出现,则放弃放弃该待探查的节点的运行日志中的IP;
7)依次循环执行上述过程,直至完成数据字典中所有已知组件和集群下所有节点的判定,最终的判定列表即为本集群的所有组件。


5.根据权利要求3所述的方法,其特征在于,所述根据识别出的大数据组件并结合日志文件中的信息,构...

【专利技术属性】
技术研发人员:马秉楠王振宇贾思宇
申请(专利权)人:国家计算机网络与信息安全管理中心中国科学院信息工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1