一种基于配置文件和日志文件的跨组件数据流向审计方法和系统技术方案

技术编号：29708916 阅读：17 留言：0更新日期：2021-08-17 14:39

本发明专利技术涉及一种基于配置文件和日志文件的跨组件数据流向审计方法和系统。该方法的步骤包括：采集大数据平台中各个组件的配置文件和日志文件；根据采集的配置文件和日志文件，识别分布式环境下部署在不同物理服务器上的大数据组件；根据识别出的大数据组件并结合日志文件中的信息，构建跨组件的数据流向图；根据数据流向图进行数据流向的异常判定及告警。本发明专利技术通过采集各个组件的配置文件、运行日志文件、审计日志文件实现交叉验证，实现高精度的组件识别，结合凝练的安全审计模型，实现大数据平台整体数据流转情况的采集，进而支持业务流程中不同环节的数据使用情况审计，并能够对异常任务、异常数据使用场景进行识别和告警。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于配置文件和日志文件的跨组件数据流向审计方法和系统
本专利技术属于大数据
，具体提出一种基于大数据组件配置文件和日志文件的跨组件数据流向审计的方法和系统。
技术介绍
以Hadoop为代表的大数据技术自推出以来，重点解决了分布式环境下利用通用服务器进行海量数据计算的各类痛点，随着云技术的推广，各个集群陆续从内网走向外网，因为缺乏原生的数据保护机制，且大数据组件种类多、搭配和组合多，导致数据层面屡次出现泄漏事件，虽然各个组件也陆续推出了各种保护措施，但是缺乏整体角度的数据使用情况审计，无法对整个集群的数据流转及运行情况进行安全评估。数据流向不同于数据血缘，前者的重点在数据的流转过程，例如Kafka的订阅，本身不会产生新的数据关系，但是其被不同的用户订阅走的数据都需要进行追踪；数据血缘重点关注数据的衍生关系，并且囿于技术体系的不同，数据血缘的探究多在同一个组件中，一旦数据跨组件流转，尤其是在不同数据组件之间流转时，血缘关系很难获取，此外，因为不同的组件代表不同的处理过程，此时去追踪血缘也没有那么必要了。而数据流向的追踪对于数据安全，尤其是跟踪数据的使用情况，就显得非常重要。可以通过数据流向，跟踪每个不同的业务的具体处理逻辑，可以从不同的数据交互、业务逻辑交互中梳理出数据流转路径；可以通过数据流向发现业务的使用异常，例如一个新的数据流向的产生，以及一个既有数据流的中断，都一般是业务上产生了新变化或故障导致；可以通过数据流向情况，结合权限信息，发现一些漏洞，例如用户没有某个数据的权限，但是却拥有该数...

【技术保护点】
1.一种基于配置文件和日志文件的跨组件数据流向审计方法，其特征在于，包括以下步骤：/n采集大数据平台中各个组件的配置文件和日志文件；/n根据采集的配置文件和日志文件，识别分布式环境下部署在不同物理服务器上的大数据组件；/n根据识别出的大数据组件并结合日志文件中的信息，构建跨组件的数据流向图；/n根据数据流向图进行数据流向的异常判定及告警。/n

【技术特征摘要】
1.一种基于配置文件和日志文件的跨组件数据流向审计方法，其特征在于，包括以下步骤：
采集大数据平台中各个组件的配置文件和日志文件；
根据采集的配置文件和日志文件，识别分布式环境下部署在不同物理服务器上的大数据组件；
根据识别出的大数据组件并结合日志文件中的信息，构建跨组件的数据流向图；
根据数据流向图进行数据流向的异常判定及告警。

2.根据权利要求1所述的方法，其特征在于，所述日志文件包括运行日志文件、审计日志文件。

3.根据权利要求1所述的方法，其特征在于，通过包含集群、服务、角色、实例四层结构的组件构建模型，实现任意大数据组件的全局统一描述，其中：
集群：对应不同的数据中心，任意一个独立的数据中心就是一个集群；
服务：对应不同的大数据组件；
角色：对应某个服务下的不同功能角色；
实例：是指某个具体的运行的进程，是配置文件的最小单元。

4.根据权利要求3所述的方法，其特征在于，所述根据采集的配置文件和日志文件，识别分布式环境下部署在不同物理服务器上的大数据组件，包括：
1)采集某一组件的信息，依据组件构建模型所定义的要求，根据提前确定的数据字典，采集包括所属集群、服务、角色、实例等具体的基础信息；
2)将采集的基础信息作为初始判定列表，并在整个集群中探查所有节点；
3)对于待探查的节点，基于集群、服务名、角色名、实例IP，依次判定是否在初始判定列表中出现，如果没有出现，则将该待探查的节点的所属集群、服务名、角色名、实例IP插入初始判定列表，并基于“集群-服务-角色-添加时间-随机码”形成唯一的组件ID；
4)如果该待探查的节点的所属集群、服务名、角色名、实例IP已经在初始判定列表中出现，则交叉验证该待探查的节点的配置文件中的关键IP是否已经在初始判定列表中出现，如果未出现，则将该待探查的节点的配置文件中的关键IP插入初始判定列表；
5)如果该待探查的节点的配置文件中的关键IP已经在初始判定列表中出现，则进一步比对该待探查的节点的运行日志中的IP是否在初始判定列表中出现，如果有出现，则将该待探查的节点的运行日志中的IP更新到已有的对应ID下的组件，并更新属性；
6)如果该待探查的节点的运行日志中的IP没有在初始判定列表中出现，则放弃放弃该待探查的节点的运行日志中的IP；
7)依次循环执行上述过程，直至完成数据字典中所有已知组件和集群下所有节点的判定，最终的判定列表即为本集群的所有组件。

5.根据权利要求3所述的方法，其特征在于，所述根据识别出的大数据组件并结合日志文件中的信息，构...

【专利技术属性】
技术研发人员：马秉楠，王振宇，贾思宇，
申请(专利权)人：国家计算机网络与信息安全管理中心，中国科学院信息工程研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人