The invention discloses a distributed origin data collection and storage system, including: the origin of the kernel information collection module, user state origin records generated module and memory module, wherein, the origin of the information collection module is a lightweight stackable file system, POSIX file system can be mounted in any standard, the origin of information the origin of the log collection module collects the origin records generated module analysis, generate the origin, the storage layer module to distributed file system for storage backend provides storage service for the other two modules and will have persistent source records to the key database type origin. The invention has high flexibility and high portability, and is suitable for any distributed file system supporting the POSIX standard, and has low cost performance which can not be collected in the user state to collect the origin information.
【技术实现步骤摘要】
一种分布式起源数据收集与存储系统
本专利技术涉及分布式文件系统中起源数据收集
,具体涉及一种分布式起源数据收集与存储系统,更具体的说涉及了一种适用于任意POSIX标准分布式文件系统的高性能起源数据收集与存储系统。
技术介绍
随着云存储平台的数据量不断增长,人们不满足于仅仅对海量数据的存储,而且希望能从海量数据中挖掘出更多的价值。另外,对于用户来说,数据的可靠性也变得越来越重要。比如,当用户在分布式文件系统中获取一个文件时,用户可能会问,这个文件是怎么来的,与其他文件存在什么联系,可靠性和安全性如何?显然,存储系统所收集的普通日志无法从根本上回答这些问题。起源(Provenance)信息作为一种描述数据对象演化历史的特殊元数据,正好可以用来回答上述问题。通过利用起源信息,用户可以更准确地表达分布式存储中数据的特征,进一步挖掘数据的价值,充分提升分布式存储系统中复杂数据的分析和应用。目前,大部分的起源收集存储系统只适用于本地存储或特定云服务(如AWS),不能满足主流分布式文件系统的需求。文献[Transparentresultcaching]、文献[Lineagefilesystem]以及文献[Provenance-awarestoragesystems]通过修改系统内核,从而达到在本地系统收集起源数据的目的,这不仅对原系统产生安全隐患,而且不能直接适用于分布式环境。中国专利公开号为CN104092755A的专利以及文献[Provenanceforthecloud]设计了专门的服务拦截协议收集云端的起源数据,但这两个起源收集装置只适用于特定的与服务,不能 ...
【技术保护点】
一种分布式起源数据收集与存储系统,其特征在于,该系统包括:起源信息收集模块、起源记录生成模块以及存储层模块,其中,所述起源信息收集模块处于内核态,通过wrapfs堆叠式文件系统技术以及劫持系统调用,分别收集分布式文件系统客户端的文件操作记录与进程行为记录,缓冲在一个环形缓冲队列中,异步将缓冲队列的起源日志持久化到日志文件中;所述起源记录生成模块处于用户态,用于批量处理起源日志,生成文件、进程的起源关系记录,并调用所述存储层模块接口持久化起源关系记录到键值型起源数据库;所述存储层模块包括起源日志文件以及存储起源日志记录的键值型起源数据库,以分布式文件系统作为存储后端提供存储服务,并将起源记录持久化到键值型起源数据库中。
【技术特征摘要】
1.一种分布式起源数据收集与存储系统,其特征在于,该系统包括:起源信息收集模块、起源记录生成模块以及存储层模块,其中,所述起源信息收集模块处于内核态,通过wrapfs堆叠式文件系统技术以及劫持系统调用,分别收集分布式文件系统客户端的文件操作记录与进程行为记录,缓冲在一个环形缓冲队列中,异步将缓冲队列的起源日志持久化到日志文件中;所述起源记录生成模块处于用户态,用于批量处理起源日志,生成文件、进程的起源关系记录,并调用所述存储层模块接口持久化起源关系记录到键值型起源数据库;所述存储层模块包括起源日志文件以及存储起源日志记录的键值型起源数据库,以分布式文件系统作为存储后端提供存储服务,并将起源记录持久化到键值型起源数据库中。2.根据权利要求1所述的一种分布式起源数据收集与存储系统,其特征在于,所述起源信息收集模块包括IO拦截子模块、进程拦截子模块、起源信息收集器以及起源信息记录器;其中,所述IO拦截子模块基于wrapfs堆栈式文件系统,处于虚拟文件系统与具体文件系统之间,通过修改wrapfs文件系统的IO操作接口,完成对虚拟文件系统下发IO的拦截监控;所述进程拦截子模块是在Linux系统环境的客户端下,当文件系统挂载时,开启监控进程相关系统调用exit和exit_group,当文件系统卸载时,关闭监控进程相关系统调用;所述起源信息收集器用于收集分布式文件系统客户端的文件操作记录与进程行为记录;所述起源信息记录器用于将缓冲队列的起源日志持久化到日志文件中。3.根据权利要求2所述的一种分布式起源数据收集与存储系统,其特征在于,所述起源信息收集器收集的IO起源记录包含以下信息:记录类型(读/写)、进程PID、进程启动时间stime、文件的inode号、操作时间、用户UID、文件绝对路径的长度、文件绝对路径。4.根据权利要求2所述的一种分布式起源数据收集与存储系统,其特征在于,所述起源信息收集器收集的进程起源记录包含以下信息:记录类型、用户UID、进程PID、父进程PID、进程启动时间stime、进程结束时间etime、父进程启动时间、程序路径长度、环境信息长度、程序路径和环境信息,其中,所述进程PID与所述进程启动时间stime作为标识一个进程的唯一标识。5.根据权利要求1所述的一种分布式起源数据收集与存储系统,其特征在于,所述起源信息收集模块采用一个暂存起源记录的环形缓冲池,所述环形缓冲池采用kfifo数据结构,并具有一个内核线程作为起源日志异步刷写线程。6.根据权利要求1所述的一种分布式起源数据收集与存储系统,其特征在于,所述起源记录生成模块包括任务提取器和起源记录生成器;其中,所述任务提取器分析进程起源记录,把相互关联的多个进程组合成任务,输出进程到任务的哈希映射表P2TM...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。