一种基于文件系统的数据管理分析系统技术方案

技术编号:14235472 阅读:64 留言:0更新日期:2016-12-21 09:15
本发明专利技术公开一种基于文件系统的数据管理分析系统,包括:设置有客户端接口的文件系统的日志子系统;带外工作的数据特征捕捉器,通过客户端接口从日志子系统中读取日志条目,从读取的日志条目中提取数据特征及其变化;数据特征库适配器,根据具体的数据特征分析要求将数据特征及其变化转化成检索条目并设置带外工作的数据特征库的库类型和库结构,然后将检索条目重放(replay)到数据特征库中;数据特征管理分析子系统,根据具体的数据特征分析要求,设置检索条件,组织管理和分析数据特征库中的数据特征。本发明专利技术可灵活地根据数据特征管理和分析应用的需求适配数据特征库的库类型和库结构而不需要根据分析、管理的需求频繁的修改文件系统的实现。

Data management and analysis system based on file system

The invention discloses a data file management system based on system analysis, including: the log subsystem provided with file system client interface; data feature band work capture, read the log entries from the log subsystem through the client interface, data feature extraction and its change from the log entries read in data characteristics; base adapter, according to the data characteristics of the concrete analysis requires the library types and library data structure feature database features and change into search terms and set the band work, then retrieved entries playback (replay) to data in the feature library; data management and analysis subsystem, according to the specific data characteristics analysis. Set search conditions, characteristics of the data organization and management and analysis of data in the feature library. The invention can flexibly manage and analyze the database type and the database structure of the application data adaptation characteristic database according to the data characteristics without the need to modify the file system according to the requirement of analysis and management.

【技术实现步骤摘要】

本专利技术涉及计算机
更具体地,涉及一种基于文件系统的数据管理分析系统
技术介绍
计算机的文件系统为计算机用户提供了名字空间和地址空间,从而使能用户存储大量数据的同时,根据文件名字,路径和目录来组织数据和发现数据。数据的不断膨胀带来了复杂数据管理的需求,单独依靠文件名字、路径和目录这种组织方式已经无法满足用户的数据管理的需求了。近年来,大量的数据应用和科学计算需要复杂的数据组织和数据发现机制,从而催生了数据管理系统的诞生。目前的数据管理系统,首先需要获取文件系统数据特征及其变化到一个关系数据库,进而根据关系数据库中的数据特征定义规则,进行数据管理、数据发现和组织,其中文件系统的数据特征也叫元数据。现有技术中通常采用两种方式来获取文件系统的数据特征及其变化:第一种方式:通过扫描文件系统获取数据特征,并且周期性扫描比对文件系统差异来发现数据特征变化,汇集数据特征及其变化到数据库中去,然后根据数据特征来做数据管理。这种方式有一定的缺陷,首先,周期性扫描损失了数据特征更新的实时性,其次,大的文件系统扫描和比对非常耗时,效率低下。第二种方式:分离文件系统的数据特征和数据,文件系统的数据特征子系统被设计成一个数据库,所有的文件系统数据特征操作,本身就是对该数据库的操作,所有的数据特征都保存在数据库中,进而方便检索和查询。这种为了数据管理而把文件系统的元数据服务器实现成数据特征库方式属于带内(In Band)数据管理系统,这种方式的缺陷在于,文件系统正常IO引起的元数据变化也需要更新元数据,文件系统无法自适应和动态调整库格式。因为文件系统的数据特征子系统一旦定义好数据特征布局、库类型和库结构(schema)就无法改变实现了,该方式紧耦合设计,数据特征库是文件系统的一部分,所以这种方式非常不灵活,不能根据数据特征管理的目标和分析的需求随时适配的库类型和库结构。同时频繁的数据特征操作的系统性能完全依赖和受限于数据特征子系统数据库的性能。因此,需要提供一种基于文件系统的数据管理分析系统。
技术实现思路
本专利技术的目的在于提供一种基于文件系统的数据管理分析系统,可不改变文件系统的实现而灵活地根据数据特征管理和分析应用的需求适配数据特征库的库类型和库结构。为达到上述目的,本专利技术采用下述技术方案:一种基于文件系统的数据管理分析系统,包括:文件系统的日志子系统、数据特征捕捉器、数据特征库适配器、数据特征库和数据特征管理分析子系统;所述文件系统的日志子系统设置有客户端接口;所述数据特征捕捉器通过所述客户端接口从文件系统的日志子系统中读取日志条目,从读取的日志条目中提取数据特征及其变化;所述数据特征库适配器根据具体的数据特征分析要求将所述数据特征及其变化转化成检索条目并根据具体的数据特征分析要求设置所述数据特征库的库类型和库结构,然后将所述检索条目重放到数据特征库中;所述数据特征管理分析子系统根据具体的数据特征管理或分析要求,设置检索条件,组织管理和分析数据特征库中的数据特征;所述数据特征捕捉器和所述数据特征库均是带外工作的。优选地,所述文件系统的日志子系统的日志回收策略为:只有当文件系统应用了数据特征操作后且数据特征捕捉器显式允许回收的日志条目才可被按序回收。优选地,所述数据特征捕捉器在通过所述客户端接口从文件系统的日志子系统中读取日志条目时还同时更新当前日志游标。优选地,所述数据特征库的类型包括RDBMS关系数据库、分布式NOSQL数据库、搜索引擎或相关的检索、搜索系统。为了获取数据特征且实时跟踪数据特征的变化,避免扫描大文件系统(深目录层次,海量文件个数),本专利技术利用文件系统的日志子系统实时捕捉数据特征及其变化,并且将数据特征及其变化汇集到数据特征库中。为了保证本专利技术足够灵活,数据特征库的库类型和库结构(schema)要求以解耦合文件系统数据特征布局实现,可以灵活的按照数据管理和分析应用的需求而轻松调整,同时不影响文件系统本身的性能。本专利技术可允许不改变文件系统的实现而灵活的根据数据特征管理和分析应用的需求适配数据特征库的库类型和库结构。本专利技术的有益效果如下:(1)本专利技术不影响文件系统的IO性能,数据特征捕捉器和数据特征库均是带外(Out Of Band)工作的,本身不影响文件系统的正常输入输出代码路径和输入输出的性能。(2)所有的具备日志子系统的文件系统都可以按照本专利技术改造成适用的数据管理分析系统,因此本专利技术的适用性广。(3)本专利技术根据日志条目捕捉数据特征及其变化,可以做到实时体现数据特征的更新,并且轻松获得数据特征变化的增量,使文件系统中的数据特征和数据特征库中的数据特征保持一致。(4)本专利技术根据管理分析的具体需求,灵活的适配数据特征库的库类型和库结构(schema),而无需文件系统实现的改变。可通过数据特征库适配各种不同应用要求的查询、检索和搜索。附图说明下面结合附图对本专利技术的具体实施方式作进一步详细的说明;图1示出基于文件系统的数据管理分析系统的示意图。具体实施方式为了更清楚地说明本专利技术,下面结合优选实施例和附图对本专利技术做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解,下面所具体描述的内容是说明性的而非限制性的,不应以此限制本专利技术的保护范围。关于文件系统的日志子系统,很多现有的文件系统都为了保证数据和数据特征的一致性,都实现了日志子系统。文件系统的日志子系统又被称为WAL写前日志或者企图日志Intent Log。每个文件系统更新操作所涉及到的文件系统数据特征的所有改变,会先以日志的方式持久化追加在文件系统日志中,然后再应用到文件系统中。当文件系统的更新操作完成时,即文件系统已经应用了数据特征操作时,于这个改动相关的日志条目才会被回收。所有的具备写前日志、企图日志子系统的本地文件系统、分布式文件系统都可以按照本实施例提供的文件系统的数据管理分析系统改造而集成进入本实施例提供的文件系统的数据管理分析系统。本实施例提供的基于文件系统的数据管理分析系统进行数据管理分析的数据特征包括:文件的标准属性(POSIX属性ATTR)和扩展属性(XATTR)。本实施例提供的基于文件系统的数据管理分析系统,基于文件系统的日志子系统(Filesystem Journaling subsystem)获取数据特征及其变化,汇集数据特征入库,进行基于数据特征的管理和分析。如图1所示,本实施例提供的基于文件系统的数据管理分析系统包括:文件系统的日志子系统、数据特征捕捉器、数据特征库适配器、数据特征库和数据特征管理分析子系统;文件系统的日志子系统:文件系统日志子系统设置有客户端接口,该客户端接口的功能为:供数据特征捕捉器按序读取日志条目、更新当前日志游标和显式允许回收的日志条目;日志条目体现了文件系统数据特征和数据特征变化。由于现有的文件系统日志子系统会在数据特征更新到文件系统中后回收日志条目,为了保证数据特征捕捉器不遗漏数据特征更新,本实施例中,文件系统的日志子系统的日志回收策略调整为:没有被数据特征捕捉器(日志子系统的客户端)显式允许回收的日志条目不可以回收,只有当文件系统应用了数据特征操作后且日志子系统的客户端显式允许回收的日志条目才可以被按序回收。数据特征捕捉器:数据特征捕捉器是带外工作的,数据特征本文档来自技高网
...
一种基于文件系统的数据管理分析系统

【技术保护点】
一种基于文件系统的数据管理分析系统,其特征在于,该系统包括:文件系统的日志子系统、数据特征捕捉器、数据特征库适配器、数据特征库和数据特征管理分析子系统;所述文件系统的日志子系统设置有客户端接口;所述数据特征捕捉器通过所述客户端接口从文件系统的日志子系统中读取日志条目,从读取的日志条目中提取数据特征及其变化;所述数据特征库适配器根据具体的数据特征分析要求将所述数据特征及其变化转化成检索条目并根据具体的数据特征分析要求设置所述数据特征库的库类型和库结构,然后将所述检索条目重放到数据特征库中;所述数据特征管理分析子系统根据具体的数据特征管理或分析要求,设置检索条件,组织管理和分析数据特征库中的数据特征;所述数据特征捕捉器和所述数据特征库均是带外工作的。

【技术特征摘要】
1.一种基于文件系统的数据管理分析系统,其特征在于,该系统包括:文件系统的日志子系统、数据特征捕捉器、数据特征库适配器、数据特征库和数据特征管理分析子系统;所述文件系统的日志子系统设置有客户端接口;所述数据特征捕捉器通过所述客户端接口从文件系统的日志子系统中读取日志条目,从读取的日志条目中提取数据特征及其变化;所述数据特征库适配器根据具体的数据特征分析要求将所述数据特征及其变化转化成检索条目并根据具体的数据特征分析要求设置所述数据特征库的库类型和库结构,然后将所述检索条目重放到数据特征库中;所述数据特征管理分析子系统根据具体的数据特征管理或分析要求,设置检索条件,组织管理和分析数据特征库中...

【专利技术属性】
技术研发人员:吴江谢鹏
申请(专利权)人:极道科技北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1