基于分布式文件系统的日志数据存储系统及读写方法技术方案

技术编号:15391751 阅读:227 留言:0更新日期:2017-05-19 04:55
本发明专利技术提供了一种基于分布式文件系统的日志数据存储系统及读写方法,该方案包括主节点和工作节点,主节点用于存储着文件系统的相关配置信息,管理整个文件系统的元数据,还管理着工作节点的活动信息以及活动数据块向稳定数据块的迁移信息。工作节点用于保存日志数据;客户端只需要根据主节点返回的元数据中文件的信息,直接和数据所在的工作节点进行通信而不必通过主节点。该方案能够方便进行日志存储和处理,支持多客户端追加和读写并发的情况。

Log data storage system based on distributed file system and read-write method

The present invention provides a method for writing log data storage system distributed file system based on the scheme and read, including the master node and node, the master node for the relevant configuration information is stored with the file system, the file system metadata management, also manages the work node activities information and data block to transfer information data block. The work node is used to save the log data, and the client only needs to communicate directly with the working nodes of the data in accordance with the information of the metadata in the metadata returned by the main node, instead of passing through the primary node. This scheme is convenient for log storage and processing, and supports multi client add and read and write concurrency.

【技术实现步骤摘要】
基于分布式文件系统的日志数据存储系统及读写方法
本专利技术涉及的是日志的存储和处理,具体是一种基于分布式文件系统的日志数据存储系统及读写方法。
技术介绍
在现有技术中,公知的技术是随着互联网的发展,网络内容爆炸性的增加,互联网中大量的节点在工作中产生的日志、生产系统中设备的监控日志、网站上用户的访问日志、用户上网时对网页的点击而产生的日志等,都因为巨大的数据量对现有的存储和计算体系提出挑战。分布式文件系统(HDFS)是一个高度容错性的系统,易扩展并可以提供高吞吐量的数据访问,非常适合大规模数据集上的应用,这些特点使其成为在商业上广泛应用的分布式存储系统。目前业界流行的分布式文件系统HDFS对于大量并发的写入并不支持。如果想要在Hadoop平台上对日志数据进行分析,就需要首先在其他存储系统中把日志信息记录下来,整合后保存在HDFS中,这种模式増加了整个系统的复杂度,且不能保证日志分析的实时性。此专利就是通过对原有的HDFS技术进行改进,使其达到日志存储系统的要求。
技术实现思路
本专利技术的目的就是针对现有技术所存在的不足,而提供一种基于分布式文件系统的日志数据存储系统及读写方法的技术方案,该方案能够方便进行日志存储和处理,支持多客户端追加和读写并发的情况。本方案是通过如下技术措施来实现的:一种基于分布式文件系统的日志数据存储系统,包括主节点和工作节点,主节点,用于存储着文件系统的相关配置信息,管理整个文件系统的元数据,还管理着工作节点的活动信息以及活动数据块向稳定数据块的迁移信息;工作节点,用于保存日志数据;元数据包括:名字空间、访问控制信息、文件和工作节点的映射信息以及工作节点的位置信息。所述的主节点通过心跳信息发送和接收工作节点的日志数据信息。一种基于分布式文件系统的日志数据读写方法,包括如下步骤:1)客户端发起查询日志文件请求;2)主节点接收到客户端发出查询日志文件的请求后,将该日志文件的元数据发送给客户端,3)客户端根据主节点返回的元数据中日志文件的信息,直接和日志文件数据所在的工作节点进行通信,实现日志数据的读写。所述的元数据包括:名字空间、访问控制信息、文件和工作节点的映射信息以及工作节点的位置信息。所述的工作节点中的日志文件保存在数据块中,且每个数据块中有多个备份,客户端进行访问时优先选择最近的数据块进行访问。所述的步骤3)中对日志数据的读写包括日志数据的并发追加,日志数据的同时写入及处理,日志数据写入条目顺序和读取条目顺序一致。本方案的有益效果可根据对上述方案的叙述得知,由于在该方案中包括一个主节点和多个工作节点,支持多个客户端同时发起请求,主节点中存储着文件系统的相关配置信息,工作节点中保存数据。HDFS中的文件以固定大小的数据块的形式保存,新创建的数据块会在活动队列中存在。工作节点管理整个文件系统的元数据,元数据包括:名字空间、访问控制信息、文件和工作节点的映射信息以及工作节点的位置信息。除此之外主节点还管理着工作节点的活动信息以及活动(active)数据块向稳定(stable)数据块的迁移信息等等。主节点通过心跳信息发送和接收工作节点的信息。客户端与主节点通信获取文件的元数据后,就可跳开主节点,与工作节点直接进行数据操作。由此可见,本专利技术与现有技术相比,具有突出的实质性特点和显著的进步,其实施的有益效果也是显而易见的。附图说明图1为本专利技术具体实施方式的结构示意图。具体实施方式为能清楚说明本方案的技术特点,下面通过一个具体实施方式,并结合其附图,对本方案进行阐述。通过附图可以看出,本方案的一种基于分布式文件系统的日志数据存储系统,包括主节点NameNode和多个工作节点DataNode,主节点NameNode,用于存储着文件系统的相关配置信息,管理整个文件系统的元数据,还管理着工作节点DataNode的活动信息以及活动数据块(active数据)向稳定数据块(stable数据)的迁移信息。工作节点DataNode,用于保存日志数据;元数据包括:名字空间、访问控制信息、文件和工作节点的映射信息以及工作节点的位置信息。HDFS中的文件以固定大小的数据块的形式保存,新创建的数据块会在active队列中存在。所述的主节点NameNode通过心跳信息发送和接收工作节点的日志数据信息。一种基于上述系统的日志数据读写方法,包括如下步骤:1)客户端发起查询日志文件请求;2)主节点NameNode接收到客户端发出查询日志文件的请求后,将该日志文件的元数据发送给客户端,所述的元数据包括:名字空间、访问控制信息、文件和工作节点的映射信息以及工作节点的位置信息;3)客户端根据主节点返回的元数据中日志文件的信息,直接和日志文件数据所在的工作节点DataNode进行通信,实现日志数据的读写。所述的工作节点DataNode中的日志文件保存在数据块中,且每个数据块中有多个备份,客户端进行访问时优先选择最近的数据块进行访问。所述的步骤3)中对日志数据的读写包括日志数据的并发追加,日志数据的同时写入及处理,日志数据写入条目顺序和读取条目顺序一致。本专利技术并不仅限于上述具体实施方式,本领域普通技术人员在本专利技术的实质范围内做出的变化、改型、添加或替换,也应属于本专利技术的保护范围。本文档来自技高网...
基于分布式文件系统的日志数据存储系统及读写方法

【技术保护点】
一种基于分布式文件系统的日志数据存储系统,其特征是:包括主节点和工作节点,主节点,用于存储着文件系统的相关配置信息,管理整个文件系统的元数据,还管理着工作节点的活动信息以及活动数据块向稳定数据块的迁移信息;工作节点,用于保存日志数据;元数据包括:名字空间、访问控制信息、文件和工作节点的映射信息以及工作节点的位置信息。

【技术特征摘要】
1.一种基于分布式文件系统的日志数据存储系统,其特征是:包括主节点和工作节点,主节点,用于存储着文件系统的相关配置信息,管理整个文件系统的元数据,还管理着工作节点的活动信息以及活动数据块向稳定数据块的迁移信息;工作节点,用于保存日志数据;元数据包括:名字空间、访问控制信息、文件和工作节点的映射信息以及工作节点的位置信息。2.根据权利要求1所述的基于分布式文件系统的日志数据存储系统,其特征是:所述的主节点通过心跳信息发送和接收工作节点的日志数据信息。3.一种基于分布式文件系统的日志数据读写方法,其特征在于包括如下步骤:1)客户端发起查询日志文件请求;2)主节点接收到客户端发出查询日志文件的请求后,将该日志文件的元数据发送给客户端,3)客户端...

【专利技术属性】
技术研发人员:赵闪闪
申请(专利权)人:郑州云海信息技术有限公司
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1