一种基于HDFS光盘库的存储系统技术方案

技术编号:20865147 阅读:28 留言:0更新日期:2019-04-17 09:06
本发明专利技术公开一种基于HDFS光盘库的存储系统,包括内存、磁盘和HDFS光盘库,所述磁盘用于存储文件,包括磁盘管理模块、HDFS光盘库模块、文件分类模块和文件迁移模块,其中,磁盘管理模块用于对磁盘内文件进行管理,并负责存储系统与用户之间的通信;HDFS光盘库模块用于磁盘和HDFS光盘库之间的通信,文件分类模块用于将磁盘中的文件分为冷数据和热数据,文件迁移模块用于HDFS光盘库与磁盘之间文件的迁移;HDFS光盘库用于储存所述冷数据。此种存储系统结合磁盘和HDFS光盘库的优点,将系统内经常不用的冷数据迁移至HDFS光盘库内,降低了用户响应时间。

【技术实现步骤摘要】
一种基于HDFS光盘库的存储系统
本专利技术属于存储系统
,特别涉及一种基于HDFS光盘库的存储系统。
技术介绍
随着互联网的快速发展和广泛应用,全球的数据总量也随之发生了爆炸性的增长。在IDC(InternetDataCenter)调查报告中,仅2013年一年,全球产生的数据总量就达到了4.4ZB,并且这个数值正以每两年增加一倍的速度在增长,预计到2020年全球数据总量将达到44ZB。数据的增长不仅仅在数据存储设备方面上增加了数据中心的存储成本,同时也在数据维护成本和数据安全性方面带来了巨大考验。而用户的80%访请求集中在这些数据的20%上,另外的80%的数据存放在磁盘阵列内会增加存储成本。目前基于光存储介质的大数据存储系统中,基于光盘库的Hadoop分布式文件系统(HDFS光盘库)是应用最为广泛的一种,HDFS光盘库相对于传统光盘库在存储容量和传输速度方面得到了很大提升,但是由于分布式系统存储结构和光盘库物理结构原因,当用户访问某一文件时,文件数据块存储位置查询时间和光盘库机械臂取送盘时间增加了用户响应时间,严重影响了用户体验。
技术实现思路
本专利技术的目的,在于提供一种基于HDFS光盘库的存储系统,其结合磁盘和HDFS光盘库的优点,将系统内经常不用的冷数据迁移至HDFS光盘库内,降低了用户响应时间。为了达成上述目的,本专利技术的解决方案是:一种基于HDFS光盘库的存储系统,包括内存、磁盘和HDFS光盘库,所述磁盘用于存储文件,包括磁盘管理模块、HDFS光盘库模块、文件分类模块和文件迁移模块,其中,磁盘管理模块用于对磁盘内文件进行管理,并负责存储系统与用户之间的通信;HDFS光盘库模块用于磁盘和HDFS光盘库之间的通信,文件分类模块用于将磁盘中的文件分为冷数据和热数据,文件迁移模块用于HDFS光盘库与磁盘之间文件的迁移;HDFS光盘库用于储存所述冷数据。上述存储系统还包括用于在磁盘管理模块和HDFS光盘库模块内建立文件存储目录的目录生成模块,磁盘管理模块内存储目录记录磁盘所有文件信息,HDFS光盘库模块内的存储目录记录磁盘内所有待刻录的文件。上述存储系统还包括用于将磁盘中相同标签的小文件合并为大文件的文件合并单元。上述文件合并单元将小文件合并为大文件的过程是:对最近一段时间产生的冷数据文件进行缓存,采用具有相同标签的小文件合并为适合HDFS光盘库存储的大文件,并打上相同的时间戳存入HDFS光盘库。上述文件分类模块用于实现同一文件在冷数据与热数据之间的转换,采用的分类算法为:其中,fileHeat1为文件更新的热度,fileHeat0为文件的初始热度,tscan为文件上次扫描时间,tvisit为文件上次物理访问时间,tnow表示文件当前扫描时间,visitNum为磁盘内文件的被访问次数;当磁盘中文件的fileHeat1小于或等于0时,磁盘中文件被分为冷数据;当磁盘中文件的fileHeat1大于0时,磁盘中文件被分为热数据。采用上述方案后,本专利技术具有以下优势:(1)本专利技术提高了数据存入速度,数据在存入系统时首先存入磁盘缓存内,然后通过数据分类和小文件合并等处理再刻录到光盘内,数据在磁盘与磁盘直接传输速度大于磁盘到HDFS光盘库传输速度。(2)本专利技术减少了光盘库取盘次数,将具有相同标签的文件合并为适合HDFS光盘库存取的大文件,并将具有相同标签的大文件刻录到同一光盘内,同一光盘内的文件具有较强的关联性,根据空间局部性原理,系统连续几次的访问很大概率集中在同一光盘内,从而达到减少机械臂取盘次数目的。同时采用大文件集中刻录的方式也避免了光盘库频繁取盘。(3)本专利技术降低了用户响应时间,一方面,当用户存入文件时只需将文件存入磁盘,对于后面的文件刻录部分用户是不需要关心的,另一方面,通过缓存技术和文件预取将系统接下来可能访问的文件提前预取至磁盘内,减少系统访问HDFS光盘库次数,从而达到降低用户响应时间的目的。附图说明图1是本专利技术结构示意图;图2是本专利技术的工作流程图;图3是本专利技术中文件标签的结构示意图。具体实施方式需要说明的是,在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。另外,在本专利技术的实施例中所提到的文中所有的方向或位置关系为基于附图的位置关系,仅为了方便描述本专利技术和简化描述,而不是暗示或者暗示所指的装置或元件必须具有的特定的方位,不能理解为对本专利技术的限制。下面将参考附图并结合实施例来详细说明本专利技术。如图1所示,本专利技术提供一种基于HDFS光盘库的存储系统,包括内存、磁盘和HDFS光盘库,所述磁盘用于存储文件,包括磁盘管理模块、HDFS光盘库模块、文件分类模块和文件迁移模块;所述磁盘管理模块用于对磁盘内文件进行管理,并负责所述存储系统与用户之间的通信;所述HDFS光盘库模块用于磁盘和HDFS光盘库之间通信,所述文件分类模块用于将磁盘中的文件分为冷数据和热数据,所述HDFS光盘库用于储存所述冷数据,所述文件迁移模块用于HDFS光盘库与磁盘之间文件的迁移。这样降低了用户响应时间,一方面,当用户存入文件时只需将文件存入磁盘,对于后面的文件刻录部分用户是不需要关心的,另一方面,通过缓存技术和文件预取将系统接下来可能访问的文件提前预取至磁盘内,减少系统访问HDFS光盘库次数,从而达到降低用户响应时间的目的。由于单位存储成本、数据安全性、使用寿命等方面具有很明显的优势,本实施例将HDFS光盘库作为磁盘的三级存储设备,文件分类模块定期对磁盘进行扫描,并将磁盘内的冷数据交由文件迁移模块迁移,文件迁移模块用于HDFS光盘库与磁盘之间文件的迁移。所述HDFS光盘库模块用于磁盘和HDFS光盘库之间通信,包括任务转发、小文件合并、文件刻录、文件恢复等。当系统访问某一文件时,首先通过磁盘管理模块检查文件是否在磁盘内,若未找到则通过HDFS光盘库查找文件。HDFS光盘库模块内的存储目录记录磁盘内所有待刻录的文件,主要来自首次存入系统的文件和需要重新刻录文件。进一步地,所述存储系统还包括目录生成模块,用于在磁盘管理模块和HDFS光盘库模块内建立文件存储目录。磁盘管理模块内存储目录记录磁盘所有文件信息,方便对磁盘内的文件进行管理,通过文件标签信息可以快速查询文件信息,找到文件相关信息。虚拟存储模块内记录所有待刻录的文件相关信息,有利于小文件合并和建立文件之间关联性。根目录下记录模块内所有文件,一级标签包含该标签所有二级标签相关信息,二级标签下包含该标签下所有文件相关信息链表。需要说明的是,文件在存入系统时,系统首先对文件内容和文件名通过自然语言处理,统计出现次数最多的几个词语,然后按照词语数据库为每个文件打上一级标签和二级标签,一级标签的范围大于二级标签,一级标签下包含多个二级标签。相同标签的文件之间具有关联性,标签的范围越小关联性越强。虚拟HDFS光盘库模块、磁盘管理模块都是以文件标签为基础设计的,如图3所示。进一步地,所述存储系统还包括文件合并单元,用于将磁盘中相同标签的小文件合并为大文件。文件合并单元是对最近一段时间产生的冷数据文件进行缓存,采用具有相同标签的小文件合并为适合HDFS光盘库存储的大文件,并打上相同的时间戳存入HDFS光盘库。采用小文件合并方式可以很好地解决HDFS和光盘库处理小文件效率不高的问题,本文档来自技高网...

【技术保护点】
1.一种基于HDFS光盘库的存储系统,其特征在于:包括内存、磁盘和HDFS光盘库,所述磁盘用于存储文件,包括磁盘管理模块、HDFS光盘库模块、文件分类模块和文件迁移模块,其中,磁盘管理模块用于对磁盘内文件进行管理,并负责存储系统与用户之间的通信;HDFS光盘库模块用于磁盘和HDFS光盘库之间的通信,文件分类模块用于将磁盘中的文件分为冷数据和热数据,文件迁移模块用于HDFS光盘库与磁盘之间文件的迁移;HDFS光盘库用于储存所述冷数据。

【技术特征摘要】
1.一种基于HDFS光盘库的存储系统,其特征在于:包括内存、磁盘和HDFS光盘库,所述磁盘用于存储文件,包括磁盘管理模块、HDFS光盘库模块、文件分类模块和文件迁移模块,其中,磁盘管理模块用于对磁盘内文件进行管理,并负责存储系统与用户之间的通信;HDFS光盘库模块用于磁盘和HDFS光盘库之间的通信,文件分类模块用于将磁盘中的文件分为冷数据和热数据,文件迁移模块用于HDFS光盘库与磁盘之间文件的迁移;HDFS光盘库用于储存所述冷数据。2.如权利要求1所述的一种基于HDFS光盘库的存储系统,其特征在于:所述存储系统还包括用于在磁盘管理模块和HDFS光盘库模块内建立文件存储目录的目录生成模块,磁盘管理模块内存储目录记录磁盘所有文件信息,HDFS光盘库模块内的存储目录记录磁盘内所有待刻录的文件。3.如权利要求1所述的一种基于HDFS光盘库的存储系统,其特征在于:所述存储系统还包括用于将磁盘中相...

【专利技术属性】
技术研发人员:王子炫张育平
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1