一种海量教育文件关联存储方法技术

技术编号：19177769 阅读：36 留言：0更新日期：2018-10-17 00:26

本发明专利技术公开了一种海量教育文件关联存储方法，包括四个部分，分别是海量教育文件的归并、海量教育文件关联方法中局部索引确定、海量教育文件的缓存与预取和海量教育文件碎片的整理。本发明专利技术包括针对数量大、关联多、类型广的教育资源小文件的存储步骤，可有效提升存储空间的利用率，方便易用且成本更低，对海量教育文件的关联存储领域具有充分性、必要性和高效性，可广泛应用于海量小文件存储领域。

A method of massive educational file association storage

The invention discloses a mass education file association storage method, which comprises four parts, namely, the merging of mass education files, the determination of local index in mass education file association method, the caching and prefetching of mass education files, and the collation of mass education file fragments. The invention comprises a storage step for small files of large quantity, multiple associations and wide types of educational resources, which can effectively improve the utilization ratio of storage space, is convenient to use and has low cost, and has sufficiency, necessity and high efficiency in the field of associative storage of mass educational documents, and can be widely used in the field of mass small file storage.

全部详细技术资料下载

【技术实现步骤摘要】
一种海量教育文件关联存储方法
本专利技术涉及海量数据，教育文件，索引机制，关联关系，小文件存储领域，特别涉及一种海量教育文件关联存储方法。
技术介绍
HDFS(hadoopdistributedfilesystem)是一个具有高容错性、成本低廉性等特点的分布式文件系统。HDFS是为处理海量大文件而设计的，在处理海量小文件时存在以下几点问题：海量小文件耗费主节点内存，可能造成NAMEDODE瓶颈问题；海量小文件的I/O效率低，没有一种优化机制来提高I/O性能；HDFS下没有明确的能够区分何为小文件的分界点；没有考虑海量小文件之间的相关性等。教育资源小文件包括各种形式的教育资源，如word文档、pdf文档、ppt课件及文本资料等，只要与教育资源相关且大小远小于64MB的文件都可称为教育资源小文件。教育资源小文件具有以下特点：这些文件的大小通常为几十到几百KB，存储引擎不能高效的存储大量的小文件；小文件之间有关联性，整理归档同类课程的小文件然后进行合并；小文件的数量很多，因为网络中存在的各种学习资源量非常大，且不断地以指数级的速度增长。申请人检索出以下与海量教育文件关联...

【技术保护点】
1.一种海量教育文件关联存储方法，其特征在于，包括：S1：海量教育文件的归并；S2：海量教育文件中的局部索引；S3：海量教育文件的缓存与预取；S4：海量教育文件碎片的整理。

【技术特征摘要】
1.一种海量教育文件关联存储方法，其特征在于，包括：S1：海量教育文件的归并；S2：海量教育文件中的局部索引；S3：海量教育文件的缓存与预取；S4：海量教育文件碎片的整理。2.根据权利要求1所述的海量教育文件关联存储方法，其特征在于，文件归并步骤如下：Step1：将属于某个大文件的所有小文件归并为一个文件，称为mergedfile；Step2：对每个mergedfile建立一个局部索引，并在上传时将局部索引文件与文件实体一同存放在Hadoop系统的DataNode上；Step3：在读取非独立小文件时，采用元数据缓存、局部索引文件预取和关联文件预取提高文件的读取效率。3.根据权利要求2所述的海量教育文件关联存储方法，其特征在于，局部索引的文件结构如下：局部索引文件采用静态查找表结构，由索引头部、序列索引和文件索引3部分构成：(1)索引头部由占1字节的版本号、占4字节的索引项数和占4字节的局部索引文件长度组成；(2)序列索引由占4字节的序列名称、占4字节的文件索引的起始编号和占4字节的文件索引项数构成；(3)文件索引项由占16字节的文件名称、占4字节的文件长度和占4字节的文件偏移构成。4.根据权利要求2所述的一种海量教育文件关联存储方法，其特征在于，读取mergedfile时对局部索引文件的操作，包括如下步骤：Step1：根据mergedfile名从NameNode获取元数据；Step2：由mergedfile的元数据，从Hadoop文件系统的相应DataNode读取指定的数据块，并根据数据块内索引文件长度项读取数据块的局部索引文件；Step3：最后根据小文件名称，查找局部索引文件，获得该小文件的起始位置和长度，从而完成对小文件的读操作。5.根据权利要求1所述的海量教育文件关联存储方法，其特征在于，局部索引确定包括如下步骤：Step1：依次计算每个文件的偏移，在数据块的边界处，检查是否有文件会横跨两个数据块，如果没有，转向Step3，否则，转向Step2；Step2：在这个横跨两个数据块的小文件前，建立额外的局部索引文件，该索引文件的偏移是下一个数据块的起始位置，横跨小文件的偏移是该局部索引文件的结束位置，设块长为Lblock，局部索引文件的大小为Lindex，新块的序列号为W，新索引文件偏移量为Loffset，新索引文件长度为Llength，横跨小文件的偏移量为Lfoffset，则：Loffset＝(W-1)*Lblock(5.1)Llength＝Lindex(5.2)Lfoffset＝Loffset+Llength(5.3)Step3：对下一个数据块，重复Step1和Step2。6.根据权利要求1所述的海量教育文件关联存储方法，其特征在于，缓存与预取包括如下步骤：Step1：元数据缓存：当小文件被读取时，将小文件映射到mergedfile以获取mergedfile的元数据，NameNode将元数据返回...

【专利技术属性】
技术研发人员：曹晟，毕丙伟，邹杰成，王靖，梅亚双，陈泽东，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人