一种海量非结构化数据的数据存储方法技术

技术编号：11644884 阅读：102 留言：0更新日期：2015-06-25 04:02

本发明专利技术公开了一种海量非结构化数据的数据存储方法。本方法为：1)设定一时间间隔T，将数据存储集群划分为多个分区，用于将同一时间间隔T内的记录存储到同一分区内；同时将每一分区划分为n个散列区；2)对于每条非结构化记录，提取其产生的时间t以及一个或多个唯一表示该记录的关键信息key；3)根据每条记录的时间t，确定其要存储到的分区，然后根据该记录的关键信息key计算其在该分区中对应的散列区值；4)根据步骤3)的计算结果，将属于同一时间间隔且散列区值相同的记录写入同一文件F中并统计该文件F的记录数，如果记录数大于设定阈值K，则在当前散列区中创建另一文件进行存储。本发明专利技术存储方法能够大大提升了数据检索效率。

全部详细技术资料下载

【技术实现步骤摘要】

该专利技术涉及，特别涉及一种在分布式存储场景下，支持按照时间间隔(Interval)和散列(Hash)两级划分规则策略进行非结构化数据组织的、按照数据量进行动态调整的海量数据管理模型和方法，并支持在该数据组织基础上进行数据索引创建，以实现更高效的检索速率。属于海量数据存储管理研宄领域。
技术介绍
计算机应用的不断发展导致了数据量的急剧增加，由于数据结构化过程受限于人工处理速度，导致了非结构化数据的增长速度远远大于结构化数据。对于目前不断增加以致达到TB、PB级的大规模数据，需要更好的工具或技术来对文件进行组织和管理，高效的数据组织方法能够帮助人们在需要时迅速地从后台大规模数据中获取自己想要的数据。文件系统作为本地存储系统的数据组织管理者，它在不同操作系统平台下有不同的组织结构和操作形式。基于多种主机文件系统和分布式文件系统的研宄成果，适用于大规模数据组织的文件系统，例如Cluster File System的Lustre，Google的GFS，以及基于语义的文件系统等在海量数据组织上都提供了良好的性能。Cluster File System公司Lustre是面向下一代存储的分布式文件系统。Lustre对于文件管理采取的是数据与元数据分离，元数据集中管理的机制。它采取单一的元数据服务器来对元数据进行存储和管理。这种分离机制可以更好的利用各自存储设备和传输网络的特性，提高系统的性能，有效降低系统的成本。由于很多的小文件在实际存储的时候都是通过汇聚的方式形成一个较大的文件存储在磁盘上的，这样做可以避免很多小文件导致的元数据规模变大的问题，也可以有效降低...
一种<a href="http://www.xjishu.com/zhuanli/55/CN104731864.html" title="一种海量非结构化数据的数据存储方法原文来自X技术">海量非结构化数据的数据存储方法</a>

【技术保护点】
一种海量非结构化数据的数据存储方法，其步骤为：1)设定一时间间隔T，将数据存储集群划分为多个分区，用于将同一时间间隔T内的记录存储到同一分区内；同时将每一分区划分为n个散列区；2)对于每条非结构化记录，提取其产生的时间t以及一个或多个唯一表示该记录的关键信息key；3)根据每条记录的时间t，确定其要存储到的分区，然后根据该记录的关键信息key计算该记录在该分区中对应的散列区值；4)根据步骤3)的计算结果，将属于同一个时间间隔且散列区值相同的记录写入同一个文件F中并统计该文件F的记录数，如果记录数大于设定阈值K，则在当前散列区中创建另一文件进行存储。

【技术特征摘要】

【专利技术属性】
技术研发人员：王琦，刘阳，杨鹏，陈训逊，王树鹏，王勇，王振宇，
申请(专利权)人：国家计算机网络与信息安全管理中心，中国科学院信息工程研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人