互联网数据管理系统及其读写方法技术方案

技术编号:10793440 阅读:129 留言:0更新日期:2014-12-18 03:14
本申请公开了一种互联网数据管理系统,包括:存取管理模块,用于向存取适配模块发出文件存取请求,还将欲写入文件写入到存储资源模块的一个或多个数据单元中,还从存储资源模块的一个或多个数据单元中读取并合并为欲读取文件。存取适配模块,负责管理整个数据管理系统的命名空间、以及分配欲写入文件在存取资源模块的哪些数据单元中以及在这些数据单元中的存储位置、以及查找欲读取文件在存取资源模块的哪些数据单元中以及在这些数据单元中的存储位置。存取资源模块,包括多个数据单元,各个数据单元的大小相同。本申请还公开了所述互联网数据管理系统的读写方法。本申请可以提高海量数据的管理效率,特别适用于对非结构化数据进行数据管理。

【技术实现步骤摘要】
【专利摘要】本申请公开了一种互联网数据管理系统,包括:存取管理模块,用于向存取适配模块发出文件存取请求,还将欲写入文件写入到存储资源模块的一个或多个数据单元中,还从存储资源模块的一个或多个数据单元中读取并合并为欲读取文件。存取适配模块,负责管理整个数据管理系统的命名空间、以及分配欲写入文件在存取资源模块的哪些数据单元中以及在这些数据单元中的存储位置、以及查找欲读取文件在存取资源模块的哪些数据单元中以及在这些数据单元中的存储位置。存取资源模块,包括多个数据单元,各个数据单元的大小相同。本申请还公开了所述互联网数据管理系统的读写方法。本申请可以提高海量数据的管理效率,特别适用于对非结构化数据进行数据管理。【专利说明】
本申请涉及一种数据管理系统。
技术介绍
当下我们生活在一个数据的时代,但很难计算或是估计全球以电子方式存储的数 据总量有多少。单以互联网公司在日常运营中生成、累积的用户网络行为数据。这些数据 的规模是如此庞大,以至于不能用G或T来衡量,大数据的起始计量单位至少是P (1000个 T)、E (100万个T)或Z (10亿个T)。一组名为"互联网上一天"的数据告诉我们,一天之 中,互联网产生的全部内容可以刻满1. 68亿张DVD ;发出的邮件有2940亿封之多(相当于 美国两年的纸质信件数量);发出的社区帖子达200万个(相当于《时代》杂志770年的文字 量);卖出的手机为37. 8万台,高于全球每天出生的婴儿数量37. 1万…… 不仅仅互联网数据,数据还有很多其他的来源: >纽约证券交易所每天产生1TB的交易数据。 > Facebook存储着100亿张照片,约1PB存储容量。 >瑞士日内瓦附近的大型强子对撞机每年产生约15PB的数据。 截止到2012年,数据量已经从TB (1024GB=1TB)级别跃升到PB (1024TB=1PB)、EB (1024PB=1EB)乃至ZB(1024EB=1ZB)级别。国际数据公司(IDC)的研究结果表明,2008年全 球产生的数据量为0. 49ZB,2009年的数据量为0. 8ZB,2010年增长为1. 2ZB,2011年的数量 更是高达1.82ZB,相当于全球每人产生200GB以上的数据。而到2012年为止,人类生产的 所有印刷材料的数据量是200PB,全人类历史上说过的所有话的数据量大约是5EB。IBM的 研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了 2020年, 全世界所产生的数据规模将达到今天的44倍。 面对已经存在的如此大量的数据,我们今天不得不面对如何存储和分析这些数 据。 数据管理是利用计算机技术对数据进行有效的收集、存储、处理和应用的过程。从 数据管理的角度出发,互联网上的信息可分为结构化数据与非结构化数据两类。所述结构 化数据是指可用二维逻辑表结构来表达的数据,例如存储在关系数据库或面向对象数据库 中的数据。所述非结构化数据是指无法用二维逻辑表结构来表达的数据,包括自然语言文 本、图像、音频、视频资源等。互联网上的大量信息都是非结构化数据,对其进行数据管理就 成为一个难点。 现有的互联网数据管理系统往往采用分布式数据库(distributed database),例 如0racle、DB2、SQLserver等。这些分布式数据库可以较好地支持结构化数据,但在存储和 管理非结构化数据方面仍有不足,主要表现在查询和统计的支持较弱、效率较低等。
技术实现思路
本申请所要解决的技术问题是提供一种互联网数据管理系统,特别适用于处理互 联网上的非结构化数据,同时兼容结构化数据。为此,本申请还要提供所述互联网数据管理 系统的读写方法。 为解决上述技术问题,本申请互联网数据管理系统包括: -存取管理模块,用于向存取适配模块发出文件存取请求,还将欲写入文件写 入到存储资源模块的一个或多个数据单元中,还从存储资源模块的一个或多个数据单元中 读取并合并为欲读取文件; -存取适配模块,负责管理整个数据管理系统的命名空间、以及分配欲写入文 件存储在哪些数据单元中以及在这些数据单元中的存储位置、以及查找欲读取文件在哪些 数据单元中以及在这些数据单元中的存储位置; -存取资源模块,包括多个数据单元,各个数据单元的大小相同。 本申请互联网数据管理系统的写入方法为: 第1步,存取管理模块发出文件写入的请求; 第2步,存取适配模块接收该请求后,根据欲写入文件的大小和当前的数据单元 配置信息,分配该欲写入文件存储在哪些数据单元中以及在这些数据单元中的存储位置, 并将分配结果告知存取管理模块; 第3步,存取管理模块根据所述分配结果将欲写入文件分割为一个或多个部分, 并写入到所分配的一个或多个数据单元中。 本申请互联网数据管理系统的读取方法为: 第1步,存取管理模块发出文件读取请求; 第2步,存取适配模块接收该请求后,根据欲读取文件的名称查找欲读取文件在 哪些数据单元中以及在这些数据单元中的存储位置,并将查找结果告知存取管理模块; 第3步,存取管理模块根据所述查找结果在所查到的各个数据单元中读取欲读取 文件的各个部分,并合并为欲读取文件。 本申请,可以提高海量数据的管理效率,减轻 计算机网络负担。该系统对互联网上的各种非结构化数据进行分布式存储和分布式管理, 具有可伸缩性和高容错性,既可满足行业应用对局部海量数据的处理要求,又可满足对整 体海量数据进行分布式全局处理要求。采用该系统,除可进行增、删、改、查等初级信息应 用,在信息挖掘分析、研判、分类等方面更具有重要的现实意义。 【专利附图】【附图说明】 图1是本申请互联网数据管理系统的结构示意图; 图2是本申请互联网数据管理系统的写入方法流程图; 图3是本申请互联网数据管理系统的读取方法流程图。 图中附图标记说明: 10为存取管理模块;20为存取适配模块;30为存取资源模块;31为数据单元。 【具体实施方式】 请参阅图1,本申请所述的互联网数据管理系统包括: -存取管理模块10,对外具有统一接口,用来接收各种应用程序对所述互联网 数据管理系统的操作请求,主要包括文件写入请求和文件读取请求。所述存取管理模块10 再向存取适配模块20发出文件存取请求,还将欲写入文件写入到存取资源模块30的一个 或多个数据单元31中,还从存取资源模块30的一个或多个数据单元31中读取并合并为欲 读取文件。 --存取适配模块20,负责管理整个数据管理系统的命名空间、以及分配欲写入 文件在哪些数据单元31中存储以及在这些数据单元31中的存储位置、以及查找欲读取文 件在哪些数据单元31中存储以及在这些数据单元31中的存储位置;所述命名空间包括: (1)各个文件的名称、描述等信息; (2)各个数据单元31在存取资料模块30中的路径; (3)每个文件存储于哪些数据单元31中、每个文件的各个部分在这些数据单元31 中的存储位置。 --存取资源模块30,包括多个数据单元31,各个数据单元31的大小是相同的。 例如,存取资源模块30可以是一本文档来自技高网
...

【技术保护点】
一种互联网数据管理系统,其特征是,包括:——存取管理模块,用于向存取适配模块发出文件存取请求,还将欲写入文件写入到存储资源模块的一个或多个数据单元中,还从存储资源模块的一个或多个数据单元中读取并合并为欲读取文件;——存取适配模块,负责管理整个数据管理系统的命名空间、以及分配欲写入文件存储在哪些数据单元中以及在这些数据单元中的存储位置、以及查找欲读取文件在哪些数据单元中以及在这些数据单元中的存储位置;——存取资源模块,包括多个数据单元,各个数据单元的大小相同。

【技术特征摘要】

【专利技术属性】
技术研发人员:顾青倪庆洋谢超梁佐泉冯四风梁艳敏张士鹏田文晋贾伟峰
申请(专利权)人:上海普华诚信信息技术有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1