从互联网中抽取大数据的存储方法技术

技术编号:11701615 阅读:94 留言:0更新日期:2015-07-09 01:10
本发明专利技术公开了从互联网中抽取大数据的存储方法,数据请求步骤:从客户端输入检索关键词、设置检索范围,在检索范围内,从互联网中获得与检索关键词相关的数据;下载步骤:客户端下载所有与检索关键词相关的数据,并转发给容量分配器;转发储存步骤:容量分配器将与检索关键词相关的数据分为若干个独立的数据单元,并记载每个数据单元的容量,同时将数据单元依次按照时间轴的顺序存储到数据库集合中,数据库集合包括M个独立的数据库,容量分配器将当前数据单元存储到第N数据库后,第N数据库返回第N数据库的剩余容量信息,当第N数据库的剩余容量信息小于下一个数据单元的容量时,容量分配器开始向第N+1数据库存储数据单元。

【技术实现步骤摘要】

本专利技术涉及大数据处理
,具体是。
技术介绍
对于数据处理企业来说,特别是大数据的处理,需要将数据抽出从而组成一类数据的数据库,而这样的数据库的容量是很大的,因此,在组件数据的过程中,最重要的是看中数据库容量参数,而常规的数据库一般的容量较小,而大型的数据库的容量大,但建设费用很高,举例来说,一般2TB容量的数据库的建设费用达到十几万,如果要组件一个20TB容量的数据库,则需要达到几百万的组件费用,对于一般小型企业来说,这是一笔庞大的开销,因此我们需要一种能降低成本的数据库组建方法,同时要保证这些数据的存储要保持连续性。
技术实现思路
本专利技术的目的在于提供一种,可以以低成本的方式组建大容量的数据库,并保持数据库的连续性。本专利技术的目的主要通过以下技术方案实现:,包括以下步骤: 数据请求步骤:从客户端输入检索关键词、设置检索范围,在检索范围内,从互联网中获得与检索关键词相关的数据; 下载步骤:客户端下载所有与检索关键词相关的数据,并转发给容量分配器; 转发储存步骤:容量分配器将与检索关键词相关的数据分为若干个独立的数据单元,并记载每个数据单元的容量,同时将数据单元依次按照时间轴的顺序存储到数据库集合中,数据库集合包括M个独立的数据库,M个独立的数据库包括数据库1、数据库2、……、数据库M ;容量分配器将当前数据单元存储到第N数据库后,第N数据库返回第N数据库的剩余容量信息,当第N数据库的剩余容量信息小于下一个数据单元的容量时,容量分配器开始向第N+1数据库存储数据单元,依次类推,直到与检索关键词相关的数据全部存储完成后终止,N和M都为正整数。上述方法的设计原理为:本专利技术中的数据库集合包括M个独立的数据库,这些独立的数据库都采用小容量的数据库,以这些低成本、小容量的数据库按照上述存储方法组建成可以容纳大数据的数据库,替代传统大容量的数据库,而上述独立的数据库的架设成本才几千元的成本,通过上述方法架设的数据库,在存储的过程中依旧能保持数据的存储连贯性。为了说明本专利技术的优势,现举例说明:我们要组件一个关于检索范围为“科幻片”的数据库,而在互联网上述科幻片的数量是庞大的,因此需要占用大量的存储容量,假设I部科幻片的单个数据量为2GB,假设在互联网上的科幻片的数量为I万部,目标数据库的总容量要20TB。按照现有大数据库的架设方法是,采用3个8TB的数据库分别存储这些数据,而3个8TB的数据库是独立的,之间没有任何关联性,而且他们之间也是不连续的,其数据的存储也是杂乱的,我们需要调取任意一个数据时,则需要加锁整个数据库,因此检索时间较长。而按照本专利技术的方法架设的数据库是,采用20个ITB小容量的数据库,每个的数据库成本为按照3千元计算,则整个数据库的成本为6万,而现有一个8TB的数据库的成本都高达几十万,因为8TB的数据库需要更高的运算使得以及缓存条件,本专利技术将20个数据库与容量分配器架设好后,容量分配器将互联网上的科幻片数据按照时间轴的存储方式进行存储,并制成检索表并将该检索表转发至客户端,我们在检索时,先检索检索表,找到对应检索表后,再检索与检索表对应的独立数据库,最后调出数据库内的对应检索内容。每一个数据库的容量小于或等于1TB。容量分配器存储完成数据单元后,将每一个数据单元的存储位置制成检索表,并将该检索表转发至客户端。所有数据单元安装时间轴进行依次存储。容量分配器在存储数据单元前,将筛选容量大于2GB的数据单元暂存,将容量小于2GB的数据单元先存储,待所有容量小于2GB的数据单元存储完成后,再次开始存储容量大于2GB的数据单元。本专利技术的优点在于:成本低,数据存储连续性好。【附图说明】图1为本专利技术的数据存储示意图。【具体实施方式】下面结合实施例及附图对本专利技术作进一步的详细说明,但本专利技术的实施方式不限于此。实施例1: 如图1所示。,包括以下步骤: 数据请求步骤:从客户端输入检索关键词、设置检索范围,在检索范围内,从互联网中获得与检索关键词相关的数据; 下载步骤:客户端下载所有与检索关键词相关的数据,并转发给容量分配器; 转发储存步骤:容量分配器将与检索关键词相关的数据分为若干个独立的数据单元,并记载每个数据单元的容量,同时将数据单元依次按照时间轴的顺序存储到数据库集合中,数据库集合包括M个独立的数据库,M个独立的数据库包括数据库1、数据库2、……、数据库M ;容量分配器将当前数据单元存储到第N数据库后,第N数据库返回第N数据库的剩余容量信息,当第N数据库的剩余容量信息小于下一个数据单元的容量时,容量分配器开始向第N+1数据库存储数据单元,依次类推,直到与检索关键词相关的数据全部存储完成后终止,N和M都为正整数。上述方法的设计原理为:本专利技术中的数据库集合包括M个独立的数据库,这些独立的数据库都采用小容量的数据库,以这些低成本、小容量的数据库按照上述存储方法组建成可以容纳大数据的数据库,替代传统大容量的数据库,而上述独立的数据库的架设成本才几千元的成本,通过上述方法架设的数据库,在存储的过程中依旧能保持数据的存储连贯性。为了说明本专利技术的优势,现举例说明:我们要组件一个关于检索范围为“科幻片”的数据库,而在互联网上述科幻片的数量是庞大的,因此需要占用大量的存储容量,假设I部科幻片的单个数据量为2GB,假设在互联网上的科幻片的数量为I万部,目标数据库的总容量要20TB。按照现有大数据库的架设方法是,采用3个8TB的数据库分别存储这些数据,而3个8TB的数据库是独立的,之间没有任何关联性,而且他们之间也是不连续的,其数据的存储也是杂乱的,我们需要调取任意一个数据时,则需要加锁整个数据库,因此检索时间较长。而按照本专利技术的方法架设的数据库是,采用20个ITB小容量的数据库,每个的数据库成本为按照3千元计算,则整个数据库的成本为6万,而现有一个8TB的数据库的成本都高达几十万,因为8TB的数据库需要更高的运算使得以及缓存条件,本专利技术将20个数据库与容量分配器架设好后,容量分配器将互联网上的科幻片数据按照时间轴的存储方式进行存储,并制成检索表并将该检索表转发至客户端,我们在检索时,先检索检索表,找到对应检索表后,再检索与检索表对应的独立数据库,最后调出数据库内的对应检索内容。每一个数据库的容量小于或等于1TB。容量分配器存储完成数据单元后,将每一个数据单元的存储位置制成检索表,并将该检索表转发至客户端。所有数据单元安装时间轴进行依次存储。容量分配器在存储数据单元前,将筛选容量大于2GB的数据单元暂存,将容量小于2GB的数据单元先存储,待所有容量小于2GB的数据单元存储完成后,再次开始存储容量大于2GB的数据单元。如上所述,则能很好的实现本专利技术。【主权项】1.,其特征在于:包括以下步骤: 数据请求步骤:从客户端输入检索关键词、设置检索范围,在检索范围内,从互联网中获得与检索关键词相关的数据; 下载步骤:客户端下载所有与检索关键词相关的数据,并转发给容量分配器; 转发储存步骤:容量分配器将与检索关键词相关的数据分为若干个独立的数据单元,并记载每个数据单元的容量,同时将数据单元依次按照时间轴的顺序存储到数据库集合中,数据库集合包括M个独立的数据库,M个独立的数据库包括数据库1、数据库2、本文档来自技高网...

【技术保护点】
从互联网中抽取大数据的存储方法,其特征在于:包括以下步骤:数据请求步骤:从客户端输入检索关键词、设置检索范围,在检索范围内,从互联网中获得与检索关键词相关的数据;下载步骤:客户端下载所有与检索关键词相关的数据,并转发给容量分配器;转发储存步骤:容量分配器将与检索关键词相关的数据分为若干个独立的数据单元,并记载每个数据单元的容量,同时将数据单元依次按照时间轴的顺序存储到数据库集合中,数据库集合包括M个独立的数据库,M个独立的数据库包括数据库1、数据库2、……、数据库M;容量分配器将当前数据单元存储到第N数据库后,第N数据库返回第N数据库的剩余容量信息,当第N数据库的剩余容量信息小于下一个数据单元的容量时,容量分配器开始向第N+1数据库存储数据单元,依次类推,直到与检索关键词相关的数据全部存储完成后终止,N和M都为正整数。

【技术特征摘要】

【专利技术属性】
技术研发人员:严澜
申请(专利权)人:成都创行信息科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1