从互联网中抽取大数据的存储方法技术

技术编号：11701615 阅读：94 留言：0更新日期：2015-07-09 01:10

本发明专利技术公开了从互联网中抽取大数据的存储方法，数据请求步骤：从客户端输入检索关键词、设置检索范围，在检索范围内，从互联网中获得与检索关键词相关的数据；下载步骤：客户端下载所有与检索关键词相关的数据，并转发给容量分配器；转发储存步骤：容量分配器将与检索关键词相关的数据分为若干个独立的数据单元，并记载每个数据单元的容量，同时将数据单元依次按照时间轴的顺序存储到数据库集合中，数据库集合包括M个独立的数据库，容量分配器将当前数据单元存储到第N数据库后，第N数据库返回第N数据库的剩余容量信息，当第N数据库的剩余容量信息小于下一个数据单元的容量时，容量分配器开始向第N+1数据库存储数据单元。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及大数据处理
，具体是。
技术介绍
对于数据处理企业来说，特别是大数据的处理，需要将数据抽出从而组成一类数据的数据库，而这样的数据库的容量是很大的，因此，在组件数据的过程中，最重要的是看中数据库容量参数，而常规的数据库一般的容量较小，而大型的数据库的容量大，但建设费用很高，举例来说，一般2TB容量的数据库的建设费用达到十几万，如果要组件一个20TB容量的数据库，则需要达到几百万的组件费用，对于一般小型企业来说，这是一笔庞大的开销，因此我们需要一种能降低成本的数据库组建方法，同时要保证这些数据的存储要保持连续性。
技术实现思路
本专利技术的目的在于提供一种，可以以低成本的方式组建大容量的数据库，并保持数据库的连续性。本专利技术的目的主要通过以下技术方案实现:，包括以下步骤: 数据请求步骤:从客户端输入检索关键词、设置检索范围，在检索范围内，从互联网中获得与检索关键词相关的数据；下载步骤:客户端下载所有与检索关键词相关的数据，并转发给容量分配器；转发储存步骤:容量分配器将与检索关键词相关的数据分为若干个独立的数据单元，并记载每个数据单元的容量，同时将数据单元依次按照时间轴的顺序存储到数据库集合中，数据库集合包括M个独立的数据库，M个独立的数据库包括数据库1、数据库2、……、数据库M ;容量分配器将当前数据单元存储到第N数据库后，第N数据库返回第N数据库的剩余容量信息，当第N数据库的剩余容量信息小于下一个数据单元的容量时，容量分配器开始向第N+1数据库存储数据单元，依次类推，直到与检索关键词相关的数据全部存储完成后终止，N和...

【技术保护点】
从互联网中抽取大数据的存储方法，其特征在于：包括以下步骤：数据请求步骤：从客户端输入检索关键词、设置检索范围，在检索范围内，从互联网中获得与检索关键词相关的数据；下载步骤：客户端下载所有与检索关键词相关的数据，并转发给容量分配器；转发储存步骤：容量分配器将与检索关键词相关的数据分为若干个独立的数据单元，并记载每个数据单元的容量，同时将数据单元依次按照时间轴的顺序存储到数据库集合中，数据库集合包括M个独立的数据库，M个独立的数据库包括数据库1、数据库2、……、数据库M；容量分配器将当前数据单元存储到第N数据库后，第N数据库返回第N数据库的剩余容量信息，当第N数据库的剩余容量信息小于下一个数据单元的容量时，容量分配器开始向第N+1数据库存储数据单元，依次类推，直到与检索关键词相关的数据全部存储完成后终止，N和M都为正整数。

【技术特征摘要】

【专利技术属性】
技术研发人员：严澜，
申请(专利权)人：成都创行信息科技有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人