超大型数据存储方法、分布式数据库系统及其检索方法技术方案

技术编号：9490009 阅读：69 留言：0更新日期：2013-12-25 23:48

本发明专利技术提供一种超大型数据存储方法，包括如下步骤：将待存储的每一条数据按预设的分割属性进行分割，得到每条数据的活跃数据和死数据；将所述死数据存储后压缩；生成所述活跃数据的数据库表，将所述数据库表按预设的分发策略分类存储在不同的数据库。本发明专利技术还提供一种分布式数据库系统，以及一种分布式数据库系统的检索方法，能解决超大型结构化数据的存储难题，存储资源消耗小，数据的检索速度快。

全部详细技术资料下载

【技术实现步骤摘要】
超大型数据存储方法、分布式数据库系统及其检索方法
本专利技术涉及数据库
，特别是涉及一种超大型数据存储方法，一种分布式数据库系统，以及一种分布式数据库系统的检索方法。
技术介绍
21世纪是一个数据爆炸的时代，特别是对数据定义的逐步对象化、精细化，越来越多的结构化数据会随之产生。特别是当前通信运营商、互联网行业目前对用户行为分析关注度越来越高，伴随着需要存储与查询分析的数据量也越来越大。例如，某省级电信运营商上网清单数据量每天都是在10多亿条记录以上，单表一天数据量达300G以上，而类似的清单数据类型达几十种，由于一般需要保留三个月到半年，因此所需要的存储资源一般可以达到PB级。如此超大数据的存储如果采用传统的关系型数据库来存储，会对主机的性能、存储资源都会有很高的要求，需要有巨大的投资。目前业界比较流行的大数据存储包括hadoop、mongodb、mysql等分布式数据存储与统计技术，但这些技术面对如此大的数据存储与应用，仍然需要较大的硬件开销。大数据存储目前业界一般有二种模式，一种是sharenothing架构，另一种是shareeverything架构，其中sharenothing架构主要是数据分散存储，各节点间不进行数据共享访问，shareeverything架构是数据存储在共享磁阵中，各分布式节点均可以共享访问。其中由于shareeverything架构需要共享磁阵，导致对磁阵的带宽总线以及网络构造极高，在数据量增长到PB级别时，基本没有实现优势。而sharenothing由于是分布式的数据存储架构，因此节点可以灵活扩展，少到10台左右的集群...
超大型数据存储方法、分布式数据库系统及其检索方法

【技术保护点】
一种超大型数据存储方法，其特征在于，包括如下步骤：将待存储的每一条数据按预设的分割属性进行分割，得到每条数据的活跃数据和死数据；将所述死数据存储后压缩；生成所述活跃数据的数据库表，将所述数据库表按预设的分发策略分类存储在不同的数据库。

【技术特征摘要】
1.一种超大型数据存储方法，其特征在于，包括如下步骤：将待存储的每一条数据按预设的分割属性进行分割，得到每条数据的活跃数据和死数据；其中，所述活跃数据是属性为可能应用于查询条件、统计、关联类的数据，所述死数据是属性为不会应用于查询条件、统计、关联类的数据；将所述死数据存储后压缩；生成所述活跃数据的数据库表，将所述数据库表按预设的分发策略分类存储在不同的数据库；其中，所述分发策略包括按照业务和用户的末M位尾号进行分类存储，其中M是1位、2位、...、任意位。2.根据权利要求1所述的超大型数据存储方法，其特征在于，还包括步骤：建立每条数据中活跃数据与死数据的映射。3.根据权利要求1所述的超大型数据存储方法，其特征在于，将所述死数据存储后压缩的步骤为：将所述死数据按预设的占用单位进行分块存储并压缩。4.根据权利要求2所述的超大型数据存储方法，其特征在于，所述建立每条数据中活跃数据与死数据的映射的步骤为：记录所述死数据压缩后的文件名、存储位置和数据长度；将所述死数据压缩后的文件名、存储位置和数据长度附加至对应的活跃数据的数据库表中。5.一种分布式数据库系统，其特征在于，包括多个数据库，每个所述数据库中存储有不同类别的多个数据库表，所述数据库还以压缩文件包的形式存储有多条死数据；所述数据库表存储多条活跃数据，每条所述活跃数据附加有与对应的死数据的映射；其中，所述死数据和所述活跃数据为根据预设的分割属性从待存储的每一条数据分割而得到，所述活跃数据是属性为可能应用于查询条件、统计、关联类的数据，所述死数据是属性为不会应用于查询条件、统计、关联类的数据；其中，所述数据...

【专利技术属性】
技术研发人员：林斌，李星南，杨德强，余锦业，包达志，姜绍艳，李溢杰，李伟坚，蒋康明，
申请(专利权)人：广东电网公司电力调度控制中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人