一种计算机大数据存储系统技术方案

技术编号:39897231 阅读:10 留言:0更新日期:2023-12-30 13:10
本发明专利技术涉及大数据存储技术领域,且公开了一种计算机大数据存储系统,首先通过需求分析模块对需要存储以及获取的数据进行了解和期望,然后通过数据采集模块对相关需要存储的数据进行采集处理,然后数据预处理模块对采集的数据进行相关预处理便于后续的分类以及压缩,然后通过数据分区模块将数据划分成具有逻辑的数据块最后将数据存储至大数据存储模块中,设置了数据分区模块,根据存储数据的某个范围属性,例如根据数据的字符串分区,根据数据的字符串的字典序以及特定的规则进行划分,方便后续的对数据进行快速的定点访问以及快速筛选查看,大大的提高了数据查询和分析的效率

【技术实现步骤摘要】
一种计算机大数据存储系统


[0001]本专利技术涉及大数据存储
,具体为一种计算机大数据存储系统


技术介绍

[0002]随着数字化时代的到来,大量的数据被生成

收集和存储,从生活中的数据

社交媒体数据到企业交易数据,以及科学研究中的实验数据,数据规模呈现爆发式增长的趋势

大数据存储系统需要能够处理不同种类和格式的数据,包括结构化数据
(
如关系数据库
)、
半结构化数据
(

XML

JSON)
以及非结构化数据
(
如图像

音频和视频数据
)。
传统关系型数据库在处理非结构化和半结构化数据方面存在局限性,因此需要新的存储系统来应对这些挑战,并且传统的存储系统无法满足这种海量数据的存储和处理需求,因此需要开发更为高效和可扩展的大数据存储系统,所以,在此提出了一种计算机大数据存储系统

[0003]目前,计算机大数据存储系统在进行海量数据存储的时候,为了方便数据的存储和调用,都会将存储的数据进行分类并且存储在不同的数据存储区中,在调用的时候访问对应的存储区,但是对于海量的数据来说,每一个存储区中的数据量依然非常巨大,需要占用大量的存储空间,影响存储效果,对此,我们提出了一种计算机大数据存储系统能够有效的利用当前有限的存储空间,将存储的数据有规律的进行压缩,在调用的时候,有条理的进行数据的访问,达到有限的存储空间中存储更多的数据,可以广泛的应用在医疗数据等大数据存储的平台中,大大的提高了数据的存储效率


技术实现思路

[0004]针对现有技术中存储系统存储数据时占用存储空间非常大的不足,本专利技术提供了一种计算机大数据存储系统,具备将存储的数据有规律的进行压缩,在调用的时候,有条理的进行数据的访问的优点

[0005]为实现上述目的,本专利技术提供如下技术方案:
.
一种计算机大数据存储系统,包括用于了解对数据存储的需求和期望,了解系统所需的存储容量

数据分类方式的需求分析模块;
[0006]用于采集存储系统需要进行分类存储的数据的数据采集模块;
[0007]用于在存储数据之前对数据进行清洗以及填补缺失值等操作的数据预处理模块;
[0008]用于将需要存储的数据进行分区和分桶更便于数据有序存储的数据分区模块;
[0009]用于存储海量数据的大数据存储模块;
[0010]用于对数据进行保护防止出现意外导致数据损失的数据备份与恢复模块;
[0011]首先通过需求分析模块对需要存储以及获取的数据进行了解和期望,然后通过数据采集模块对相关需要存储的数据进行采集处理,然后数据预处理模块对采集的数据进行相关预处理便于后续的分类以及压缩,然后通过数据分区模块将数据划分成具有逻辑的数据块最后将数据存储至大数据存储模块中

[0012]所述需求分析模块首先会对需要存储的相关数据信息进行需求分收集,例如对需
要存储的数据的期望以及需求,然后需求分析模块会对其进行需求整理,将需要存储的数据需求分析完成后将数据需求进行分级排序,根据存储需求的优先级向数据采集模块传输采集指令

[0013]所述数据采集模块接收到需求分析模块传输的采集指令后,数据采集模块根据需求分析分析的存储数据优先级对数据进行采集,数据采集模块通常采用
API
调用技术,如果采集的目标数据源提供了
API
接口,就能够通过数据采集模块
API
调用来采集数据,在数据采集模块获取完数据后会将其传输至数据预处理模块

[0014]所述数据预处理模块对数据采集模块采集的相关数据进行预处理操作,具体包括对数据的清洗以及数据转换,同时填补数据的缺失值,保证数据的一致性和有效性,同时数据预处理模块还会对数据状态进行异常检测与处理,通过采用数据挖掘算法等方法,对数据进行挖掘的同时发现其中的异常数据,例如存在离群点

异常值的数据,将原始的数据预处理成便于后续分析以及分类的数据,同时数据采集模块将预处理完成后的数据传输至数据分区模块

[0015]所述数据分区模块包括了数据的范围分区,具体为根据数据的某个范围属性,例如数据的时间范围分区,根据数据的属性将数据按照时间进行分区,以及字符串分区,字符串分区是根据数据的字符串的字典序以及特定的规则进行划分数据分区模块提高了数据查询和分析的效率,方便对数据进行快速的定点访问,数据分区模块将数据分区完成之后会将数据存储至大数据存储模块中

[0016]所述大数据存储模块接收到数据分区模块处理完成后的数据之后,将数据进行存储,同时大数据存储模块中设置了数据分段分级存储技术

列存储技术以及数据牵引技术,这些技术分别对应了数据分段分级存储模块

列存储技术模块和数据牵引模块

[0017]所述数据分段分级存储模块将大数据存储模块中存储的数据分成不同的段并按照不同的存储级别进行存储,所述列存储技术模块对大数据存储模块存储的数据进行压缩处理,同时列存储技术模块还可以对具有相似的特征的同一列数据进行连续压缩,从而获得更高的压缩率,减少空间的占用以及便于管理,所述数据牵引模块用于构建和维护有效的索引结构,以便大数据存储模块快速的定位和访问存储压缩的数据,常见的索引结构包括
B+


哈希索引

位图索引等

[0018]所述数据备份与恢复模块会定期的对大数据存储模块中的压缩数据进行备份处理,将数据数据复制到其他的位置,从而保护了数据的完整性,同时数据备份与恢复模块还具有数据恢复的功能,当原始数据出现了损坏或者丢失的情况时,通过数据备份与恢复模块在其他位置或者介质中备份的数据对原有的数据进行恢复,数据的恢复可以是整体的数据恢复,也可以是选择性的恢复

[0019]有益效果:
[0020]1、
该计算机大数据存储系统,通过设置了数据分区模块,根据存储数据的某个范围属性,例如根据数据的字符串分区,根据数据的字符串的字典序以及特定的规则进行划分,方便后续的对数据进行快速的定点访问以及快速筛选查看,大大的提高了数据查询和分析的效率

[0021]2、
该计算机大数据存储系统,通过在存储模块中设置了数据分段分级存储模块

列存储技术模块和数据牵引模块,在将大数据存储模块中存储的数据分成不同的段并按照
不通的存储级别进行存储的同时还可以对具有相似的特征的同一列数据进行连续压缩,以及构建和维护有效的索引结构,以便大数据存储模块快速的定位和访问存储压缩的数据,常见的索引结构包括
B+
树本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种计算机大数据存储系统,包括用于了解对数据存储的需求和期望,了解系统所需的存储容量

数据分类方式的需求分析模块
(1)
;用于采集存储系统需要进行分类存储的数据的数据采集模块
(2)
;用于在存储数据之前对数据进行清洗以及填补缺失值等操作的数据预处理模块
(3)
;用于将需要存储的数据进行分区和分桶更便于数据有序存储的数据分区模块
(4)
;用于存储海量数据的大数据存储模块
(5)
;用于对数据进行保护防止出现意外导致数据损失的数据备份与恢复模块
(6)
;其特征在于:首先通过需求分析模块
(1)
对需要存储以及获取的数据进行了解和期望,然后通过数据采集模块
(2)
对相关需要存储的数据进行采集处理,然后数据预处理模块
(3)
对采集的数据进行相关预处理便于后续的分类以及压缩,然后通过数据分区模块
(4)
将数据划分成具有逻辑的数据块最后将数据存储至大数据存储模块
(5)

。2.
根据权利要求1所述的一种计算机大数据存储系统,其特征在于:所述需求分析模块
(1)
首先会对需要存储的相关数据信息进行需求分收集,例如对需要存储的数据的期望以及需求,然后需求分析模块
(1)
会对其进行需求整理,将需要存储的数据需求分析完成后将数据需求进行分级排序,根据存储需求的优先级向数据采集模块
(2)
传输采集指令
。3.
根据权利要求1所述的一种计算机大数据存储系统,其特征在于:所述数据采集模块
(2)
接收到需求分析模块
(1)
传输的采集指令后,数据采集模块
(2)
根据需求分析
(1)
分析的存储数据优先级对数据进行采集,数据采集模块
(2)
通常采用
API
调用技术,如果采集的目标数据源提供了
API
接口,就能够通过数据采集模块
(2)API
调用来采集数据,在数据采集模块
(2)
获取完数据后会将其传输至数据预处理模块
(3)。4.
根据权利要求1所述的一种计算机大数据存储系统,其特征在于:所述数据预处理模块
(3)
对数据采集模块
(2)
采集的相关数据进行预处理操作,具体包括对数据的清洗以及数据转换,同时填补数据的缺失值,保证数据的一致性和有效性,同时数据预处理模块
(3)
还会对数据状态进行异常检测与处理,通过采用数据挖掘算法等方法,对数据进行挖掘的同时发现其中的异常数据,例如存在离群点
...

【专利技术属性】
技术研发人员:赵萌栾国明关宇光王雄飞周健
申请(专利权)人:北京三博脑科医院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1