一种大数据存储系统技术方案

技术编号:23983571 阅读:25 留言:0更新日期:2020-04-29 12:27
本发明专利技术公开一种大数据存储系统,包括控制器,控制器连接有信息传输模块与若干个分布式数据库,分布式数据库数量可拓展,所述分布式数据库包括存储数据库与数据处理模块,所述信息传输模块连接有分级模块、阅览模块、信息评阅模块、访问模块与检索模块,所述分级模块连接有数据编录模块,所述控制器还连接有标识模块、暂存模块、自动检索模块、统计模块、验证模块与数据分类模块;本发明专利技术减小了异常登录的账号频繁访问对大部分分布式数据库的压力,降低异常账号对正常访问的影响,同时本发明专利技术按时对存储数据库中的冗余文件进行删除以释放存储数据库的存储空间,通过将数据均匀分布在若干个分布式数据库中,提高被存储数据的安全性。

A big data storage system

【技术实现步骤摘要】
一种大数据存储系统
本专利技术属于数据存储
,具体的,涉及一种大数据存储系统。
技术介绍
随着互联网技术的高速发展,人们对于数据的存储也有着越来越高的需求,数据只会不断的增长,而在这一过程中,如何将增长的数据信息存储起来是存储系统的发展中最基本的问题,大数据通常指的是那些数量巨大、难于收集、处理、分析的数据集,亦指那些在传统基础设施中长期保存的数据,大数据存储是将这些数据集持久化到计算机中。随着大数据应用的爆发性增长,它已经衍生出了自己独特的架构,而且也直接推动了存储、网络以及计算技术的发展,毕竟处理大数据这种特殊的需求是一个新的挑战,硬件的发展最终还是由软件需求推动的,就这个例子来说,我们很明显的看到大数据分析应用需求正在影响着数据存储基础设施的发展,提高存储系统的存储能力,可以从两方面入手,一方面为通过拓展存储系统的存储空间,对海量数据进行存储,这也是现有技术中主要的操作方法,但单从拓展存储空间下手会快速提高存储新系统的硬件成本,因此还可以从对存储空间内的存储内容进行整改,剔除重复的、检索意义不高的内容,释放存储空间,从而达到提高存储系统存储能力的效果,为了解决这一问题,本专利技术提供了以下技术方案。
技术实现思路
本专利技术的目的在于提供一种大数据存储系统。本专利技术需要解决的技术问题为:1、现有技术中,用户用于连接存储系统的链接密钥容易被盗取,从而出现恶意利用链接密钥不断的对存储系统进行访问的事件,导致网络宽带被大量占用,影响正常用户对存储系统的访问;2、现有技术中,存储系统对大量数据进行存储,其中大量数据出现重复,占用了大量的存储空间,同时在数据的长期积累之后,同类文件的增多也会提高用户的检索难度。本专利技术的目的可以通过以下技术方案实现:一种大数据存储系统,包括控制器,控制器连接有信息传输模块与若干个分布式数据库,分布式数据库数量可拓展,所述分布式数据库包括存储数据库与数据处理模块,所述信息传输模块连接有分级模块、阅览模块、信息评阅模块、访问模块与检索模块,所述分级模块连接有数据编录模块,所述控制器还连接有标识模块、暂存模块、自动检索模块、统计模块、验证模块与数据分类模块;所述访问模块通过信息传输模块与控制器向验证模块传输访问认证信息,当访问认证信息通过验证模块的验证时,对应用户能够登录并对数据库中的数据进行访问查看;所述验证模块用于对访问模块发出的访问认证信息进行验证,并对通过验证的账号登录状况进行监督;所述标示模块用于生成账号并对账号标记,所标记账号分为高权限用户账号与普通权限用户账号,标记模块生成的账号分至各用户;所述数据编录模块用于输入待存储数据,同时高权限用户能够通过数据编录模块对二级数据进行修改,数据编录模块中输入的待存储数据经分级模块设定权限后传输至暂存模块;所述存储数据库用于存储数据编录模块输入的数据;所述数据处理模块用于响应控制器的控制命令对存储数据库中的数据进行处理;所述数据编录模块输入的待存储数据进入存储数据库的流程为:步骤一:待存储数据传输至分级模块,分级模块将待存储数据分为一级数据与二级数据,其中一级数据为所有用户可发布、所有用户不可修改只可查阅的数据,二级数据为高权限用户可发布,所有用户可以查阅,高权限用户能够进行修改的数据;步骤二:待存储数据传输至暂存模块,自动检索模块对待存储数据的标题进行检索,当待存储数据的标题中θ%的字符包含于分布式数据库中已经存储的数据A1、A2、......、An的标题中,则定义此待存储数据与已经存储的信息A1、A2、......、An为同一类数据,其中θ为预设值;步骤三:控制器分析已经存储的数据A1、A2、......、An在分布式数据库中的分布状况,得到已经存储的数据A1、A2、......、An在各个分布式数据库中的存储数量B1、B2、......、Bn,取B1、B2、......、Bn中最小的存储数量Bk对应的分布式数据库Ck中,将该待存储数据传输至Ck中,若同时出现多个存储数量为Bk的分布式数据库C1、C2、......Cn,则待存储数据随机存储分布式数据库C1、C2、......Cn中的一个;所述阅览模块用于查询阅览数据库中的现有数据;所述信息评阅模块用于对数据库中的现有数据进行评价,评价分为赞同与不赞同,评价由接入存储系统的用户进行,每一个账号能够对一条数据信息进行一次评价;所述数据分类模块用于对数据编录模块输入的数据按照所属检索领域进行分类,检索领域包括但不限于建筑、娱乐、军事、政治、社会与航天;用户通过所述访问模块输入关键词对存储数据库中的数据进行检索与查看,访问模块的关键词信息传输入统计模块;所述统计模块用于对一段时间内访问模块输入的关键词信息进行统计与分析,并将分析结果传输至自动检索模块;所述自动检索模块用于对分布式数据库中的数据的标题与内容进行检索,并根据检索结果对冗余文件进行删除以释放存储数据库的存储空间;所述冗余文件的删除方法为:SS1、将检索领域分为R1、R2、......、Rn,预设每个检索领域的检索时间为T1、T2、......Tn,所述统计模块按照检索领域Rk每隔Tk时间对关键词信息进行统计,提取排名为Sk的关键词,其中1≤k≤n,且k为自然数,Tk与Sk均为预设值;SS2、自动检索模块根据上一步骤中提取的关键词对存储数据库中的数据进行检索并提取,各个存储数据库中被提取的数据首先传输至数据处理模块,数据处理模块对其所在的分布式数据库内的被提取数据的标题与内容进行读取并进行相似度比较,当至少两个数据的相似度达到预设值ω%时,定义其为同一内容数据,每个检索领域的预设值ω%均不相同,且ω为预设值;SS3、被定义为同一内容的数据之间根据X值与X1值进行比较,其中X=XX12,其中X1为数据的赞同的数量,X2为数据的不赞同的数量,X1≥X3,X3为设定数值,对同一内容的数据的X值进行比较并保留X值最大的数据Y1的以及X1值最大的数据Q1,X1≤X3的数据与其它不符合要求的冗余数据均从存储数据库中进行删除;SS4、自动检索模块将各分布式数据库中得到的数据Y1、Y2、......Yn、Q1、Q2、......Qn后,对各数据的标题与内容进行读取并进行相似度比较,当至少两个数据的相似度达到预设值ω%时,定义其为同一内容数据,按照步骤SS3中的操作方法对冗余数据进行删除,其中ω为预设值。作为本专利技术的进一步方案,所述访问模块与所述验证模块验证账号信息与账号登录状况的方法如下:S1、访问模块在登录账号后向验证模块发出登录认证信息,验证模块接收到该登录认证信息后,向访问模块反馈第一验证信息,第一验证信息包括但不限于验证码,用于初步验证账号登录为计算机自动操作或真人操作;S2、访问模块在接收到反馈的第一验证信息后,向验证模块发出链接申请信息,验证模块在接收到链接申请信息后向访问模块开放部分分布式数据库,开放的分布式数据库占分布式数本文档来自技高网...

【技术保护点】
1.一种大数据存储系统,其特征在于,包括控制器,控制器连接有信息传输模块与若干个分布式数据库,分布式数据库数量可拓展,所述分布式数据库包括存储数据库与数据处理模块,所述信息传输模块连接有分级模块、阅览模块、信息评阅模块、访问模块与检索模块,所述分级模块连接有数据编录模块,所述控制器还连接有标识模块、暂存模块、自动检索模块、统计模块、验证模块与数据分类模块;/n所述访问模块通过信息传输模块与控制器向验证模块传输访问认证信息,当访问认证信息通过验证模块的验证时,对应用户能够登录并对数据库中的数据进行访问查看;/n所述验证模块用于对访问模块发出的访问认证信息进行验证,并对通过验证的账号登录状况进行监督;/n所述标示模块用于生成账号并对账号标记,所标记账号分为高权限用户账号与普通权限用户账号,标记模块生成的账号分至各用户;/n所述数据编录模块用于输入待存储数据,同时高权限用户能够通过数据编录模块对二级数据进行修改,数据编录模块中输入的待存储数据经分级模块设定权限后传输至暂存模块;/n所述存储数据库用于存储数据编录模块输入的数据;/n所述数据处理模块用于响应控制器的控制命令对存储数据库中的数据进行处理;/n所述数据编录模块输入的待存储数据进入存储数据库的流程为:/n步骤一:待存储数据传输至分级模块,分级模块将待存储数据分为一级数据与二级数据,其中一级数据为所有用户可发布、所有用户不可修改只可查阅的数据,二级数据为高权限用户可发布,所有用户可以查阅,高权限用户能够进行修改的数据;/n步骤二:待存储数据传输至暂存模块,自动检索模块对待存储数据的标题进行检索,当待存储数据的标题中θ%的字符包含于分布式数据库中已经存储的数据A...

【技术特征摘要】
1.一种大数据存储系统,其特征在于,包括控制器,控制器连接有信息传输模块与若干个分布式数据库,分布式数据库数量可拓展,所述分布式数据库包括存储数据库与数据处理模块,所述信息传输模块连接有分级模块、阅览模块、信息评阅模块、访问模块与检索模块,所述分级模块连接有数据编录模块,所述控制器还连接有标识模块、暂存模块、自动检索模块、统计模块、验证模块与数据分类模块;
所述访问模块通过信息传输模块与控制器向验证模块传输访问认证信息,当访问认证信息通过验证模块的验证时,对应用户能够登录并对数据库中的数据进行访问查看;
所述验证模块用于对访问模块发出的访问认证信息进行验证,并对通过验证的账号登录状况进行监督;
所述标示模块用于生成账号并对账号标记,所标记账号分为高权限用户账号与普通权限用户账号,标记模块生成的账号分至各用户;
所述数据编录模块用于输入待存储数据,同时高权限用户能够通过数据编录模块对二级数据进行修改,数据编录模块中输入的待存储数据经分级模块设定权限后传输至暂存模块;
所述存储数据库用于存储数据编录模块输入的数据;
所述数据处理模块用于响应控制器的控制命令对存储数据库中的数据进行处理;
所述数据编录模块输入的待存储数据进入存储数据库的流程为:
步骤一:待存储数据传输至分级模块,分级模块将待存储数据分为一级数据与二级数据,其中一级数据为所有用户可发布、所有用户不可修改只可查阅的数据,二级数据为高权限用户可发布,所有用户可以查阅,高权限用户能够进行修改的数据;
步骤二:待存储数据传输至暂存模块,自动检索模块对待存储数据的标题进行检索,当待存储数据的标题中θ%的字符包含于分布式数据库中已经存储的数据A1、A2、......、An的标题中,则定义此待存储数据与已经存储的信息A1、A2、......、An为同一类数据,其中θ为预设值;
步骤三:控制器分析已经存储的数据A1、A2、......、An在分布式数据库中的分布状况,得到已经存储的数据A1、A2、......、An在各个分布式数据库中的存储数量B1、B2、......、Bn,取B1、B2、......、Bn中最小的存储数量Bk对应的分布式数据库Ck中,将该待存储数据传输至Ck中,若同时出现多个存储数量为Bk的分布式数据库C1、C2、......Cn,则待存储数据随机存储分布式数据库C1、C2、......Cn中的一个;
所述阅览模块用于查询阅览数据库中的现有数据;
所述信息评阅模块用于对数据库中的现有数据进行评价,评价分为赞同与不赞同,评价由接入存储系统的用户进行,每一个账号能够对一条数据信息进行一次评价;
所述数据分类模块用于对数据编录模块输入的数据按照所属检索领域进行分类,检索领域包括但...

【专利技术属性】
技术研发人员:任伟蔡军杰陆琴亚
申请(专利权)人:杭州桐硕教育科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1