基于Hadoop开源平台的大数据安全存储方法技术

技术编号:22387290 阅读:16 留言:0更新日期:2019-10-29 06:29
本发明专利技术公开基于Hadoop开源平台的大数据安全存储方法,包括访问模块、数据采集模块、处理器、初步存储单元、分析模块、分配模块和分类存储设备,所述数据采集模块用于采集待存储文件信息,所述待存储文件信息包括文件拓展名数据、文件数据、文件字节数据和存储期限数据,所述数据采集模块将文件拓展名数据、文件数据、文件字节数据和存储期限数据经处理器传输到初步存储单元,本发明专利技术通过分配模块的设置,对分析模块内分析的文件数据进行文件分类,对于重点标记的文件进行重点存储和备份,避免文件在存储时间内出现丢失,给人们带来一定的损失,浪费工作人员大量的时间来处理该文件的备份恢复,提高工作效率。

Secure storage method of big data based on Hadoop open source platform

【技术实现步骤摘要】
基于Hadoop开源平台的大数据安全存储方法
本专利技术涉及安全存储
,具体为基于Hadoop开源平台的大数据安全存储方法。
技术介绍
数据是最核心资产,存储系统作为数据的保存空间,是数据保护的最后一道防线;随着存储系统由本地直连向着网络化和分布式的方向发展,并被网络上的众多计算机共享,使存储系统变得更易受到攻击,相对静态的存储系统往往成为攻击者的首选目标,达到窃取、篡改或破坏数据的目的。存储安全变得至关重要,安全存储主要包括存储安全技术、重复数据删除技术、数据备份及灾难恢复技术等。现有专利申请公布号为CN107122685A的一种大数据安全存储方法和设备,该大数据安全存储方法和设备能够满足安全需求、降低安全防护系统复杂度、提高系统可靠性、简化境外站的管理和维护的大数据安全存储方法和设备,但是,该大数据安全存储方法和设备无法在文件存储是对文件进行详细的文件分类,同时在存储过程中还会出现文件内数据的丢失,没有对文件内的部分内容进行重点存储和备份,为此,我们提出基于Hadoop开源平台的大数据安全存储方法。
技术实现思路
本专利技术的目的在于通过初步存储单元的设置,对最初采集到的数据进行存储,来实现文件存储的完整性和安全性,通过分析模块的设置,计算出文件的访问频率以及访问时间间隔比值,从而判断该文件的浏览程度大小亦或者是受欢迎程度,从而根据文件的受欢迎程度,来进行划分存储单元,通过分配模块的设置,对分析模块内分析的文件数据进行文件分类,来实现对文件的重点存储和备份,并进行存储设置。本专利技术所要解决的技术问题为:(1)如何通过初步存储单元的设置,来实现文件存储的完整性和安全性;(2)如何通过分析模块的设置,来根据文件的受欢迎程度,进行划分存储单元;(3)如何通过分配模块的设置,来实现对文件的重点存储和备份,并进行存储设置。本专利技术的目的可以通过以下技术方案实现:基于Hadoop开源平台的大数据安全存储方法,包括访问模块、数据采集模块、处理器、初步存储单元、分析模块、分配模块和分类存储设备;所述数据采集模块用于采集待存储文件信息,所述待存储文件信息包括文件拓展名数据、文件数据、文件字节数据和存储期限数据,所述数据采集模块将文件拓展名数据、文件数据、文件字节数据和存储期限数据经处理器传输到初步存储单元,并对其进行初步存储;所述访问模块用于访问存储文件并记录访问相应文件的访问次数和访问时间间隔数据,所述访问模块将访问次数数据和访问时间间隔数据经处理器传输到分析模块,所述初步存储单元将文件拓展名数据、文件数据、文件字节数据和存储期限数据传输到分析模块,并将其与访问次数和访问时间间隔数据一同进行分析操作,来得到长时间存储信号、短时间存储信号、难存储信号、易存储信号、重点存储信号、访问频率V和浏览程度,并将其传输到分配模块;所述分配模块用于对文件数据进行存储分配,所述存储设备内设置有长期存储单元、临时存储单元、备份存储单元和重点存储单元,所述分配模块在接收到长时间存储信号、短时间存储信号、难存储信号、易存储信号、重点存储信号、访问频率V和浏览程度后,即对其进行存储分配操作,得出文件的划分单元,并将其安全存储设置,所述安全存储设置指代对存储后的数据进行定期清理、备份以及判断文件是否缺失等。优选的,分析操作的具体操作过程如下:步骤一:设定文件数据为Wi,i=1,2,3......n,对应的文件字节数据为Zi,i=1,2,3......n,存储期限数据为Qi,i=1,2,3......n,且Wi、Zi和Qi一一对应;步骤二:根据文件拓展名数据,将文件数据进行初步类别划分;步骤三:根据步骤一中的存储期限数据,对文件进行存储划分,当存储期限数据Qi≥M时,则判定该文件存储时间长,生成长时间存储信号,当存储期限数据Qi<M时,则判定该文件存储时间短,生成段时间存储信号,其中,M为预设值;步骤三:根据步骤一中的文件字节数据,对文件进行大小划分,当文件字节数据Zi≥N时,则判定该文件的字节多,生成难存储信号,当文件字节数据Zi<N时,则判定该文件的字节少,生成易存储信号;步骤四:获取访问次数和访问时间间隔数据,并将其依次设定为Fc和Tj,c=1,2,3......l,j=1,2,3......u,根据公式频率=时间/次数,得出该文件的访问频率为步骤五:根据相邻的两次访问次数的访问时间间隔时间比值,判断出该文件的浏览程度,具体为:S1:设定该文件访问时间间隔比值为Ba,a=1,2,3......b,根据计算公式得出访问时间间隔比值S2:设定一个比值范围P,当Ba∈P时,则判定该文件浏览程度大,生成重点存储信号,当时,则判定该文件浏览程度小。优选的,存储分配操作的具体操作过程如下:C1:在步骤二中,根据文件拓展名数据,将文件数据进行初步类别划分的基础上,接收到长时间存储信号将对应的文件划分到长时间存储单元内,在接收到段时间存储信号后,将对应的文件划分到临时存储单元内,并读取该文件的存储时间,进行定期清理;C2:在C1的基础上,接收到难存储信号后,将其划分到备份存储单元内,并在存储过后将其与初步存储单元内的数据进行比对,当缺失的字节数大于H时,则对其进行重新存储,避免该文件的重要信息丢失,在接收到易存储信号后,正常存储,不进行数据备份,其中,H为预设值;C3:当接收到重点存储信号时,将重点存储信号相对应的文件划分到重点存储单元内,并设定期限,定期将其与初步存储单元内的对应文件数据进行比对,当比对结果一致时进行备份,当比对结果不一致时,则获取初步存储单元内的文件数据进行存储。本专利技术的有益效果:(1)数据采集模块用于采集待存储文件信息,待存储文件信息包括文件拓展名数据、文件数据、文件字节数据和存储期限数据,数据采集模块将文件拓展名数据、文件数据、文件字节数据和存储期限数据经处理器传输到初步存储单元,并对其进行初步存储,通过初步存储单元的设置,对最初采集到的数据进行存储,避免文件在处理的过程中出现缺失的现象发生,保证文件的完整性,增加文件的安全性,提高存储效率;(2)访问模块用于访问存储文件并记录访问相应文件的访问次数和访问时间间隔数据,访问模块将访问次数数据和访问时间间隔数据经处理器传输到分析模块,初步存储单元将文件拓展名数据、文件数据、文件字节数据和存储期限数据传输到分析模块,并将其与访问次数和访问时间间隔数据一同进行分析操作,通过分析模块的设置,计算出文件的访问频率以及访问时间间隔比值,从而判断该文件的浏览程度大小亦或者是受欢迎程度,该类文件进行重点标记,避免其在存储期限内出现缺失或者不完整,给浏览者带来愉快的浏览体验;(3)分配模块用于对文件数据进行存储分配,存储设备内设置有长期存储单元、临时存储单元、备份存储单元和重点存储单元,分配模块在接收到长时间存储信号、短时间存储信号、难存储信号、易存储信号、重点存储信号、访问频率V和浏览程度后,即对其进行存储分配操作,通过分配模块的设置,对分析模块内分析的文件数据进行文件分类,对于重点标记的文件进行重点存储和备份,避免文件在存储时间内出现丢失,给人们带来一定的损失,浪费工作人员大量的时间来处理该文件的备份恢复,提高工作效率。附图说明下面结合附图对本专利技术作进一步的说明。图1是本专利技术本文档来自技高网...

【技术保护点】
1.基于Hadoop开源平台的大数据安全存储方法,其特征在于,包括访问模块、数据采集模块、处理器、初步存储单元、分析模块、分配模块和分类存储设备;所述数据采集模块用于采集待存储文件信息,所述待存储文件信息包括文件拓展名数据、文件数据、文件字节数据和存储期限数据,所述数据采集模块将文件拓展名数据、文件数据、文件字节数据和存储期限数据经处理器传输到初步存储单元,并对其进行初步存储;所述访问模块用于访问存储文件并记录访问相应文件的访问次数和访问时间间隔数据,所述访问模块将访问次数数据和访问时间间隔数据经处理器传输到分析模块,所述初步存储单元将文件拓展名数据、文件数据、文件字节数据和存储期限数据传输到分析模块,并将其与访问次数和访问时间间隔数据一同进行分析操作,来得到长时间存储信号、短时间存储信号、难存储信号、易存储信号、重点存储信号、访问频率V和浏览程度,并将其传输到分配模块;所述分配模块用于对文件数据进行存储分配,所述存储设备内设置有长期存储单元、临时存储单元、备份存储单元和重点存储单元,所述分配模块在接收到长时间存储信号、短时间存储信号、难存储信号、易存储信号、重点存储信号、访问频率V和浏览程度后,即对其进行存储分配操作,得出文件的划分单元,并将其安全存储设置,所述安全存储设置指代对存储后的数据进行定期清理、备份以及判断文件是否缺失等。...

【技术特征摘要】
1.基于Hadoop开源平台的大数据安全存储方法,其特征在于,包括访问模块、数据采集模块、处理器、初步存储单元、分析模块、分配模块和分类存储设备;所述数据采集模块用于采集待存储文件信息,所述待存储文件信息包括文件拓展名数据、文件数据、文件字节数据和存储期限数据,所述数据采集模块将文件拓展名数据、文件数据、文件字节数据和存储期限数据经处理器传输到初步存储单元,并对其进行初步存储;所述访问模块用于访问存储文件并记录访问相应文件的访问次数和访问时间间隔数据,所述访问模块将访问次数数据和访问时间间隔数据经处理器传输到分析模块,所述初步存储单元将文件拓展名数据、文件数据、文件字节数据和存储期限数据传输到分析模块,并将其与访问次数和访问时间间隔数据一同进行分析操作,来得到长时间存储信号、短时间存储信号、难存储信号、易存储信号、重点存储信号、访问频率V和浏览程度,并将其传输到分配模块;所述分配模块用于对文件数据进行存储分配,所述存储设备内设置有长期存储单元、临时存储单元、备份存储单元和重点存储单元,所述分配模块在接收到长时间存储信号、短时间存储信号、难存储信号、易存储信号、重点存储信号、访问频率V和浏览程度后,即对其进行存储分配操作,得出文件的划分单元,并将其安全存储设置,所述安全存储设置指代对存储后的数据进行定期清理、备份以及判断文件是否缺失等。2.根据权利要求1所述的基于Hadoop开源平台的大数据安全存储方法,其特征在于,分析操作的具体操作过程如下:步骤一:设定文件数据为Wi,i=1,2,3......n,对应的文件字节数据为Zi,i=1,2,3......n,存储期限数据为Qi,i=1,2,3......n,且Wi、Zi和Qi一一对应;步骤二:根据文件拓展名数据,将文件数据进行初步类别划分;步骤三:根据步骤一中的存储期限数据,对文件进行存储划分,当存储期限数据Qi≥M时,则判定该文件存...

【专利技术属性】
技术研发人员:葛文平高汉吕兆龙唐惟清倪宗山
申请(专利权)人:宿州星尘网络科技有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1