The invention discloses a hybrid tax big data security protection method and erasure codes based on multiple copies, tax data when the tax data distributed storage system is normal, multi copy start tax data correction and process storage delete code storage mode, when the tax revenue data distributed data storage system failure, start tax fault tolerant data process. The invention uses the tax data of different time points of pattern storage, erasure encoding task distribution in different nodes, using the first copy of erasure code model, improves the comprehensive tax data security and data recovery performance, improve the encoding performance of the whole system, ensure the erasure encoding prior to the completion of data security.
【技术实现步骤摘要】
一种基于纠删码与多副本的混合税务大数据安全保护方法
本专利技术涉及计算机数据管理
,具体涉及一种基于纠删码与多副本的混合税务大数据安全保护方法。
技术介绍
随着经济全球化和我国经济的不断深入发展,我国纳税人数量迅猛增长、税种越发丰富,面对越来越庞大的税务数据,分布式存储是一个主流的存储方案,具有很高的性价比和扩展性。对于税务数据而言,其在分布式存储环境中的数据安全问题是值得研究的关键点。分布式存储系统包含大量节点,节点失效或者外部入侵都有可能导致数据不完整。为了避免数据丢失,通常采用基于冗余数据的容错方法,冗余容错主要有两种:一种是多副本容错,通过复制冗余数据进行容错;另一种是纠删码容错,通过编码生成冗余数据进行容错。目前被广泛运用的容错方法是基于复制的多副本容错:将原数据复制成c个副本,然后将c个数据副本分发到c个不同的存储节点,这样任意c-1个节点失效时,每个数据至少还有1个副本存在。多副本容错具有简单易实现、计算开销少、数据访问性能好的优点。但是多副本容错也具有非常突出的缺点:存储开销很大。对于税务数据这种本身很庞大,且一直保持高速增长的数据而言,基于复制的多副本容错并不适用。随着数据爆炸式的增长,纠删码容错因其能够以低得多的存储开销提供相同甚至更高的数据可靠性,近年来也开始成为研究热点。纠删码的容错策略是:将一个数据分成c个数据块,然后将c个数据块编码成n(n>c)个编码块分发到n个不同磁盘中,这样当节点失效时,只要该数据还有c个编码块存在,就能够将原数据解码出来。与被广泛使用的三副本容错方案相比,RS纠删码既可以将存储空间消耗降低53%,也 ...
【技术保护点】
一种基于纠删码与多副本的混合税务大数据安全保护方法,其特征在于,当税务数据分布式存储系统的税务数据正常时,启动税务数据的多副本与纠删码存储方式存储流程;当税务数据分布式存储系统的税务数据失效时,启动税务数据容错处理流程;所述多副本与纠删码存储方式存储流程包括如下步骤:步骤S11,将税务数据按时间划分为历史数据和近期数据,所述近期数据包括多个不同的近期数据包;步骤S12,将所述近期数据按照多副本存储方式存储在多副本存储模块,将所述历史数据按照纠删码存储方式存储在纠删码存储模块;步骤S13,当一近期数据包被标记为已完成状态,则将该近期数据包转存到纠删码存储模块从而形成历史数据;所述税务数据容错处理流程包括如下步骤:步骤S21,根据多副本存储模块数据管理节点,判断失效税务数据存储在多副本存储模块中还是纠删码存储模块中;步骤S22,如果失效的税务数据存储在多副本存储模块,按照多副本管理节点的记录向相关多副本存储节点发送测试报文,根据测试报文反馈时延选择与失效税务数据对应的副本,并将副本恢复成有效的税务数据;步骤S23,如果失效的税务数据存储在纠删码存储模块,需进一步查找纠删码管理节点的记录,向 ...
【技术特征摘要】
1.一种基于纠删码与多副本的混合税务大数据安全保护方法,其特征在于,当税务数据分布式存储系统的税务数据正常时,启动税务数据的多副本与纠删码存储方式存储流程;当税务数据分布式存储系统的税务数据失效时,启动税务数据容错处理流程;所述多副本与纠删码存储方式存储流程包括如下步骤:步骤S11,将税务数据按时间划分为历史数据和近期数据,所述近期数据包括多个不同的近期数据包;步骤S12,将所述近期数据按照多副本存储方式存储在多副本存储模块,将所述历史数据按照纠删码存储方式存储在纠删码存储模块;步骤S13,当一近期数据包被标记为已完成状态,则将该近期数据包转存到纠删码存储模块从而形成历史数据;所述税务数据容错处理流程包括如下步骤:步骤S21,根据多副本存储模块数据管理节点,判断失效税务数据存储在多副本存储模块中还是纠删码存储模块中;步骤S22,如果失效的税务数据存储在多副本存储模块,按照多副本管理节点的记录向相关多副本存储节点发送测试报文,根据测试报文反馈时延选择与失效税务数据对应的副本,并将副本恢复成有效的税务数据;步骤S23,如果失效的税务数据存储在纠删码存储模块,需进一步查找纠删码管理节点的记录,向相关纠删码存储节点发送测试报文,然后根据测试报文反馈时延依次选择相应编码块,获得足够数量编码块后,即可还原恢复税务数据。2.如权利要求1所述的一种基于纠删码与多副本的混合税务大数据安全保护方法,其特征在于,步骤S12中所述的纠删码存储方式包括以下步骤:步骤S1221,由纠删码管理节点判断外部对纠删码存储模块的访问频度是否低于访问频度阈值,从而判断当前纠删码存储模块是否处于空闲状态,如果是则激活全部纠删码存储节点;步骤S1222,对每一个被激活的纠删码存储节点进行如下判断:该纠删码存储节点的存储负载是否超过存储满载阈值,以及该纠删码存储节点的网络负载是否超过网络满载阈值,如果均不超过,则向多副本管理节点请求待转...
【专利技术属性】
技术研发人员:崔莹,陈升东,陈健彬,
申请(专利权)人:广州中国科学院软件应用技术研究所,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。