一种基于纠删码与多副本的混合税务大数据安全保护方法技术

技术编号:15437073 阅读:108 留言:0更新日期:2017-05-25 19:16
本发明专利技术公开了一种基于纠删码与多副本的混合税务大数据安全保护方法,当税务数据分布式存储系统的税务数据正常时,启动税务数据的多副本与纠删码存储方式存储流程,当税务数据分布式存储系统的税务数据失效时,启动税务数据容错处理流程。本发明专利技术利用不同时间的税务数据特点进行分模式存储,将纠删编码任务分发在不同的节点上,采用先副本后纠删码的模式,综合提高了整个税务数据的安全性和数据修复性能,提高了系统整体的编码性能,保证了在纠删编码完成之前数据的安全性。

Hybrid tax data security protection method based on erasure code and multi copy

The invention discloses a hybrid tax big data security protection method and erasure codes based on multiple copies, tax data when the tax data distributed storage system is normal, multi copy start tax data correction and process storage delete code storage mode, when the tax revenue data distributed data storage system failure, start tax fault tolerant data process. The invention uses the tax data of different time points of pattern storage, erasure encoding task distribution in different nodes, using the first copy of erasure code model, improves the comprehensive tax data security and data recovery performance, improve the encoding performance of the whole system, ensure the erasure encoding prior to the completion of data security.

【技术实现步骤摘要】
一种基于纠删码与多副本的混合税务大数据安全保护方法
本专利技术涉及计算机数据管理
,具体涉及一种基于纠删码与多副本的混合税务大数据安全保护方法。
技术介绍
随着经济全球化和我国经济的不断深入发展,我国纳税人数量迅猛增长、税种越发丰富,面对越来越庞大的税务数据,分布式存储是一个主流的存储方案,具有很高的性价比和扩展性。对于税务数据而言,其在分布式存储环境中的数据安全问题是值得研究的关键点。分布式存储系统包含大量节点,节点失效或者外部入侵都有可能导致数据不完整。为了避免数据丢失,通常采用基于冗余数据的容错方法,冗余容错主要有两种:一种是多副本容错,通过复制冗余数据进行容错;另一种是纠删码容错,通过编码生成冗余数据进行容错。目前被广泛运用的容错方法是基于复制的多副本容错:将原数据复制成c个副本,然后将c个数据副本分发到c个不同的存储节点,这样任意c-1个节点失效时,每个数据至少还有1个副本存在。多副本容错具有简单易实现、计算开销少、数据访问性能好的优点。但是多副本容错也具有非常突出的缺点:存储开销很大。对于税务数据这种本身很庞大,且一直保持高速增长的数据而言,基于复制的多副本容错并不适用。随着数据爆炸式的增长,纠删码容错因其能够以低得多的存储开销提供相同甚至更高的数据可靠性,近年来也开始成为研究热点。纠删码的容错策略是:将一个数据分成c个数据块,然后将c个数据块编码成n(n>c)个编码块分发到n个不同磁盘中,这样当节点失效时,只要该数据还有c个编码块存在,就能够将原数据解码出来。与被广泛使用的三副本容错方案相比,RS纠删码既可以将存储空间消耗降低53%,也同时可以将容错能力提高一倍。但是纠删码的缺陷在于数据重建时性能低下,尤其是在分布式存储中,由于数据重建需要多个节点相互协作,不可避免地带来大量的网络资源消耗和计算资源消耗。对于税务数据这种分布式数据而言,这将成为整个系统性能的关键瓶颈。
技术实现思路
有鉴于此,为了解决现有技术中的上述问题,本专利技术提出一种基于纠删码与多副本的混合税务大数据安全保护方法。本专利技术通过以下技术手段解决上述问题:一种基于纠删码与多副本的混合税务大数据安全保护方法,当税务数据分布式存储系统的税务数据正常时,启动税务数据的多副本与纠删码存储方式存储流程;当税务数据分布式存储系统的税务数据失效时,启动税务数据容错处理流程;所述多副本与纠删码存储方式存储流程包括如下步骤:步骤S11,将税务数据按时间划分为历史数据和近期数据,所述近期数据包括多个不同的近期数据包;步骤S12,将所述近期数据按照多副本存储方式存储在多副本存储模块,将所述历史数据按照纠删码存储方式存储在纠删码存储模块;步骤S13,当一近期数据包被标记为已完成状态,则将该近期数据包转存到纠删码存储模块从而形成历史数据;所述税务数据容错处理流程包括如下步骤:步骤S21,根据多副本存储模块数据管理节点,判断失效税务数据存储在多副本存储模块中还是纠删码存储模块中;步骤S22,如果失效的税务数据存储在多副本存储模块,按照多副本管理节点的记录向相关多副本存储节点发送测试报文,根据测试报文反馈时延选择与失效税务数据对应的副本,并将副本恢复成有效的税务数据;步骤S23,如果失效的税务数据存储在纠删码存储模块,需进一步查找纠删码管理节点的记录,向相关纠删码存储节点发送测试报文,然后根据测试报文反馈时延依次选择相应编码块,获得足够数量编码块后,即可还原恢复税务数据;所述税务数据分布式存储系统,用于提供针对税务数据的存储及容错服务;所述税务数据为税务数据分布式存储系统的客户端输入的数据;所述历史数据为税务数据分布式存储系统时间划分点之前的数据,存储在纠删码存储模块;所述近期数据,为税务数据分布式存储系统时间划分点之后的数据,存储在多副本存储模块;所述多副本存储模块,用于存储与处理近期数据,包括一个多副本存储模块数据管理节点与至少一个多副本存储节点;所述多副本管理节点,用于管理多副本存储模块内数据的复制、分发和存储,并对数据信息进行记录;所述多副本存储节点,用于存储近期数据;所述纠删码存储模块,用于存储与处理历史数据,包括一个纠删码管理节点与至少一个纠删码存储节点;所述纠删码管理节点,用于管理纠删码存储模块内数据的编码、分发和存储,并对数据信息进行记录;所述纠删码存储节点,用于存储历史数据;所述多副本存储方式,用于通过税务数据分布式存储系统来读取、存储、记录和恢复近期数据;所述纠删码存储方式,用于通过税务数据分布式存储系统来转存、读取、记录和恢复历史数据;所述编码块为待转存的近期数据被分包并编码后形成的编码块,存储在纠删码存储节点,用于在税务数据容错处理过程中还原恢复成税务数据。进一步地,步骤S12中所述的纠删码存储方式包括以下步骤:步骤S1221,由纠删码管理节点判断外部对纠删码存储模块的访问频度是否低于访问频度阈值,从而判断当前纠删码存储模块是否处于空闲状态,如果是则激活全部纠删码存储节点;步骤S1222,对每一个被激活的纠删码存储节点进行如下判断:该纠删码存储节点的存储负载是否超过存储满载阈值,以及该纠删码存储节点的网络负载是否超过网络满载阈值,如果均不超过,则向多副本管理节点请求待转存数据;步骤S1223,将待转存数据编码后,分发并保存在纠删码存储节点,并将分发信息记录在纠删码管理节点;步骤S1224,确认数据转存成功后,将多副本存储模块中已转存的税务数据及其副本全部删除;所述待转存数据为多副本管理节点记录中被申请转存数据的某一个副本数据,该副本数据的选择原则需符合负载均衡,该副本数据用于编码后分发并保存在纠删码存储节点;所述分发信息为多个编码块分发到多个纠删码存储节点的记录信息,用于指引多个编码块还原恢复成税务数据。进一步地,步骤S12中所述的多副本存储方式中,写入近期数据的处理流程包括如下步骤:步骤S1231,当客户端发出近期数据请求写入时,多副本管理节点进行响应;步骤S1232,对写入的税务数据进行复制形成副本,并将写入的税务数据及其副本分开存放在不同的多副本存储节点中;步骤S1233,将写入的税务数据的存储信息记录在多副本管理节点。进一步地,步骤S12中所述的多副本存储方式中,读取近期数据的处理流程包括如下步骤:步骤S1241,当客户端发出近期数据读取请求时,多副本管理节点进行响应并根据记录向相关多副本存储节点发送测试报文并请求计算负载;步骤S1242,通过测试报文反馈的时延和相关多副本存储节点的计算负载来综合选择对应的多副本存储节点;步骤S1243,根据多副本管理节点的分发让对应的多副本存储节点内的税务数据直接发送到客户端中;所述客户端为分布式存储系统的客户端,用于写入与读取税务数据。进一步地,步骤S1232中,写入的税务数据及其副本的存放方式是将同一税务数据的不同副本进行物理隔离,选择不同的机柜或机房存储。进一步地,所述编码块形成的过程包括以下步骤:步骤61,待转存的近期数据被分包成C个数据块;步骤62,将C个数据块编码成N个编码块,所述N的数目大于C;步骤63,N个编码块分发到N个不同的纠删码存储模块;步骤64,将N个编码块分发信息记录在编码块所在的纠删码管理节点。本专利技术利用不同时间的税务数据特点进行分模式存储,综合提本文档来自技高网
...
一种基于纠删码与多副本的混合税务大数据安全保护方法

【技术保护点】
一种基于纠删码与多副本的混合税务大数据安全保护方法,其特征在于,当税务数据分布式存储系统的税务数据正常时,启动税务数据的多副本与纠删码存储方式存储流程;当税务数据分布式存储系统的税务数据失效时,启动税务数据容错处理流程;所述多副本与纠删码存储方式存储流程包括如下步骤:步骤S11,将税务数据按时间划分为历史数据和近期数据,所述近期数据包括多个不同的近期数据包;步骤S12,将所述近期数据按照多副本存储方式存储在多副本存储模块,将所述历史数据按照纠删码存储方式存储在纠删码存储模块;步骤S13,当一近期数据包被标记为已完成状态,则将该近期数据包转存到纠删码存储模块从而形成历史数据;所述税务数据容错处理流程包括如下步骤:步骤S21,根据多副本存储模块数据管理节点,判断失效税务数据存储在多副本存储模块中还是纠删码存储模块中;步骤S22,如果失效的税务数据存储在多副本存储模块,按照多副本管理节点的记录向相关多副本存储节点发送测试报文,根据测试报文反馈时延选择与失效税务数据对应的副本,并将副本恢复成有效的税务数据;步骤S23,如果失效的税务数据存储在纠删码存储模块,需进一步查找纠删码管理节点的记录,向相关纠删码存储节点发送测试报文,然后根据测试报文反馈时延依次选择相应编码块,获得足够数量编码块后,即可还原恢复税务数据。...

【技术特征摘要】
1.一种基于纠删码与多副本的混合税务大数据安全保护方法,其特征在于,当税务数据分布式存储系统的税务数据正常时,启动税务数据的多副本与纠删码存储方式存储流程;当税务数据分布式存储系统的税务数据失效时,启动税务数据容错处理流程;所述多副本与纠删码存储方式存储流程包括如下步骤:步骤S11,将税务数据按时间划分为历史数据和近期数据,所述近期数据包括多个不同的近期数据包;步骤S12,将所述近期数据按照多副本存储方式存储在多副本存储模块,将所述历史数据按照纠删码存储方式存储在纠删码存储模块;步骤S13,当一近期数据包被标记为已完成状态,则将该近期数据包转存到纠删码存储模块从而形成历史数据;所述税务数据容错处理流程包括如下步骤:步骤S21,根据多副本存储模块数据管理节点,判断失效税务数据存储在多副本存储模块中还是纠删码存储模块中;步骤S22,如果失效的税务数据存储在多副本存储模块,按照多副本管理节点的记录向相关多副本存储节点发送测试报文,根据测试报文反馈时延选择与失效税务数据对应的副本,并将副本恢复成有效的税务数据;步骤S23,如果失效的税务数据存储在纠删码存储模块,需进一步查找纠删码管理节点的记录,向相关纠删码存储节点发送测试报文,然后根据测试报文反馈时延依次选择相应编码块,获得足够数量编码块后,即可还原恢复税务数据。2.如权利要求1所述的一种基于纠删码与多副本的混合税务大数据安全保护方法,其特征在于,步骤S12中所述的纠删码存储方式包括以下步骤:步骤S1221,由纠删码管理节点判断外部对纠删码存储模块的访问频度是否低于访问频度阈值,从而判断当前纠删码存储模块是否处于空闲状态,如果是则激活全部纠删码存储节点;步骤S1222,对每一个被激活的纠删码存储节点进行如下判断:该纠删码存储节点的存储负载是否超过存储满载阈值,以及该纠删码存储节点的网络负载是否超过网络满载阈值,如果均不超过,则向多副本管理节点请求待转...

【专利技术属性】
技术研发人员:崔莹陈升东陈健彬
申请(专利权)人:广州中国科学院软件应用技术研究所
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1