基于哈希并行计算快速验证电子档案文件的方法、系统、设备及介质技术方案

技术编号:38749186 阅读:13 留言:0更新日期:2023-09-09 11:15
本发明专利技术提供了基于哈希并行计算快速验证电子档案文件的方法,解析电子档案文件数据包结构,获取电子档案文件中所有的子文件夹和子文件;根据电子档案文件、子文件夹、子文件之间的依赖关系,设置Hash计算任务属性,创建一系列哈希计算任务,根据层级结构将哈希计算任务进行分层,并根据计算任务类型、层级、依赖关系、文件属性编排文件和文件夹Hash计算任务的执行顺序;根据执行顺序,启动线程执行哈希计算任务,计算电子档案文件数据包中全部子文件和子文件夹的hash值,根据依赖关系组合得到电子档案文件数据包Hash值,验证电子档案文件是否被篡改并定位被篡改文件,本发明专利技术提高了电子档案文件的hash计算效率和速度。档案文件的hash计算效率和速度。档案文件的hash计算效率和速度。

【技术实现步骤摘要】
基于哈希并行计算快速验证电子档案文件的方法、系统、设备及介质


[0001]本申请涉及计算机信息处理
,具体涉及一种基于Hash的电子档案单文件包的并行计算方案。

技术介绍

[0002]大数据、人工智能推广中产生了大量数据文件需要整理归档,数据档案的安全性、隐私性是亟待解决的问题;无纸化办公在诸多领域广泛使用,无纸化办公产生的各种电子文件、电子数据如何进行管理、归档成为目前的问题。为解决电子文件、电子数据的保管问题,电子档案系统的应用逐步开始推广。对于如何将业务行为、办公行为等社会活动产生的电子文件、电子数据等需要归档保存的内容,完整有效的归档至电子档案,必须经过电子档案四性检测:真实性检测、完整性检测、可用性检测、安全性检测。电子档案的真实性,不仅能反应业务行为、办公行为等社会活动的真实情况,而且是电子档案具有价值的前提。在大数据广泛利用的今天,对大量数据档案的安全管理也提到重要的日程。
[0003]电子档案特殊的生成和保管环境使其显现出与传统纸质档案不同的技术特性。从信息的记录形式来看,电子档案是一种纯粹的数字化信息,具有易改、易逝和对计算机系统的依赖性等特点;从载体特性来看,电子档案又具有载体与信息的可分离性、信息存储的不稳定性等特点。这些技术特性使电子档案的真实性面临巨大挑战。
[0004]电子文件的真实性可以划分为两方面:一是文件在形成过程中的真实性;二是文件形成之后是真实的,即文件从形成到归档保存的整个生命周期中未被篡改,始终保持形成时的原始状态。电子签名和电子印章虽能在一定程度上保障电子文件形成过程中的真实性,但文件形成后,是否会被技术手段篡改,电子文件在归档和移交过程中以及在未来的保存、迁移、利用中能否保持真实性,都是目前亟待解决的问题。
[0005]对电子文件进行归档要求满足:归档文件真实性、有效性、完整性、可用性,归档后的数据文件无法确定数据是否被修改,通常通过计算文件哈希值验证归档文件的真实性,归档后的海量数据验证及哈希HASH计算需要大量的时间,在较短的时间周期内不能完成HASH值的校验过程,不能快速确定数据是否被修改,不能快速准确定位和确定海量文件中被篡改的文件。
[0006]现有技术对大文件的哈希计算大部分是针对一个完整的文件进行分割,将分割后的文件块进行计算。电子档案文件包是一个含有大量各种类型子文件夹和子文件的文件包,为了能够快速定位电子档案文件数据包中文件发生变动及篡改情况,每个电子档案文件哈希值以及其所属子文件夹的哈希值都与其所属的子文件夹哈希值和子文件哈希值相关,因此,不能将电子档案文件数据包中文件进行简单分割,将各个分割包的哈希计算分配到不同计算节点完成。
[0007]公开号CN115795560A,名称“一种跨系统查验文件完整性的方法、装置、设备及介质”,公开一种跨系统查验文件完整性的方法,旨在提供一种有效的方法来验证电子合同和
电子档案的真实性,通过存储和计算哈希值来保证文件的完整性,并通过比较哈希值来检测文件是否被篡改。但没有涉及到对海量文件的哈希计算进行规划和任务调度等问题,计算时间和确定篡改文件的周期较长。
[0008]公开号CN111680198B,名称“基于文件分割与特征提取的档案管理系统及方法”,公开基于文件分割与特征提取的档案管理系统及方法, 通过分割文件、提取特征和建立特征树的方式,可以提升资源空间利用率和检索效率,但没有涉及任务调度,对文件进行分割计算没有考虑文件之间文件夹已子文件之间的归属关系等,不能完成文件的真实性检查以及快速准确定位篡改文件。
[0009]对于电子档案文件等海量文件的hash计算,可能会导致构建的命令行过长,为每个找到的结果都执行一次命令,可能会导致运行的进程过多。当数据量足够大,哈希表等数据结构会因为其内存占用过大而降低效率。

技术实现思路

[0010]有鉴于此,本申请针对现有技术存在的上述问题,提出一种基于哈希并行计算快速验证电子档案文件包的方法。
[0011]本专利技术解决上述问题的技术方案是,根据本申请的一个方面,提出一种基于哈希并行计算快速验证电子档案文件的方法,解析电子档案文件数据包结构,获取电子档案文件中所有的子文件夹和子文件;根据电子档案文件、子文件夹、子文件之间的依赖关系,设置Hash计算任务属性,创建一系列哈希计算任务,根据层级结构将哈希计算任务进行分层,并根据计算任务类型、层级、依赖关系、文件属性编排文件和文件夹Hash计算任务的执行顺序;根据执行顺序,启动线程执行哈希计算任务,计算电子档案文件数据包中全部子文件和子文件夹的hash值,根据依赖关系组合得到电子档案文件数据包Hash值,验证电子档案文件是否被篡改并定位被篡改文件。
[0012]进一步优选,创建一系列哈希计算任务包括:分别创建文件类型计算任务组和文件夹类型计算任务组,文件类型计算任务组包含所有文件型Hash计算任务,文件夹类型计算任务组包含所有文件夹型Hash计算任务;所述启动线程执行哈希计算任务包括:对于相同电子档案ID编号的文件及文件夹计算任务,根据线程并行启动所有文件类型Hash计算任务,并行计算执行同层子文件夹Hash计算任务,从电子档案文件数据包最底层逐级向上启动各层子文件夹类型Hash计算任务;对于不同电子档案ID编号的文件及文件夹计算任务,根据线程启动并行计算任务。
[0013]进一步优选,设置文件型Hash计算任务属性,包含:电子档案编号ID,随机生成唯一标识符作为任务ID,任务ID在整个电子档案文件Hash计算生命周期中保持唯一,指示待计算哈希值的子文件的路径或位置的文件可访问URL路径;对于每个子文件,创建一个文件型Hash计算任务,并为其分配任务ID和文件可访问URL路径;设置子文件夹Hash计算任务属性,包括:电子档案编号ID,随机生成的唯一标识符作为任务ID,文件夹层级,确定任务调度和执行顺序的依赖任务ID,对于每个子文件夹,创建一个文件夹类型Hash计算任务,并为其分配任务ID和层级属性,记录该子文件夹的依赖任务ID。
[0014]进一步优选,在创建Hash计算任务时,记录子文件夹和子文件的任务标识符作为依赖关系,文件夹类型Hash计算任务的依赖关系包括其所属文件夹的所有子文件夹和所有
子文件的哈希值;根据文件夹的层级结构将文件夹类型计算任务进行分层,将各子文件夹下所属文件夹或者文件名首字符的UTF

8编码、文件哈希顺序组装,得到其上层的文件夹Hash值,直至获取电子档案文件数据包根文件Hash值。
[0015]进一步优选,通过定时的心跳机制向工具服务器发送资源请求,获取工具服务器的cpu占用率,内存占用率,可用线程数资源信息,根据工具服务器返回的资源信息更新当前的资源情况,根据当前的资源情况和任务优先级,通过调度算法将任务分配到最佳的工具服务器上,根据任务的类型,任务的依赖关系,任务的层数结合任务的预估计算时间,任务的所属档案ID综合计算任务的优先级。
[0016]进一步优选,多个计算任务分配给可用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于哈希并行计算快速验证电子档案文件的方法,其特性在于,解析电子档案文件数据包结构,获取电子档案文件中所有的子文件夹和子文件;根据电子档案文件、子文件夹、子文件之间的依赖关系,设置Hash计算任务属性,创建一系列哈希计算任务,根据层级结构将哈希计算任务进行分层,并根据计算任务类型、层级、依赖关系、文件属性编排文件和文件夹Hash计算任务的执行顺序;根据执行顺序,启动线程执行哈希计算任务,计算电子档案文件数据包中全部子文件和子文件夹的hash值,根据依赖关系组合得到电子档案文件数据包Hash值,验证电子档案文件是否被篡改并定位被篡改文件。2.根据权利要求1所述的方法,其特征在于,创建一系列哈希计算任务包括:分别创建文件类型计算任务组和文件夹类型计算任务组,文件类型计算任务组包含所有文件型Hash计算任务,文件夹类型计算任务组包含所有文件夹型Hash计算任务;所述启动线程执行哈希计算任务包括:对于相同电子档案ID编号的文件及文件夹计算任务,根据线程并行启动所有文件类型Hash计算任务,并行计算执行同层子文件夹Hash计算任务,从电子档案文件数据包最底层逐级向上启动各层子文件夹类型Hash计算任务;对于不同电子档案ID编号的文件及文件夹计算任务,根据线程启动并行计算任务。3.根据权利要求1所述的方法,其特征在于,设置文件型Hash计算任务属性,包含:电子档案编号ID,随机生成唯一标识符作为任务ID,任务ID在整个电子档案文件Hash计算生命周期中保持唯一,指示待计算哈希值的子文件的路径或位置的文件可访问URL路径;对于每个子文件,创建一个文件型Hash计算任务,并为其分配任务ID和文件可访问URL路径;设置子文件夹Hash计算任务属性,包括:电子档案编号ID,随机生成的唯一标识符作为任务ID,文件夹层级,确定任务调度和执行顺序的依赖任务ID,对于每个子文件夹,创建一个文件夹类型Hash计算任务,并为其分配任务ID和层级属性,记录该子文件夹的依赖任务ID。4.根据权利要求1

3其中之一所述的方法,其特征在于,在创建Hash计算任务时,记录子文件夹和子文件的任务标识符作为依赖关系,文件夹类型Hash计算任务的依赖关系包括其所属文件夹的所有子文件夹和所有子文件的哈希值;根据文件夹的层级结构将文件夹类型计算任务进行分层,将各子文件夹下所属文件夹或者文件名首字符的UTF

8编码、文件哈希顺序组装,得到其上层的文件夹Hash值,直至获取电子档案文件数据包根文件Hash值。5.根据权利要求1

3其中之一所述的方法,其特征在于,通过定时的心跳机制向工具服务器发送资源请求,获取工具服务器的cpu占用率,内存占用率,可用线程数资源信息,根据工具服务器返回...

【专利技术属性】
技术研发人员:蔡复兴刘科杨东锋余海波李赓
申请(专利权)人:重庆傲雄在线信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1