一种电子档案长期保存封装包的读取和解析方法及系统技术方案

技术编号:37665581 阅读:11 留言:0更新日期:2023-05-26 04:23
本发明专利技术提出了一种电子档案长期保存封装包的读取和解析方法及系统,涉及档案信息管理领域。该方法包括:基于目标封装包中的移交清单信息利用占位符处理方法进行构造档案元数据文件的包内路径信息;基于档案元数据文件的包内路径信息对目标封装包内的档案元数据文件进行获取,并解析对应的档案元数据文件中包含的电子文件名,以及基于文件名和包内路径信息利用占位符处理方法进行构造电子文件的包内路径信息;基于电子文件的包内路径信息对目标封装包内的目标电子文件进行读取和解析。其不需要程序员事先将封装包固定结构写死到代码中,可以提高电子档案长期保存封装包的读取和解析效率,降低该类项目的建设周期,给用户带来极大的效益提升。带来极大的效益提升。带来极大的效益提升。

【技术实现步骤摘要】
一种电子档案长期保存封装包的读取和解析方法及系统


[0001]本专利技术涉及档案信息管理领域,具体而言,涉及一种电子档案长期保存封装包的读取和解析方法及系统。

技术介绍

[0002]电子档案是具有凭证、查考和保存价值的并归档保存的电子文件,一般指通过电子存储介质进行存储,具有与之相关的元数据来进行额外描述的、相互关联的通用电子文件集合。与纸质档案类似,电子档案同样具备长时间保存要求,为了保证电子档案后期能够在不同场景下应用,电子档案通常以一种确定、开放的格式按照案卷为单位进行打包存储,称为电子档案长期保存封装包。由于档案数据存在定期巡查、质检、管理、利用等多种后续工作,涉及多种系统,因此,实现对应封装包的有效读取和解析变得尤为重要。目前国家档案局已经有相关标准规范长期保存封装包的架构和目录层次,但是由于不同事业单位的档案类型千差万别,档案的格式、元数据清单和组织方式不同,而且随着电子档案的范围扩大,越来越多种类的电子文件开始作为电子档案进行归档存储,这对长期保存封住包的读取和解析带来新的要求和挑战,针对灵活多变的封装包进行读取和解析能力变得尤为重要。
[0003]在传统的方法中是使用硬编码方式进行封装包的读取和解析,即程序员事先和用户方确定封装包结构和字段类型,采用编程方式将指定结构或字段写死到代码中,这会造成程序只能识别固定类型封装包结构,当封装包中的电子档案元数据字段发生变化或新的电子档案类型封装包出现时,原有系统将无法进行读取和解析,只能通过重新编程方式进行封装包类型引入,这无疑大大降低了电子档案长期保存工作的效率,影响了电子档案信息化的发展。

技术实现思路

[0004]本专利技术的目的在于提供一种电子档案长期保存封装包的读取和解析方法及系统,其不需要程序员事先将封装包固定结构写死到代码中,而是通过在线配置封装包结构的方式对封装包的解析过程提供指导,可以根据封装包结构或后期更改提供灵活配置,从而提高电子档案长期保存封装包的读取和解析效率,降低该类项目的建设周期,给用户带来极大的效益提升。
[0005]本专利技术是这样实现的:第一方面,本申请提供一种电子档案长期保存封装包的读取和解析方法,包括以下步骤:基于目标封装包中的移交清单信息利用占位符处理方法进行构造档案元数据文件的包内路径信息,其中,移交清单信息为目标封装包内的用于描述封装包档案条目的信息;基于上述档案元数据文件的包内路径信息对目标封装包内的档案元数据文件进行获取,并解析对应的档案元数据文件中包含的电子文件名,以及基于上述文件名和包内路径
信息利用占位符处理方法进行构造电子文件的包内路径信息;基于上述电子文件的包内路径信息对目标封装包内的目标电子文件进行读取和解析。
[0006]进一步的,上述基于目标封装包中的移交清单信息利用占位符处理方法进行构造档案元数据文件的包内路径信息,包括:按照上述移交清单信息分别获取目标封装包中所有电子文件的元数据名信息,将依次获取的同一电子文件的元数据名填入同一组预定的占位符中,得到目标封装包中所有的档案元数据文件的包内路径信息。
[0007]进一步的,还包括将得到的档案元数据文件的包内路径信息进行数据清洗,上述数据清洗包括:将得到的档案元数据文件的包内路径信息进行非法字符判断,并将判断为包括非法字符情况的档案元数据文件的包内路径信息进行删除处理。
[0008]进一步的,上述基于目标封装包中的移交清单信息利用占位符处理方法进行构造档案元数据文件的包内路径信息,包括:按照上述移交清单信息分别获取目标封装包中所有电子文件的元数据信息,并基于预定的树状元数据的数据结构对不同组的元数据进行隔离处理,其中,上述隔离处理包括:在解析过程中维护一个多叉树数据结构,当遇到需要隔离元数据的节点类型时,多叉树进行分叉处理,并将后续子节点中的元数据放置在不同的子节点中;当遇见占位符时,向上溯源查找,直到查找到根据节点。
[0009]进一步的,包括多种不同的解析模型,每一种解析模型用于解析不同类型的解析文件。上述基于上述电子文件的包内路径信息对目标封装包内的目标电子文件进行读取和解析,包括:基于上述电子文件的包内路径信息对目标封装包内的目标电子文件进行读取,并按照目标电子文件的类型匹配对应的解析模型进行解析处理。
[0010]第二方面,本申请提供一种电子档案长期保存封装包的读取和解析系统,其包括:路径构造模块,被配置为基于目标封装包中的移交清单信息利用占位符处理方法进行构造档案元数据文件的包内路径信息,其中,移交清单信息为目标封装包内的用于描述封装包档案条目的信息;路径完善模块,被配置为基于上述档案元数据文件的包内路径信息对目标封装包内的档案元数据文件进行获取,并解析对应的档案元数据文件中包含的电子文件名,以及基于上述文件名和包内路径信息利用占位符处理方法进行构造电子文件的包内路径信息;读取解析模块,被配置为基于上述电子文件的包内路径信息对目标封装包内的目标电子文件进行读取和解析。
[0011]第三方面,本申请提供一种电子设备,包括至少一个处理器、至少一个存储器和数据总线;其中:上述处理器与上述存储器通过上述数据总线完成相互间的通信;上述存储器存储有被上述处理器执行的程序指令,上述处理器调用上述程序指令以执行如上述第一方面中任一项所述的方法。
[0012]第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面中任一项上述的方法。
[0013]相对于现有技术,本专利技术至少具有如下优点或有益效果:(1)通过优化封装包的读取和解析过程,实现不需要程序员事先将封装包固定结构写死到代码中,即可对封装包进行有效的读取和解析的目的。从而可以提高电子档案长期保存封装包的读取和解析效率,降低该类项目的建设周期,给用户带来极大的效益提升。
[0014](2)利用占位符的处理方法进行构建包内路径,可以准确有效的获取到对应电子文件的路径,为后续对电子文件进行读取和解析操作提供理论支撑。包括通过路径与一类
解析文件相关联,不停向下引发解析过程,最终实现整体封装包中所有文件的访问与解析过程。
[0015](3)通过采用一种树状元数据的数据结构进行不同组元数据隔离,从而可以避免在根据占位符生成对应的包内路径信息时,产生非法结果,用以实现构造结果唯一、确定的目的。
附图说明
[0016]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0017]图1为本专利技术一种电子档案长期保存封装包的读取和解析方法一实施例的流程图;图2为本专利技术一实施例中的封装包的结构示意图;图3为本专利技术一实施例中的移交清单文件内容示意图;图4为本专利技术一实施例中的移交清单的解析结构示意图;图5为本专利技术一实施例中利用树状元数据结构进行不同组元数据隔离本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种电子档案长期保存封装包的读取和解析方法,其特征在于,包括以下步骤:基于目标封装包中的移交清单信息利用占位符处理方法进行构造档案元数据文件的包内路径信息,其中,移交清单信息为目标封装包内的用于描述封装包档案条目的信息;基于所述档案元数据文件的包内路径信息对目标封装包内的档案元数据文件进行获取,并解析对应的档案元数据文件中包含的电子文件名,以及基于所述文件名和包内路径信息利用占位符处理方法进行构造电子文件的包内路径信息;基于所述电子文件的包内路径信息对目标封装包内的目标电子文件进行读取和解析。2.如权利要求1所述的一种电子档案长期保存封装包的读取和解析方法,其特征在于,所述基于目标封装包中的移交清单信息利用占位符处理方法进行构造档案元数据文件的包内路径信息,包括:按照所述移交清单信息分别获取目标封装包中所有电子文件的元数据名信息,将依次获取的同一电子文件的元数据名填入同一组预定的占位符中,得到目标封装包中所有的档案元数据文件的包内路径信息。3.如权利要求2所述的一种电子档案长期保存封装包的读取和解析方法,其特征在于,还包括将得到的档案元数据文件的包内路径信息进行数据清洗,所述数据清洗包括:将得到的档案元数据文件的包内路径信息进行非法字符判断,并将判断为包括非法字符情况的档案元数据文件的包内路径信息进行删除处理。4.如权利要求1所述的一种电子档案长期保存封装包的读取和解析方法,其特征在于,所述基于目标封装包中的移交清单信息利用占位符处理方法进行构造档案元数据文件的包内路径信息,包括:按照所述移交清单信息分别获取目标封装包中所有电子文件的元数据信息,并基于预定的树状元数据的数据结构对不同组的元数据进行隔离处理,其中,所述隔离处理包括:在解析过程中维护一个多叉树数据结构,当遇到需要隔离...

【专利技术属性】
技术研发人员:由伟希张海青
申请(专利权)人:北京云唤维科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1