一种数字档案管理方法、系统、设备及介质技术方案

技术编号:39321433 阅读:15 留言:0更新日期:2023-11-12 16:01
本发明专利技术涉及数据处理技术领域,提供一种数字档案管理方法、系统、设备及介质,包括:获取多份待处理档案对应的实体数据;根据实体数据确定实体之间的实体关系,并根据实体数据对待处理档案进行文本切分获得档案索引;根据实体数据确定多份待处理档案对应的共有实体;对实体数据、实体关系、档案索引以及共有实体进行关联存储,以形成档案库。本发明专利技术获得的档案库中存储的不是整个档案文件,而是与档案对应的实体、实体关系、共有实体以及实体对应的档案索引,在后续档案检索过程中,根据检索条件能通过共有实体够从融合后的档案库中获取得到多份相关联的档案,从而实现整个档案库的检索,提升了档案检索效率。提升了档案检索效率。提升了档案检索效率。

【技术实现步骤摘要】
一种数字档案管理方法、系统、设备及介质


[0001]本专利技术涉及数据处理
,尤其涉及一种数字档案管理方法、系统、设备及介质。

技术介绍

[0002]档案数字化是随着计算机技术、扫描技术、扫描线性CCD技术、OCR技术、数字摄影技术(录音、录像)、数据库技术、多媒体技术、存储技术的发展而产生的一种新型档案信息形态,它把各种载体的档案资源转化为数字化的档案信息,以数字化的形式存储,网络化的形式互相连接,利用计算机系统进行管理,形成一个有序结构的档案信息库,及时提供利用,实现资源共享。
[0003]目前,多数领域使用的数字档案以Word、PDF为主,也即以Word、PDF等形式对档案文件进行存储,并形成文本化索引的文件库。基于前述的文件库,由于数字档案均为独立存储,所以在档案文件检索的时候,只能对单个档案文件进行检索,不能实现整个档案库的检索,从而减低了档案检索效率。

技术实现思路

[0004]本专利技术提供一种数字档案管理方法、系统、设备及介质,用以解决现有技术中的缺陷。
[0005]本专利技术提供一种数字档案管理方法,包括:
[0006]获取多份待处理档案对应的实体数据;
[0007]根据所述实体数据确定实体之间的实体关系,并根据所述实体数据对所述待处理档案进行文本切分获得档案索引;
[0008]根据所述实体数据确定所述多份待处理档案对应的共有实体;
[0009]对所述实体数据、所述实体关系、所述档案索引以及所述共有实体进行关联存储,以形成档案库。
[0010]根据本专利技术提供一种数字档案管理方法,所述获取多份待处理档案对应的实体数据,包括:
[0011]根据预设的元数据库从多份待处理档案中抽取实体,所述预设的元数据库包括档案实体名称;
[0012]在所述待处理档案中提取与所述实体对应的属性信息;
[0013]根据所述实体与所述属性信息确定档案类图;
[0014]相应地,所述根据所述实体数据确定实体之间的实体关系,包括:
[0015]根据所述待处理档案的上下文信息以及实体数据确定实体之间的实体关系,基于所述实体关系获取所述档案类图之间的边;
[0016]所述对所述实体数据、所述实体关系、所述档案索引以及所述共有实体进行关联存储,包括:
[0017]根据所述档案类图之间的边对所述档案类图进行关联存储。
[0018]根据本专利技术提供的一种数字档案管理方法,所述根据所述实体数据对所述待处理档案进行文本切分获得档案索引,包括:
[0019]根据实体数据将所述待处理档案中的文本切分包括索引词与实体类型词的索引单元;
[0020]利用所述索引单元获取数据索引文件,并基于所述索引单元中的索引词在所述多份待处理档案中的位置信息获取倒排索引文件,所述档案索引包括数据索引文件与倒排索引文件。
[0021]根据本专利技术提供的一种数字档案管理方法,所述根据所述实体数据确定所述多份待处理档案对应的共有实体,包括:
[0022]根据所述实体数据确定所述待处理档案之间共有的实体,从而获得初始共有实体集;
[0023]对所述初始共有实体集中实体对应的属性信息进行同义词替换,从而获得第一属性;
[0024]根据所述实体对应的属性信息以及所述第一属性对属性重复的实体进行删除,以获得最终的共有实体集;
[0025]相应地,所述对所述实体数据、所述实体关系、所述档案索引以及所述共有实体进行关联存储,包括:
[0026]根据所述最终的共有实体集对实体进行关联存储。
[0027]根据本专利技术提供的一种数字档案管理方法,所述在所述待处理档案中提取与所述实体对应的属性信息,包括:
[0028]利用预先训练好的实体属性提取模型对所述待处理档案中的实体进行属性信息提取;
[0029]其中,所述预先训练好的实体属性提取模型为卷积神经网络模型,并基于训练档案以及对应的标签训练得到。
[0030]根据本专利技术提供的一种数字档案管理方法,所述根据所述待处理档案的上下文信息以及实体数据确定实体之间的实体关系,包括:
[0031]对所述待处理档案进行句子内容解析与向量化处理,获得词向量;
[0032]利用双向LSTM对所述词向量进行正向和反向的上下文学习,获得包括上下文信息的词向量;
[0033]利用注意力机制确定每个所述包括上下文信息的词向量在档案差异检测任务中的重要性,以获得权重向量;
[0034]通过对所述包括上下文信息的词向量与所述权重向量进行相乘获得词汇级特征的融合结果,并作为句子级特征;
[0035]通过分类器对所述句子级特征进行分类,以获得对应的差异类别,将所述差异类别作为实体关系。
[0036]根据本专利技术提供的一种数字档案管理方法,在所述对所述实体数据、所述实体关系、所述档案索引以及所述共有实体进行关联存储,以形成档案库之后,方法还包括:
[0037]获取检索条件;
[0038]根据所述检索条件对应的实体从所述档案库中获取与所述实体对应的多个档案。
[0039]本专利技术还提供一种数字档案管理系统,包括:
[0040]实体获取模块,用于获取多份待处理档案对应的实体数据;
[0041]关系与索引获取模块,用于根据所述实体数据确定实体之间的实体关系,并根据所述实体数据对所述待处理档案进行文本切分获得档案索引;
[0042]共有实体获取模块,用于根据所述实体数据确定所述多份待处理档案对应的共有实体;
[0043]关联存储模块,用于对所述实体数据、所述实体关系、所述档案索引以及所述共有实体进行关联存储,以形成档案库。
[0044]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述数字档案管理方法的步骤。
[0045]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述数字档案管理方法的步骤。
[0046]本专利技术提供的数字档案管理方法数字档案管理方法、系统、设备及介质,通过对档案进行实体提取、实体关系提取、档案索引建立以及共有实体的获取,并对上述获取到的数据进行关联存储,获得融合后的档案库,在该档案库中存储的不是整个档案文件,而是与档案对应的实体、实体关系、共有实体以及实体对应的档案索引,在后续档案检索过程中,根据检索条件能通过共有实体够从融合后的档案库中获取得到多份相关联的档案,从而实现整个档案库的检索,提升了档案检索效率。
附图说明
[0047]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0048]图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数字档案管理方法,其特征在于,包括:获取多份待处理档案对应的实体数据;根据所述实体数据确定实体之间的实体关系,并根据所述实体数据对所述待处理档案进行文本切分获得档案索引;根据所述实体数据确定所述多份待处理档案对应的共有实体;对所述实体数据、所述实体关系、所述档案索引以及所述共有实体进行关联存储,以形成档案库。2.根据权利要求1所述的数字档案管理方法,其特征在于,所述获取多份待处理档案对应的实体数据,包括:根据预设的元数据库从多份待处理档案中抽取实体,所述预设的元数据库包括档案实体名称;在所述待处理档案中提取与所述实体对应的属性信息;根据所述实体与所述属性信息确定档案类图;相应地,所述根据所述实体数据确定实体之间的实体关系,包括:根据所述待处理档案的上下文信息以及实体数据确定实体之间的实体关系,基于所述实体关系获取所述档案类图之间的边;所述对所述实体数据、所述实体关系、所述档案索引以及所述共有实体进行关联存储,包括:根据所述档案类图之间的边对所述档案类图进行关联存储。3.根据权利要求1所述的数字档案管理方法,其特征在于,所述根据所述实体数据对所述待处理档案进行文本切分获得档案索引,包括:根据实体数据将所述待处理档案中的文本切分包括索引词与实体类型词的索引单元;利用所述索引单元获取数据索引文件,并基于所述索引单元中的索引词在所述多份待处理档案中的位置信息获取倒排索引文件,所述档案索引包括数据索引文件与倒排索引文件。4.根据权利要求1所述的数字档案管理方法,其特征在于,所述根据所述实体数据确定所述多份待处理档案对应的共有实体,包括:根据所述实体数据确定所述待处理档案之间共有的实体,从而获得初始共有实体集;对所述初始共有实体集中实体对应的属性信息进行同义词替换,从而获得第一属性;根据所述实体对应的属性信息以及所述第一属性对属性重复的实体进行删除,以获得最终的共有实体集;相应地,所述对所述实体数据、所述实体关系、所述档案索引以及所述共有实体进行关联存储,包括:根据所述最终的共有实体集对实体进行关联存储。5.根据权利要求2所述的数字档案管理方法,其特征在于,所述在所述待处...

【专利技术属性】
技术研发人员:高微王西山李永妮王伟宁宋文杰黄慧
申请(专利权)人:中车青岛四方机车车辆股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1