数字化档案管理系统技术方案

技术编号:36958446 阅读:23 留言:0更新日期:2023-03-22 19:18
公开了一种数字化档案管理系统,其通过包含嵌入层的上下文编码器提取电子扫描文档的文本描述中各个词基于全局的高维语义特征;然后,通过使用具有不同尺度的一维卷积核的文本卷积神经网络提取所述文本描述在不同尺度词特征下的多尺度语义理解关联特征,并以此对所述文本描述对应的主题标签进行分类判断,进而将所述电子扫描文档进行自动归档。这样,可以基于对所述电子扫描文档的文本语义理解来进行智能且准确地档案归档处理,进而实现数字化的档案管理。的档案管理。的档案管理。

【技术实现步骤摘要】
数字化档案管理系统


[0001]本申请涉及智能化管理
,且更为具体地,涉及一种数字化档案管理系统。

技术介绍

[0002]随着国家治理体系和治理能力现代化的深入推进,档案工作发挥作用的空间越来越大,而档案信息化水平的提升,更有利于进一步提高档案工作制度化、规范化、科学化水平,突破档案属地利用限制,打破档案“信息孤岛”,实现馆际档案资源的共建共享。
[0003]近年来,档案信息化、数字化工作也乘机发展迅速,各类辅助设备、软件层次不穷。在实际工作中,档案数字化各项流程基于各类业务软件的支持,已基本实现半自动化处理。但数字化分件环节仍处于人工识别处理的原始状态,特别是在数字化量大、件数多的情况下,需人工反复进行复制粘贴、核验校对,往往需要耗费大量人力和时间,并且极易出现错误。
[0004]因此,期待一种优化的数字化档案管理系统。

技术实现思路

[0005]为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种数字化档案管理系统,其通过包含嵌入层的上下文编码器提取电子扫描文档的文本描述中各个词基于全局的高维语义特征;然后,通过使用具有不同尺度的一维卷积核的文本卷积神经网络提取所述文本描述在不同尺度词特征下的多尺度语义理解关联特征,并以此对所述文本描述对应的主题标签进行分类判断,进而将所述电子扫描文档进行自动归档。这样,可以基于对所述电子扫描文档的文本语义理解来进行智能且准确地档案归档处理,进而实现数字化的档案管理。
[0006]根据本申请的一个方面,提供了一种数字化档案管理系统,其包括:电子文档提取模块,用于获取纸质文档的电子扫描文档;文本识别模块,用于对所述电子扫描文档进行OCR文本识别以得到文本描述;语义编码模块,用于对所述文本描述进行分词处理后通过包含嵌入层的上下文编码器以得到多个词语义特征向量;第一尺度语义关联编码模块,用于将所述多个词语义特征向量排列为一维特征向量后通过使用具有第一尺度的一维卷积核的第一文本卷积神经网络以得到第一尺度上下文特征向量;第二尺度语义关联编码模块,用于将所述多个词语义特征向量排列为一维特征向量后通过使用具有第二尺度的一维卷积核的第二文本卷积神经网络以得到第二尺度上下文特征向量;语义特征融合模块,用于融合所述第一尺度上下文特征向量和所述第二尺度上下文特征向量以得到分类特征向量;主题标注模块,用于将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示所述文本描述对应的主题标签;以及自动归档模块,用于基于所述主题标签,将所述电子扫描文档进行自动归档。
[0007]在上述数字化档案管理系统中,所述语义编码模块,包括:分词单元,用于对所述文本描述进行分词处理以将所述文本描述转化为由多个词组成的词序列;词嵌入单元,用
于使用所述包含嵌入层的上下文编码器的嵌入层将所述词序列中各个词映射到词向量以获得词向量的序列;以及,上下文理解单元,用于使用所述包含嵌入层的上下文编码器的转化器对所述词向量的序列进行基于全局的上下文语义编码以得到所述多个词语义特征向量。
[0008]在上述数字化档案管理系统中,所述上下文理解单元,包括:查询向量构造子单元,用于将所述词向量的序列进行一维排列以得到全局词特征向量;自注意子单元,用于计算所述全局词特征向量与所述词向量的序列中各个词向量的转置向量之间的乘积以得到多个自注意力关联矩阵;标准化子单元,用于分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵;关注度计算子单元,用于将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值;以及,注意力施加子单元,用于分别以所述多个概率值中各个概率值作为权重对所述词向量的序列中各个词向量进行加权以得到所述多个词语义特征向量。
[0009]在上述数字化档案管理系统中,所述第一尺度语义关联编码模块,用于:使用具有第一尺度的一维卷积核的第一文本卷积神经网络的各层在层的正向传递中分别对输入数据进行基于一维卷积核的卷积处理、基于特征矩阵的均值池化处理和激活处理以由所述使用具有第一尺度的一维卷积核的第一文本卷积神经网络的最后一层的输出为所述第一尺度上下文特征向量,其中,所述使用具有第一尺度的一维卷积核的第一文本卷积神经网络的第一层的输入为所述一维特征向量。
[0010]在上述数字化档案管理系统中,所述第二尺度语义关联编码模块,用于:使用具有第二尺度的一维卷积核的第二文本卷积神经网络的各层在层的正向传递中分别对输入数据进行基于一维卷积核的卷积处理、基于特征矩阵的均值池化处理和激活处理以由所述使用具有第二尺度的一维卷积核的第二文本卷积神经网络的最后一层的输出为所述第二尺度上下文特征向量,其中,所述使用具有第二尺度的一维卷积核的第二文本卷积神经网络的第一层的输入为所述一维特征向量。
[0011]在上述数字化档案管理系统中,所述语义特征融合模块,包括:第一校正单元,用于基于所述第二尺度上下文特征向量,对所述第一尺度上下文特征向量进行特征分布校正以得到校正后第一尺度上下文特征向量;第二校正单元,用于基于所述第二尺度上下文特征向量,对所述第一尺度上下文特征向量进行特征分布校正以得到校正后第二尺度上下文特征向量;以及,融合单元,用于计算所述校正后第一尺度上下文特征向量和所述校正后第二尺度上下文特征向量的按位置加权和以得到所述分类特征向量。
[0012]在上述数字化档案管理系统中,所述第一校正单元,进一步用于:基于所述第二尺度上下文特征向量,以如下公式对所述第一尺度上下文特征向量进行特征分布校正以得到所述校正后第一尺度上下文特征向量;其中,所述公式为:
[0013][0014][0015]其中V1表示所述第一尺度上下文特征向量,V2表示所述第二尺度上下文特征向量,
和分别是所述第一尺度上下文特征向量和所述第二尺度上下文特征向量的第i个特征值,且和分别是所述第一尺度上下文特征向量和所述第二尺度上下文特征向量的全部特征值的均值,表示所述校正后第一尺度上下文特征向量的第i个特征值,log表示以2为底的对数函数。
[0016]在上述数字化档案管理系统中,所述第二校正单元,进一步用于:基于所述第二尺度上下文特征向量,以如下公式对所述第一尺度上下文特征向量进行特征分布校正以得到校正后第二尺度上下文特征向量;其中,所述公式为:
[0017][0018][0019]其中V1表示所述第一尺度上下文特征向量,V2表示所述第二尺度上下文特征向量,和分别是所述第一尺度上下文特征向量和所述第二尺度上下文特征向量的第i个特征值,且和分别是所述第一尺度上下文特征向量和所述第二尺度上下文特征向量的全部特征值的均值,表示所述校正后第二尺度上下文特征向量的第i个特征值,log表示以2为底的对数函数。
[0020]在上述数字化档案管理系统中,所述主题标注模块,包括:全连接编码单元,用于使用所述分类器的多个全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量;以及,分类单元本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数字化档案管理系统,其特征在于,包括:电子文档提取模块,用于获取纸质文档的电子扫描文档;文本识别模块,用于对所述电子扫描文档进行OCR文本识别以得到文本描述;语义编码模块,用于对所述文本描述进行分词处理后通过包含嵌入层的上下文编码器以得到多个词语义特征向量;第一尺度语义关联编码模块,用于将所述多个词语义特征向量排列为一维特征向量后通过使用具有第一尺度的一维卷积核的第一文本卷积神经网络以得到第一尺度上下文特征向量;第二尺度语义关联编码模块,用于将所述多个词语义特征向量排列为一维特征向量后通过使用具有第二尺度的一维卷积核的第二文本卷积神经网络以得到第二尺度上下文特征向量;语义特征融合模块,用于融合所述第一尺度上下文特征向量和所述第二尺度上下文特征向量以得到分类特征向量;主题标注模块,用于将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示所述文本描述对应的主题标签;以及自动归档模块,用于基于所述主题标签,将所述电子扫描文档进行自动归档。2.根据权利要求1所述的数字化档案管理系统,其特征在于,所述语义编码模块,包括:分词单元,用于对所述文本描述进行分词处理以将所述文本描述转化为由多个词组成的词序列;词嵌入单元,用于使用所述包含嵌入层的上下文编码器的嵌入层将所述词序列中各个词映射到词向量以获得词向量的序列;以及上下文理解单元,用于使用所述包含嵌入层的上下文编码器的转化器对所述词向量的序列进行基于全局的上下文语义编码以得到所述多个词语义特征向量。3.根据权利要求2所述的数字化档案管理系统,其特征在于,所述上下文理解单元,包括:查询向量构造子单元,用于将所述词向量的序列进行一维排列以得到全局词特征向量;自注意子单元,用于计算所述全局词特征向量与所述词向量的序列中各个词向量的转置向量之间的乘积以得到多个自注意力关联矩阵;标准化子单元,用于分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵;关注度计算子单元,用于将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值;以及注意力施加子单元,用于分别以所述多个概率值中各个概率值作为权重对所述词向量的序列中各个词向量进行加权以得到所述多个词语义特征向量。4.根据权利要求3所述的数字化档案管理系统,其特征在于,所述第一尺度语义关联编码模块,进一步用于:使用具有第一尺度的一维卷积核的第一文本卷积神经网络的各层在层的正向传递中分别对输入数据进行基于一维卷积核的卷积处理、基于特征矩阵的均值池化处理和激活处理以由所述使用具有第一尺度的一维卷积核的第一文本卷积神经网络的最后一层的输出为所述第一尺度上下文特征向量,其中,所述使用具有第一尺度的一维卷积核的第一文本卷积神经网络的第一层的输入为所述一维特征向量。5.根据权利要求4所述的数字化档案管理系...

【专利技术属性】
技术研发人员:付玲玲
申请(专利权)人:华东冶金地质勘查局八一五地质队
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1