一种基于数字化处理的档案智能查询方法及系统技术方案

技术编号:36833004 阅读:14 留言:0更新日期:2023-03-12 01:57
本发明专利技术公开了一种基于数字化处理的档案智能查询方法及系统,涉及数据处理领域,其中,所述方法包括:采用OCR技术对档案图像特征信息进行特征识别转换,获得纯文本转换信息;根据档案图像特征信息,对纯文本转换信息进行结构信息还原;将结构还原后的纯文本转换信息输入深度学习语义模型进行全文语义解析,获得语义解析结果;基于语义解析结果,对查询输入信息进行查找匹配,输出档案查询结果。解决了现有技术中针对档案数字化加工的标准不同,造成档案数字化加工效果不佳,以及档案查询的效率低、准确性不高的技术问题。达到了提高档案数字化加工效果,提高档案查询效率,提高档案查询的准确性、可靠性等技术效果。可靠性等技术效果。可靠性等技术效果。

【技术实现步骤摘要】
一种基于数字化处理的档案智能查询方法及系统


[0001]本专利技术涉及数据处理领域,具体地,涉及一种基于数字化处理的档案智能查询方法及系统。

技术介绍

[0002]随着档案数量的日趋增多,档案种类的日趋多样化,纸质档案迅速膨胀,传统的档案管理方式已不能满足档案信息化管理的实际需要,数字化档案应运而生。单一的把传统纸质档案进行数字化加工,生成的数字化档案在实际应用时,存在着档案查询效率低、查询结果依赖关键词等问题,亟需采用技术成熟的智能化辅助手段,显著提升档案查询利用水平,满足人民群众日益增长的档案查询需求。
[0003]现有技术中,存在针对档案数字化加工的标准不同,造成档案数字化加工效果不佳,以及档案查询的效率低、准确性不高的技术问题。

技术实现思路

[0004]本申请提供了一种基于数字化处理的档案智能查询方法及系统。解决了现有技术中针对档案数字化加工的标准不同,造成档案数字化加工效果不佳,以及档案查询的效率低、准确性不高的技术问题。
[0005]鉴于上述问题,本申请提供了一种基于数字化处理的档案智能查询方法及系统。
[0006]第一方面,本申请提供了一种基于数字化处理的档案智能查询方法,其中,所述方法应用于一种基于数字化处理的档案智能查询系统,所述方法包括:通过图像扫描设备对档案进行扫描,获得档案图像特征信息;采用OCR技术,对所述档案图像特征信息进行特征识别转换,获得纯文本转换信息;根据所述档案图像特征信息,对纯文本转换信息进行结构信息还原;将结构还原后的所述纯文本转换信息输入深度学习语义模型进行全文语义解析,获得语义解析结果;基于所述语义解析结果,对查询输入信息进行查找匹配,输出档案查询结果。
[0007]第二方面,本申请还提供了一种基于数字化处理的档案智能查询系统,其中,所述系统包括:档案扫描模块,所述档案扫描模块用于通过图像扫描设备对档案进行扫描,获得档案图像特征信息;特征识别转换模块,所述特征识别转换模块用于采用OCR技术,对所述档案图像特征信息进行特征识别转换,获得纯文本转换信息;结构还原模块,所述结构还原模块用于根据所述档案图像特征信息,对纯文本转换信息进行结构信息还原;语义解析模块,所述语义解析模块用于将结构还原后的所述纯文本转换信息输入深度学习语义模型进行全文语义解析,获得语义解析结果;查找匹配模块,所述查找匹配模块用于基于所述语义解析结果,对查询输入信息进行查找匹配,输出档案查询结果。
[0008]本申请中提供的一个或多个技术方案,至少具有如下技术效果或优点:通过图像扫描设备对档案进行扫描,获得档案图像特征信息;通过OCR技术对档案图像特征信息进行特征识别转换,获得纯文本转换信息;根据档案图像特征信息,对纯文本
转换信息进行结构信息还原;将结构还原后的纯文本转换信息输入深度学习语义模型进行全文语义解析,获得语义解析结果;按照语义解析结果,对查询输入信息进行查找匹配,输出档案查询结果。达到了提高档案数字化加工效果,提高档案查询效率,提高档案查询的准确性、可靠性,同时,实现数字化、智能化、高效化的档案查询,满足人民群众日益增长的档案查询需求的技术效果。
附图说明
[0009]图1为本申请一种基于数字化处理的档案智能查询方法的流程示意图;图2为本申请一种基于数字化处理的档案智能查询方法中获得纯文本转换信息的流程示意图;图3为本申请一种基于数字化处理的档案智能查询方法中将档案与目录信息的挂接信息与查询目录字段链接的流程示意图;图4为本申请一种基于数字化处理的档案智能查询系统的结构示意图。
[0010]附图标记说明:档案扫描模块11,特征识别转换模块12,结构还原模块13,语义解析模块14,查找匹配模块15。
具体实施方式
[0011]本申请通过提供一种基于数字化处理的档案智能查询方法及系统。解决了现有技术中针对档案数字化加工的标准不同,造成档案数字化加工效果不佳,以及档案查询的效率低、准确性不高的技术问题。达到了提高档案数字化加工效果,提高档案查询效率,提高档案查询的准确性、可靠性,同时,实现数字化、智能化、高效化的档案查询,满足人民群众日益增长的档案查询需求的技术效果。
[0012]实施例一请参阅附图1,本申请提供一种基于数字化处理的档案智能查询方法,其中,所述方法应用于一种基于数字化处理的档案智能查询系统,所述方法具体包括如下步骤:步骤S100:通过图像扫描设备对档案进行扫描,获得档案图像特征信息;具体而言,利用图像扫描设备对档案进行扫描,获得档案图像特征信息。其中,所述图像扫描设备可以为现有技术中平板扫描仪、馈纸式扫描仪、非接触式扫描仪等档案扫描装置。所述档案图像特征信息包括通过图像扫描设备对档案进行扫描,获得的档案对应的图像数据信息。达到了通过图像扫描设备对档案进行扫描,获得档案图像特征信息,为后续对档案进行特征识别转换、查询奠定基础的技术效果。
[0013]步骤S200:采用OCR技术,对所述档案图像特征信息进行特征识别转换,获得纯文本转换信息;进一步的,如附图2所示,本申请步骤S200还包括:步骤S210:对所述档案图像特征信息进行扫描缺陷识别,确定扫描缺陷类型;步骤S220:基于所述扫描缺陷类型,启动缺陷优化算法对扫描缺陷进行优化;步骤S230:对所述档案图像特征信息进行图像特征识别,确定图像特征类型;步骤S240:根据所述图像特征类型,确定文本转换规则,基于所述文本转换规则对档案图像特征信息进行纯文本转换,获得所述纯文本转换信息。
[0014]具体而言,通过对档案图像特征信息进行扫描缺陷识别,获得扫描缺陷类型,并根据缺陷优化算法对扫描缺陷类型中的扫描缺陷进行优化。进一步,对完成扫描缺陷优化之后的档案图像特征信息,进行图像特征识别,获得图像特征类型,并根据其确定文本转换规则。进而,基于文本转换规则,利用OCR技术,对完成扫描缺陷优化之后的档案图像特征信息进行纯文本转换,获得纯文本转换信息。
[0015]其中,所述扫描缺陷类型包括档案图像特征信息对应的倾斜、黑边、图像模糊、印章压字、扭曲、畸变等扫描缺陷信息。所述缺陷优化算法包括几何变换、畸变校正、去除模糊、图像增强、光线校正等图像处理算法。所述图像特征类型包括完成扫描缺陷优化之后的档案图像特征信息对应的嵌套表格、文字竖排、从右到左书写等格式问题,以及完成扫描缺陷优化之后的档案图像特征信息对应的字体字号、字体颜色、行间距、段落顺序、字符格式等文字特征信息。所述OCR技术(Optical Character Recognition)是一种对图像中的文字进行识别处理,将图像中的文字转换纯文本的光学字符识别技术。所述文本转换规则包括文字板式转换规则、表格转换规则、文字字体转换规则。所述纯文本转换信息包括完成扫描缺陷优化之后的档案图像特征信息对应的纯文本信息。达到了通过OCR技术对完成扫描缺陷优化之后的档案图像特征信息进行特征识别转换,获得纯文本转换信息,有效避免因原有数字化加工标准不同、质量参差不齐、OCR转换不完整带来的档案信息错漏等问题,以保证档本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数字化处理的档案智能查询方法,其特征在于,所述方法包括:通过图像扫描设备对档案进行扫描,获得档案图像特征信息;采用OCR技术,对所述档案图像特征信息进行特征识别转换,获得纯文本转换信息;根据所述档案图像特征信息,对纯文本转换信息进行结构信息还原;将结构还原后的所述纯文本转换信息输入深度学习语义模型进行全文语义解析,获得语义解析结果;基于所述语义解析结果,对查询输入信息进行查找匹配,输出档案查询结果,包括:获得查询输入信息,对所述查询输入信息进行语义分析,确定查询语义信息;根据所述语义解析结果,提取档案关键信息;基于所述档案关键信息,构建实体概念关系库;根据所述语义解析结果,提取档案结构信息、档案内容类型信息;根据所述档案结构信息、档案内容类型信息进行语义规则分析,构建语义规则库;将所述查询语义信息输入所述实体概念关系库、语义规则库中进行匹配确定查询关联信息;根据所述查询关联信息,在所述语义解析结果进行模糊匹配,获得匹配档案信息;对匹配档案信息进行匹配度排序,将排序后的匹配档案信息作为所述档案查询结果进行输出。2.如权利要求1所述的方法,其特征在于,所述采用OCR技术,对所述档案图像特征信息进行特征识别转换,获得纯文本转换信息,包括:对所述档案图像特征信息进行扫描缺陷识别,确定扫描缺陷类型;基于所述扫描缺陷类型,启动缺陷优化算法对扫描缺陷进行优化;对所述档案图像特征信息进行图像特征识别,确定图像特征类型;根据所述图像特征类型,确定文本转换规则,基于所述文本转换规则对档案图像特征信息进行纯文本转换,获得所述纯文本转换信息。3.如权利要求2所述的方法,其特征在于,根据所述档案图像特征信息,对纯文本转换信息进行结构信息还原,包括:根据所述档案图像特征信息,确定图像特征类型,根据所述图像特征类型,获得类型结构信息;根据所述类型结构信息,对所述纯文本转换信息进行结构还原。4.如权利要求1所述的方法,其特征在于,所述将结构还原后的所述纯文本转换信息输入深度学习语义模型之前,包括:构建语义解析架构,...

【专利技术属性】
技术研发人员:谷磊王楠温旭东宋永生臧萌李志鹏常青贾晓燕郑昊伦李超顾凌峰
申请(专利权)人:江苏联著实业股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1