电子档案文本识别方法、系统、计算机设备和存储介质技术方案

技术编号:32358607 阅读:19 留言:0更新日期:2022-02-20 03:22
本发明专利技术涉及电子档案文本识别技术领域,公开了电子档案文本识别方法、系统、计算机设备和存储介质。所述方法包括:获取纸质档案的扫描图像,建立数据集;对所述扫描图像进行目标检测,得到数个局部待识别图像块;对所述局部待识别图像块进行文字识别,得到对应的识别文本;将所述识别文本输入神经网络进行训练,得到所述识别文本对应的标签;按照所述标签,将所述识别文本输入预设的电子档案的标准格式中,生成所述纸质档案对应的电子档案。本发明专利技术能够将纸质档案自动转换成标准格式的电子档案,提高了电子档案的建档效率,降低了人力和物力的消耗。物力的消耗。物力的消耗。

【技术实现步骤摘要】
电子档案文本识别方法、系统、计算机设备和存储介质


[0001]本专利技术涉及文本识别
,特别是涉及一种电子档案文本识别的方法、系统、计算机设备和存储介质。

技术介绍

[0002]目前,随着信息化的发展,越来越多的行业迈入了无纸化办公的阶段,而校园的档案管理必然要经历无纸化的阶段。目前,随着时间跨度的拉长,以及人员的增加,档案数量增长巨大。过往的档案通常都以纸质形式保存,年代越久的档案越难以存储,而将以往的纸质档案转换成对应的电子档案,对于现在的电子档案管理系统来说,由于之前的纸质档案,内容格式并没有一个标准规范,因此将纸质档案转换电子档案具有一定的难度。

技术实现思路

[0003]为了解决上述技术问题,本专利技术的目的是提供一种对纸质档案进行扫描并自动识别生成对应的电子档案能够提高建档效率和档案的标准化进程的电子档案文本识别方法、系统、计算机设备和存储介质。
[0004]第一方面,本专利技术提供了一种电子档案文本识别方法,所述方法包括:
[0005]获取纸质档案的扫描图像,建立数据集;
[0006]对所述扫描图像进行目标检测,得到数个局部待识别图像块;
[0007]对所述局部待识别图像块进行文字识别,得到对应的识别文本;
[0008]将所述识别文本输入神经网络进行训练,得到所述识别文本对应的标签;
[0009]按照所述标签,将所述识别文本输入到预设的电子档案的标准格式中,生成所述纸质档案对应的电子档案。
[0010]进一步地,所述获取纸质档案的扫描图像,建立数据集的步骤包括:
[0011]根据预设的电子档案的标准格式和纸质档案的格式,将所有格式中的每个标题对应生成标签;
[0012]对纸质档案进行扫描,生成档案扫描图像,并标注所述标签,生成训练集和测试集。
[0013]进一步地,所述对所述扫描图像进行目标检测,得到数个局部待识别图像块的步骤包括:
[0014]将所述扫描图像输入YOLO模型进行目标检测,得到所述扫描图像的数个局部图像边界框;
[0015]将所述边界框内的局部图像作为局部待识别图像块。
[0016]进一步地,所述对所述局部待识别图像块进行文字识别,得到对应的识别文本的步骤包括:将所述局部待识别图像块输入CRNN模型进行文字识别,得到对应的识别文本。
[0017]进一步地,所述将所述识别文本输入神经网络进行训练,得到所述识别文本对应的标签的步骤包括:
[0018]使用训练集对CNN卷积神经网络进行训练;
[0019]将所述识别文本输入训练好的所述CNN卷积神经网络模型进行分类预测,得到所述识别文本对应的分类标签。
[0020]进一步地,所述按照所述标签,将所述待识别文本输入到预设的电子档案的标准格式中,生成所述纸质档案对应的电子档案的步骤包括:
[0021]将所述标签与电子档案的标准格式中的每个标题进行比对;
[0022]将比对一致的标签对应的识别文本输入到所述电子档案对应的标题位置,生成所述纸质档案对应的电子档案。
[0023]进一步地,所述按照所述标签,将所述待识别文本输入到预设的电子档案的标准格式中,生成所述纸质档案对应的电子档案的步骤还包括:
[0024]将比对不一致的标签对应的识别文本输入到预设的电子文档中;
[0025]将电子文档作为纸质档案对应的第二电子档案。
[0026]第二方面,本专利技术提供了一种电子档案文本识别系统,所述系统包括:
[0027]数据集建立模块,用于获取纸质档案的扫描图像,建立数据集;
[0028]图像检测模块,用于对所述扫描图像进行目标检测,得到数个局部待识别图像块;
[0029]文本识别模块,用于对所述局部待识别图像块进行文字识别,得到对应的识别文本;
[0030]文本分类模块,用于将所述识别文本输入神经网络进行训练,得到所述识别文本对应的标签;
[0031]档案生成模块,用于按照所述标签,将所述识别文本输入到预设的电子档案的标准格式中,生成所述纸质档案对应的电子档案。
[0032]第三方面,本专利技术实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
[0033]第四方面,本专利技术实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
[0034]上述本专利技术提供了一种电子档案文本识别方法、系统、计算机设备和存储介质。通过所述方法,能够将纸质档案自动识别并转换成标准格式的电子文档,节省了人力资源,降低了经济消耗,提高了电子档案的转换效率和档案标准化进程。
附图说明
[0035]图1是本专利技术实施例中电子档案文本识别方法的流程示意图;
[0036]图2是图1中步骤S10的流程示意图;
[0037]图3是图1中步骤S20的流程示意图;
[0038]图4是图1中步骤S40的流程示意图;
[0039]图5是图1中步骤S50的流程示意图;
[0040]图6是图1中步骤S50的另一种流程示意图;
[0041]图7是本专利技术实施例中电子档案文本识别系统的结构示意图;
[0042]图8是本专利技术实施例中计算机设备的内部结构图。
具体实施方式
[0043]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0044]请参阅图1,本专利技术第一实施例提出的一种电子档案文本识别方法,包括步骤S10~S50:
[0045]步骤S10,获取纸质档案的扫描图像,建立数据集。
[0046]如图2所示,对纸质档案建立数据集的具体步骤如下:
[0047]步骤S101,根据预设的电子档案的标准格式和纸质档案的格式,将所有格式中的每个标题对应生成标签。
[0048]步骤S102,对纸质档案进行扫描,生成档案扫描图像,并标注所述标签,生成训练集和测试集。
[0049]首先,需要对电子档案的格式进行设置,以使后续档案管理都以标准化进行,因此我们预先对不同类型的电子档案设置了不同的标准化格式,并且将标准化格式中的标题提取出来作为数据集的标签。
[0050]对于原有的纸质档案,由于时间的原因导致纸质档案的格式并不统一,我们需要对每一类型的纸质档案的格式进行整理,提取出每个标题,并将这些标题与电子档案的标题进行相似比对,对于相同或相似的标题,将其作为同一种标签,不同的标题则单独作为标签。这么做的好处是防止纸质档案中有不符合标准格式的部分导致内容遗失。对于纸质档案需要进行扫描本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种电子档案文本识别方法,其特征在于,包括:获取纸质档案的扫描图像,建立数据集;对所述扫描图像进行目标检测,得到数个局部待识别图像块;对所述局部待识别图像块进行文字识别,得到对应的识别文本;将所述识别文本输入神经网络进行训练,得到所述识别文本对应的标签;按照所述标签,将所述识别文本输入到预设的电子档案的标准格式中,生成所述纸质档案对应的电子档案。2.根据权利要求1所述的电子档案文本识别方法,其特征在于,所述获取纸质档案的扫描图像,建立数据集的步骤包括:根据预设的电子档案的标准格式和纸质档案的格式,将所有格式中的每个标题对应生成标签;对纸质档案进行扫描,生成档案扫描图像,并标注所述标签,生成训练集和测试集。3.根据权利要求1所述的电子档案文本识别方法,其特征在于,所述对所述扫描图像进行目标检测,得到数个局部待识别图像块的步骤包括:将所述扫描图像输入YOLO模型进行目标检测,得到所述扫描图像的数个局部图像边界框;将所述边界框内的局部图像作为局部待识别图像块。4.根据权利要求1所述的电子档案文本识别方法,其特征在于,所述对所述局部待识别图像块进行文字识别,得到对应的识别文本的步骤包括:将所述局部待识别图像块输入CRNN模型进行文字识别,得到对应的识别文本。5.根据权利要求2所述的电子档案文本识别方法,其特征在于,所述将所述识别文本输入神经网络进行训练,得到所述识别文本对应的标签的步骤包括:使用训练集对CNN卷积神经网络进行训练;将所述识别文本输入训练好的所述CNN卷积神经网络模型进行分类预测,得到所述识别文本对应的分类标签。6.根据权...

【专利技术属性】
技术研发人员:朱应鹏曾应权朱立信朱雨晴
申请(专利权)人:清远市中盛合力网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1