电子档案文本识别方法、系统、计算机设备和存储介质技术方案

技术编号：32358607 阅读：19 留言：0更新日期：2022-02-20 03:22

本发明专利技术涉及电子档案文本识别技术领域，公开了电子档案文本识别方法、系统、计算机设备和存储介质。所述方法包括：获取纸质档案的扫描图像，建立数据集；对所述扫描图像进行目标检测，得到数个局部待识别图像块；对所述局部待识别图像块进行文字识别，得到对应的识别文本；将所述识别文本输入神经网络进行训练，得到所述识别文本对应的标签；按照所述标签，将所述识别文本输入预设的电子档案的标准格式中，生成所述纸质档案对应的电子档案。本发明专利技术能够将纸质档案自动转换成标准格式的电子档案，提高了电子档案的建档效率，降低了人力和物力的消耗。物力的消耗。物力的消耗。

全部详细技术资料下载

【技术实现步骤摘要】
电子档案文本识别方法、系统、计算机设备和存储介质

[0001]本专利技术涉及文本识别
，特别是涉及一种电子档案文本识别的方法、系统、计算机设备和存储介质。

技术介绍

[0002]目前，随着信息化的发展，越来越多的行业迈入了无纸化办公的阶段，而校园的档案管理必然要经历无纸化的阶段。目前，随着时间跨度的拉长，以及人员的增加，档案数量增长巨大。过往的档案通常都以纸质形式保存，年代越久的档案越难以存储，而将以往的纸质档案转换成对应的电子档案，对于现在的电子档案管理系统来说，由于之前的纸质档案，内容格式并没有一个标准规范，因此将纸质档案转换电子档案具有一定的难度。

技术实现思路

[0003]为了解决上述技术问题，本专利技术的目的是提供一种对纸质档案进行扫描并自动识别生成对应的电子档案能够提高建档效率和档案的标准化进程的电子档案文本识别方法、系统、计算机设备和存储介质。
[0004]第一方面，本专利技术提供了一种电子档案文本识别方法，所述方法包括：
[0005]获取纸质档案的扫描图像，建立数据集；
[0006]对所述扫描图像进行目标检测，得到数个局部待识别图像块；
[0007]对所述局部待识别图像块进行文字识别，得到对应的识别文本；
[0008]将所述识别文本输入神经网络进行训练，得到所述识别文本对应的标签；
[0009]按照所述标签，将所述识别文本输入到预设的电子档案的标准格式中，生成所述纸质档案对应的电子档案。
[0010]进一步地，所述获取纸质档...

【技术保护点】

【技术特征摘要】
1.一种电子档案文本识别方法，其特征在于，包括：获取纸质档案的扫描图像，建立数据集；对所述扫描图像进行目标检测，得到数个局部待识别图像块；对所述局部待识别图像块进行文字识别，得到对应的识别文本；将所述识别文本输入神经网络进行训练，得到所述识别文本对应的标签；按照所述标签，将所述识别文本输入到预设的电子档案的标准格式中，生成所述纸质档案对应的电子档案。2.根据权利要求1所述的电子档案文本识别方法，其特征在于，所述获取纸质档案的扫描图像，建立数据集的步骤包括：根据预设的电子档案的标准格式和纸质档案的格式，将所有格式中的每个标题对应生成标签；对纸质档案进行扫描，生成档案扫描图像，并标注所述标签，生成训练集和测试集。3.根据权利要求1所述的电子档案文本识别方法，其特征在于，所述对所述扫描图像进行目标检测，得到数个局部待识别图像块的步骤包括：将所述扫描图像输入YOLO模型进行目标检测，得到所述扫描图像的数个局部图像边界框；将所述边界框内的局部图像作为局部待识别图像块。4.根据权利要求1所述的电子档案文本识别方法，其特征在于，所述对所述局部待识别图像块进行文字识别，得到对应的识别文本的步骤包括：将所述局部待识别图像块输入CRNN模型进行文字识别，得到对应的识别文本。5.根据权利要求2所述的电子档案文本识别方法，其特征在于，所述将所述识别文本输入神经网络进行训练，得到所述识别文本对应的标签的步骤包括：使用训练集对CNN卷积神经网络进行训练；将所述识别文本输入训练好的所述CNN卷积神经网络模型进行分类预测，得到所述识别文本对应的分类标签。6.根据权...

【专利技术属性】
技术研发人员：朱应鹏，曾应权，朱立信，朱雨晴，
申请(专利权)人：清远市中盛合力网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人