一种数字化档案表格转换方法及系统技术方案

技术编号:39573225 阅读:28 留言:0更新日期:2023-12-03 19:24
本发明专利技术公开了一种数字化档案表格转换方法,属于档案数字化技术领域,包括以下步骤:

【技术实现步骤摘要】
一种数字化档案表格转换方法及系统


[0001]本专利技术涉及档案数字化
,具体为一种数字化档案表格转换方法及系统


技术介绍

[0002]随着信息化的发展,数字化档案管理已经成为一种趋势

数字化档案管理的核心是数字化档案的建设和管理,且数字化档案建设的核心是数字化档案的采集和整理

数字化档案采集的主要方式是通过扫描将纸质档案转换为数字化档案;
[0003]数字化档案中的表格数据是一种重要的数据类型,且利用价值高

但是,数字化档案中的表格数据往往是非结构化的,难以直接利用

因此,需要将数字化档案中的表格数据转换为结构化数据,以便于利用;
[0004]目前,数字化档案表格转换的方法主要有两种:一种是手工转换,即人工逐一读取表格中的数据,并将其转换为结构化数据;另一种是自动转换,即利用计算机程序对表格进行分析和处理,将表格中的数据转换为结构化数据

手工转换存在效率低

精度低

成本高等问题;而自动转换存在当需要处理复杂的表格数据时,无法对其进行精确处理,为此,提出了一种数字化档案表格转换方法及系统


技术实现思路

[0005]本专利技术旨在至少解决现有技术中存在的技术问题之一

为此,本专利技术的一个目的在于提出一种数字化档案表格转换方法及系统

[0006]为实现上述目的,本专利技术提供如下技术方案:
[0007]一种数字化档案表格转换方法,包括以下步骤:
[0008]S1
:用户依次将纸质档案进行读取并录入;
[0009]S2
:生成电子表格,并对电子表格进行具体分析,提取整体数据;
[0010]S3
:对提取后的数据进行预处理;
[0011]S4
:将处理后的数据进行细处理,最终转换成结构化数据;
[0012]S5
:将结构化数据存储至数据库中

[0013]在本专利技术的一个或多个实施方式中,在步骤
S1
中,读取方式为拍照和扫描

[0014]在本专利技术的一个或多个实施方式中,在步骤
S2
中,将文本数据转换为数值数据

将日期数据转换为时间戳,通过计算数据的平均值

中位数

标准差等统计量,对数据进行分析,进而对数据进行提取

[0015]在本专利技术的一个或多个实施方式中,在步骤
S3
中,使用图像处理软件对数字化图像进行图像增强

去噪

裁剪,使用
Optical Character Recognition
技术将数字化图像中的文字识别出来,并转换为可编辑的文本格式,并对
OCR
识别出来的文本进行清洗,包括去除错误的识别结果

修正格式等操作,以确保数据的准确性和一致性

[0016]在本专利技术的一个或多个实施方式中,在步骤
S4
中,对扫描得到的纸质档案图像进行预处理后,对处理后的图像进行表格检测和分割,将表格中的各个单元格分离出来,对每
个单元格中的文字和数字进行识别,采用深度学习算法和字符级别识别技术,将识别出的文字和数字转换为电子表格格式,生成可编辑的电子表格文件

[0017]在本专利技术的一个或多个实施方式中,在步骤
S5
中,数据库为云端存储方式,具有数据加密

访问控制功能

[0018]在本专利技术的一个或多个实施方式中,使用边缘检测算法对处理后的图像进行边缘检测,得到图像中的边缘信息,对检测到的边缘进行连接,得到表格的边框信息,根据表格的边框信息,将图像分割成多个小块,每个小块对应一个单元格,通过图像识别算法对每个单元格进行识别

[0019]一种数字化档案表格转换系统,包括:用户管理模块

数据导入模块

数据处理模块

数据导出模块

管理员管理模块;
[0020]用户管理模块,用户进入个人界面进行权限的设置,确保数据的整体统一性;
[0021]数据导入模块,便于用户将纸质档案进行拍照与扫描进行录入;
[0022]数据处理模块,用于对数据进行整合与处理;
[0023]数据导出模块,用于将处理后的数据导出至数据库

云端和本地;
[0024]管理员管理模块,用于管理员对系统设置进行升级与调配

[0025]在本专利技术的一个或多个实施方式中,数据处理模块包括数据识别模块

数据清洗模块

数据转换模块

数据存储模块;
[0026]数据识别模块,用于对录入的数据进行识别转换至电子格式;
[0027]数据清洗模块,用于对识别后的数据进行清洗与校验;
[0028]数据转换模块,用于对清洗后的数据进行格式转换;
[0029]数据存储模块,用于将转换后的数据存储至数据库中

[0030]与现有技术相比,本专利技术的有益效果是:
[0031]本专利技术中,通过独热编码将分类变量转换为数值变量,方便数据分析和建模

提高了计算效率,同时方便了数据交互和共享,可不同的软件和平台之间进行数据传输和共享;
[0032]本专利技术中,对于
OCR
识别出来的错误,通过卷积神经网络构建神经语言模型,学习单词之间的关系,根据上下文来预测正确的单词,将纠正后的单词输出到文本中,完成拼写纠正,使其减少
OCR
识别的错误率;
[0033]本专利技术中,对电子表格进行具体分析,提取整体数据,再将处理后的数据进行细处理,转换成结构化数据,能够快速

准确地将数字化档案表格中的数据转换为结构化数据,提高数据的利用价值

附图说明
[0034]图1为本专利技术的数字化档案表格转换系统的流程示意图;
[0035]图2为本专利技术的数据处理模块的具体流程示意图

具体实施方式
[0036]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚

完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例

基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他
实施例,都属于本专利技术保护的范围

[0037]请参阅图
1、
图2,本专利技术提供一种技术方案:
[0038]一种数字化档案表格转换方法,其特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种数字化档案表格转换方法,其特征在于,包括以下步骤:
S1
:用户依次将纸质档案进行读取并录入;
S2
:生成电子表格,并对电子表格进行具体分析,提取整体数据;
S3
:对提取后的数据进行预处理;
S4
:将处理后的数据进行细处理,最终转换成结构化数据;
S5
:将结构化数据存储至数据库中
。2.
根据权利要求1所述的一种数字化档案表格转换方法,其特征在于:在步骤
S1
中,读取方式为拍照和扫描
。3.
根据权利要求1所述的一种数字化档案表格转换方法,其特征在于:在步骤
S2
中,将文本数据转换为数值数据

将日期数据转换为时间戳,通过计算数据的平均值

中位数

标准差等统计量,对数据进行分析,进而对数据进行提取
。4.
根据权利要求1所述的一种数字化档案表格转换方法,其特征在于:在步骤
S3
中,使用图像处理软件对数字化图像进行图像增强

去噪

裁剪,使用
Optical Character Recognition
技术将数字化图像中的文字识别出来,并转换为可编辑的文本格式,并对
OCR
识别出来的文本进行清洗
。5.
根据权利要求1所述的一种数字化档案表格转换方法,其特征在于:在步骤
S4
中,对扫描得到的纸质档案图像进行预处理后,对处理后的图像进行表格检测和分割,将表格中的各个单元格分离出来,对每个单元格中的文字和数字进行...

【专利技术属性】
技术研发人员:张珊
申请(专利权)人:日照职业技术学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1