一种基于深度学习和计算机视觉的表格识别方法与系统技术方案

技术编号：40399681 阅读：6 留言：0更新日期：2024-02-20 22:25

本发明专利技术公开了一种基于深度学习和计算机视觉的表格识别方法与系统，涉及深度学习和计算机视觉技术领域，包括步骤：采集包含各种类型的表格图像；对待识别的表格图像进行预处理；利用目标检测模型对表格进行检测和定位，获取表格边界和行列；利用深度学习算法对预处理后表格图像中的文本进行分析和识别，并将文本填充到表格单元格中；识别每个单元格中的表格数据类型，并对表格数据类型进行相应的数据类型判断和转换，提取最终的表格数据；将提取的表格数据转换成电子数据格式进行保存和输出。本发明专利技术通过计算机视觉、深度学习和数据分析等领域的前沿技术，能够自动化、高效地识别和提取各类表格数据，提供便捷、准确的表格处理解决方案。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及深度学习和计算机视觉，特别涉及一种基于深度学习和计算机视觉的表格识别方法与系统。

技术介绍

1、在现代社会中，表格是一种常见的信息整理和数据呈现方式。无论是在企业、学术研究还是个人生活中，我们经常需要处理和分析各种表格数据。表格作为一种高度精练、集中的信息表达形式，在各个行业都得到广泛地应用。

2、在实际应用中，由于行业和应用领域的不同，表格的内容和格式差别很大，很难用几种特定的表格样式满足各种应用需求，表格在以图片文件的形式存在时，会丢失易于计算机理解的原有结构信息，若是采用人工手段对表格进行重新处理录入，会面临效率低下、数据量大导致出错等问题。为了提高表格处理的效率和准确性，智能表格识别方法应运而生。

3、而现有的智能表格识别方法主要依赖于规则和模板匹配，对于结构复杂或样式多样的表格，识别率较低，并且对于格式变化的表格需要频繁更新规则和模板，缺乏对各种类型和样式表格数据的快速提取。

技术实现思路

1、本专利技术的目的在于针对上述现有技术的不足，提供一种基于深度学习和计算机视觉的表格识别方法与系统，以解决现有技术中识别率较低，并且对于格式变化的表格需要频繁更新规则和模板的问题。

2、本专利技术具体提供如下技术方案：一种基于深度学习和计算机视觉的表格识别方法，包括步骤：

3、采集包含多种类型的表格图像；

4、利用目标检测模型对表格图像中的表格进行检测和定位，获取表格边界和行列，并创建表格结构；

6、利用深度学习算法对每个单元格图像进行分析和识别，并将分析和识别后的内容填充到对应的所述单元格中；

7、填充所述内容后，识别每个单元格中的表格数据类型，并对所述表格数据类型进行相应的数据类型判断和转换，提取最终的表格数据；

8、将提取的表格数据转换成电子数据格式进行保存和输出。

9、优选的，所述采集包含多种类型的表格图像后，对所述表格图像进行标注和整理，所述标注包括标注表格的边界和单元格的位置，以及标注单元格内容的文本或图像。

10、优选的，在标注表格图像后，对目标检测模型进行训练，包括以下步骤：

11、将表格图像按照固定大小进行调整；

12、将标注的边界框信息转换为yolov3要求的格式；

13、使用深度学习算法框架构建基于yolov3的目标检测模型，并对目标检测模型定义目标检测任务的损失函数；

14、使用标注好的表格图像对目标检测模型进行训练，并使用技术学习率调整、正则化、批归一化方法进行模型优化；

15、使用测试集对训练好的目标检测模型进行评估，其中评估指标包括精确率、召回率、平均准确率map。

16、优选的，所述采集包含多种类型的表格图像后，还对所述表格图像中待识别的表格图像进行预处理，包括步骤：

17、使用滤波算法去除表格图像中的噪声；

18、使用直方图均衡化算法增强表格图像的对比度和清晰度；

19、使用插值算法调整表格图像的尺寸。

20、优选的，所述使用滤波算法去除表格图像中的噪声，包括如下步骤：

21、使用opencv库来实现中值滤波，通过调用cv2.medianblur()函数进行滤波操作；

22、通过调整滤波器的大小，控制滤波的程度。

23、优选的，所述利用目标检测模型对表格图像中的表格进行检测和定位，获取表格边界和行列，创建表格结构，包括步骤：

24、将表格图像输入目标检测模型；

25、所述目标检测模型从表格图像中提取特征，并将所述特征通过卷积操作和激活函数转化为目标的边界框，生成表格的边界框和预测目标类别；

26、所述目标检测模型使用逻辑回归对每个预测目标类别进行二次预测，判断该目标是否属于该类别；

27、使用非极大值抑制算法对重叠的边界框进行筛选和合并，以得到最终的表格边界框。

28、优选的，所述利用计算机视觉算法对表格结构中的单元格进行分割，确定分割后每个单元格的位置和大小，并将所述表格图像划分为不同的单元格图像，包括步骤：

29、利用所述最终的表格边界框，将表格图像切割成单元格图像；

30、使用边缘检测算法对单元格图像进行高斯滤波，计算单元格图像的梯度，找到梯度的边缘点；

31、通过滞后阈值处理保留满足梯度阈值条件的边缘点，得到最终的边缘图像；

32、基于所述边缘图像，利用连通区域分析算法来识别和分割单元格，并使用深度优先搜索dfs或广度优先搜索bfs算法进行连通区域分析；

33、通过分割后的单元格和连通区域分析获得不同的单元格图像。

34、优选的，利用深度学习算法对每个单元格图像进行分析和识别，包括步骤：

35、利用自然语言处理模型或光学字符识别模型对单元格图像中的文本内容进行识别；

36、利用图像识别模型对单元格图像中的图像内容进行识别。

37、优选的，在所述利用深度学习算法对每个单元格图像进行分析和识别后，对识别结果进行校验和修正，包括步骤：

38、使用规则匹配和逻辑推理方法对识别结果进行校验和修正；

39、根据表格的布局和样式要求，对识别结果进行格式调整，获取具有一致性的识别结果。

40、本专利技术还提供一种基于深度学习和计算机视觉的表格识别系统，包括：

41、数据采集模块：用于采集包含各种类型的表格图像；

42、表格识别模块：用于利用目标检测模型对表格图像中的表格进行检测和定位，获取表格边界和行列，创建表格结构；

43、表格分割模块：用于利用计算机视觉算法对表格结构中的单元格进行分割，确定分割后每个单元格的位置和大小，并将所述表格图像划分为不同的单元格图像；

44、字符识别模块：用于利用深度学习算法对每个单元格图像进行分析和识别，并将分析和识别后的内容填充到对应的所述单元格中；

45、数据类型判断和转换模块：用于识别填充后内容后，每个单元格中的表格数据类型，并对所述表格数据类型进行相应的数据类型判断和转换，提取最终的表格数据；

46、数据输出模块：用于将提取的表格数据转换成电子数据格式进行保存和输出。

47、与现有技术相比，本专利技术具有如下显著优点：

48、本专利技术提出的表格识别方法利用图像处理、字符识别和深度学习等技术，能够自动检测表格边界和行列，并快速准确地识别表格中的文本和数字；通过引入数据类型判断和转换技术，能够自动识别不同类型的数据并进行相应的处理，保证提取数据的准确性。此外，本专利技术还能将识别和提取的表格数据转换为常用的电子数据格式，极大地方便了用户的后续处理和分析需求，借本文档来自技高网...

【技术保护点】

1.一种基于深度学习和计算机视觉的表格识别方法，其特征在于，包括步骤：

2.如权利要求1所述的一种基于深度学习和计算机视觉的表格识别方法，其特征在于，所述采集包含多种类型的表格图像后，对所述表格图像进行标注和整理，所述标注包括标注表格的边界和单元格的位置，以及标注单元格内容的文本或图像。

3.如权利要求2所述的一种基于深度学习和计算机视觉的表格识别方法，其特征在于，在标注所述表格图像后，对目标检测模型进行训练，包括以下步骤：

4.如权利要求1所述的一种基于深度学习和计算机视觉的表格识别方法，其特征在于，所述采集包含多种类型的表格图像后，还对所述表格图像中待识别的表格图像进行预处理，包括步骤：

5.如权利要求4所述的一种基于深度学习和计算机视觉的表格识别方法，其特征在于，所述使用滤波算法去除表格图像中的噪声，包括如下步骤：

6.如权利要求1所述的一种基于深度学习和计算机视觉的表格识别方法，其特征在于，所述利用目标检测模型对表格图像中的表格进行检测和定位，获取表格边界和行列，创建表格结构，包括步骤：

7.如权利要

8.如权利要求1所述的一种基于深度学习和计算机视觉的表格识别方法，其特征在于，利用深度学习算法对每个单元格图像进行分析和识别，包括步骤：

9.如权利要求1所述的一种基于深度学习和计算机视觉的表格识别方法，其特征在于，在所述利用深度学习算法对每个单元格图像进行分析和识别后，对识别结果进行校验和修正，包括以下步骤：

10.一种基于深度学习和计算机视觉的表格识别系统，其特征在于，包括：

...

【技术特征摘要】

1.一种基于深度学习和计算机视觉的表格识别方法，其特征在于，包括步骤：

5.如权利要求4所述的一种基于深度学习和计算机视觉的表格识别方法，其特征在于，所述使用滤波算法去除表格图像中的噪声，包括如下步骤：

6.如权利要求1...

【专利技术属性】
技术研发人员：张颖，曹以然，
申请(专利权)人：创云融达信息技术天津股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人