一种纸质表格识别方法技术

技术编号:39667518 阅读:6 留言:0更新日期:2023-12-11 18:31
本发明专利技术公开了一种纸质表格识别方法

【技术实现步骤摘要】
一种纸质表格识别方法、系统、设备及可存储介质


[0001]本专利技术涉及表格识别
,尤其涉及一种纸质表格识别方法

系统

设备及可存储介质


技术介绍

[0002]工厂

矿山

污水厂

钢铁厂

水泥厂

电厂

学校等场所为了检查设备的运行情况,确保设备稳定运行,都会要求维修和运维人员定期对设备进行巡检,以降低停机率,提升设备的运行效率,在以往的巡检作业中,巡检人员经常会使用到表格填写巡检记录,表格可能是临时绘制的凌乱表格,也可能是电脑打印出来的工整表格,日积月累,这些纸质版的巡检记录表格难免会存在字迹模糊

纸张损坏等意外情况出现,导致无法对表格内容进行辨识


技术实现思路

[0003]有鉴于此,本专利技术提出一种纸质表格识别方法

系统

设备及可存储介质,可以有效实现对纸质表格内容的识别

[0004]本专利技术的技术方案是这样实现的:
[0005]一种纸质表格识别方法,具体包括:
[0006]获取纸质表格图像;
[0007]将纸质表格图像输入预设的线框识别模型进行识别,得到初级表格结构框架;
[0008]对初级表格结构框架进行关键点提取,得到每个表格单元格的多边形关键点;
[0009]基于每个表格单元格的多边形关键点进行拼接,得到目标表格结构框架;
[0010]依据目标表格结构框架生成表格型文本,并从表格型文本中抽取待识别字段的文本数据;
[0011]构建文本识别模型,将待识别字段的文本数据输入文本识别模型进行识别,获取文本识别结果

[0012]作为所述纸质表格识别方法的进一步可选方案,所述将纸质表格图像输入预设的线框识别模型进行识别,得到初级表格结构框架,具体包括
:
[0013]将纸质表格图像输入预设的线框识别模型进行识别,得到一个两通道关键点热图和一个两通道的偏移图;
[0014]依据一个两通道关键点热图和一个两通道的偏移图,得到中心点和顶点之间的相互关系;
[0015]依据中心点和顶点之间的相互关系进行单元格分组,得到初级表格结构框架

[0016]作为所述纸质表格识别方法的进一步可选方案,所述对初级表格结构框架进行关键点提取,得到每个表格单元格的多边形关键点,具体包括:
[0017]获取初级表格结构框架中的公共顶点;
[0018]获取每个表格单元格中的中心点到公共顶点的偏移量;
[0019]判断偏移量是否超出预设的阈值,若否,则得到该表格单元格的多边形关键点

[0020]作为所述纸质表格识别方法的进一步可选方案,所述基于每个表格单元格的多边形关键点进行拼接,得到目标表格结构框架,具体包括:
[0021]依据公共顶点与每个中心点的偏移量进行多边形关键点的拼接,得到目标表格结构框架

[0022]作为所述纸质表格识别方法的进一步可选方案,所述依据目标表格结构框架生成表格型文本,并从表格型文本中抽取待识别字段的文本数据,具体包括:
[0023]依据目标表格结构框架生成概率图和阈值图;
[0024]将概率图和阈值图进行近似二进制映射计算,得到待识别字段的文本数据

[0025]作为所述纸质表格识别方法的进一步可选方案,所述构建文本识别模型,将待识别字段的文本数据输入文本识别模型进行识别,获取文本识别结果,具体包括:
[0026]对待识别字段的文本数据进行标注;
[0027]文本识别模型将标注的待识别字段的文本数据进行抽取,得到文本识别结果

[0028]一种纸质表格识别系统,包括:
[0029]获取模块,用于获取纸质表格图像;
[0030]第一识别模块,用于将纸质表格图像输入预设的线框识别模型进行识别,得到初级表格结构框架;
[0031]提取模块,用于对初级表格结构框架进行关键点提取,得到每个表格单元格的多边形关键点;
[0032]拼接模块,用于基于每个表格单元格的多边形关键点进行拼接,得到目标表格结构框架;
[0033]生成模块模块,用于依据目标表格结构框架生成表格型文本,并从表格型文本中抽取待识别字段的文本数据;
[0034]第二识别模块,用于构建文本识别模型,将待识别字段的文本数据输入文本识别模型进行识别,获取文本识别结果

[0035]一种计算设备,包括存储器

处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意一项纸质表格识别方法的步骤

[0036]一种计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项纸质表格识别方法的步骤

[0037]本专利技术的有益效果是:通过将纸质表格图像输入预设的线框识别模型进行识别,得到初级表格结构框架,对初级表格结构框架进行关键点提取,得到每个表格单元格的多边形关键点,基于每个表格单元格的多边形关键点进行拼接,得到目标表格结构框架,能够准确识别表格位置坐标,同时,通过依据目标表格结构框架生成表格型文本,并从表格型文本中抽取待识别字段的文本数据,构建文本识别模型,将待识别字段的文本数据输入文本识别模型进行识别,获取文本识别结果,能够准确识别表格范围内的文字

数字和符号,从而实现纸质表格的识别

附图说明
[0038]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现
有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图

[0039]图1为本专利技术一种纸质表格识别方法的流程示意图;
[0040]图2为本专利技术一种纸质表格识别系统的组成示意图

具体实施方式
[0041]下面将对本专利技术实施例中的技术方案进行清楚

完整地描述,显然,所描述的实施例仅是本专利技术的一部分实施例,而不是全部的实施例

基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围

[0042]参考图1‑2,一种纸质表格识别方法,具体包括:
[0043]获取纸质表格图像;
[0044]将纸质表格图像输入预设的线框识别模型进行识别,得到初级表格结构框架;
[0045]对初级表格结构框架进行关键点提取,得到每个表格单元格的多边形关键本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种纸质表格识别方法,其特征在于,具体包括:获取纸质表格图像;将纸质表格图像输入预设的线框识别模型进行识别,得到初级表格结构框架;对初级表格结构框架进行关键点提取,得到每个表格单元格的多边形关键点;基于每个表格单元格的多边形关键点进行拼接,得到目标表格结构框架;依据目标表格结构框架生成表格型文本,并从表格型文本中抽取待识别字段的文本数据;构建文本识别模型,将待识别字段的文本数据输入文本识别模型进行识别,获取文本识别结果
。2.
根据权利要求1所述的一种纸质表格识别方法,其特征在于,所述将纸质表格图像输入预设的线框识别模型进行识别,得到初级表格结构框架,具体包括
:
将纸质表格图像输入预设的线框识别模型进行识别,得到一个两通道关键点热图和一个两通道的偏移图;依据一个两通道关键点热图和一个两通道的偏移图,得到中心点和顶点之间的相互关系;依据中心点和顶点之间的相互关系进行单元格分组,得到初级表格结构框架
。3.
根据权利要求2所述的一种纸质表格识别方法,其特征在于,所述对初级表格结构框架进行关键点提取,得到每个表格单元格的多边形关键点,具体包括:获取初级表格结构框架中的公共顶点;获取每个表格单元格中的中心点到公共顶点的偏移量;判断偏移量是否超出预设的阈值,若否,则得到该表格单元格的多边形关键点
。4.
根据权利要求3所述的一种纸质表格识别方法,其特征在于,所述基于每个表格单元格的多边形关键点进行拼接,得到目标表格结构框架,具体包括:依据公共顶点与每个中心点的偏移量进行多边形关键点的拼接,得到目标表格结构框架
。5.
根据权利要求4所述的一种纸质表格识别方法...

【专利技术属性】
技术研发人员:李毓勤梁杜彭博何海泉黄进军马志华何玉龙
申请(专利权)人:广州凌思云计算有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1