一种基于扫描件的纸质试验报告生成方法技术

技术编号:30540905 阅读:16 留言:0更新日期:2021-10-30 13:18
本发明专利技术提供了一种基于扫描件的纸质试验报告生成方法,涉及图像处理的技术领域,具体包括如下步骤:获取图片以提取表格;对表格中的位置进行排序;对排序好的表格进行文字识别以及校验以生成试验报告。通过本发明专利技术提供的方法可以缓解现有OCR技术中图片,识别准确率极低,并且识别内容不能够表示文本单元格所属行列,难以做到结构化文本的问题,同时降低工作强度、提高工作效率、推动自动化办公。推动自动化办公。推动自动化办公。

【技术实现步骤摘要】
一种基于扫描件的纸质试验报告生成方法


[0001]本专利技术涉及图像处理的
,尤其是涉及一种基于扫描件的纸质试验报告生成方法。

技术介绍

[0002]在各行各业中,试验检测的重要性不言而喻,试验报告是试验的过程记录以及结果输出,是对设备、工程等信息检测和评价的重要依据。当前,相关的试验报告数据的处理方式主要为:对照纸质记录或word文档类试验报告逐条筛选、人工录入至管理系统内。这种基于人工机械地数据处理方式不仅效率低、易出错,而且无法形成数字化对比。其中,纸质报告录入系统的难度尤其大。
[0003]OCR技术可以快速的将纸质资料转换为电子资料。但一般的OCR技术主要是对图片中的文本内容进行识别,并且对图片大小、文本位置等要求严格,特别是对于试验报告类的扫描图片,识别准确率极低,并且识别内容不能够表示文本单元格所属行列,难以做到结构化文本,不方便其他如录入数据库等数据操作。因此,提供一种能够有效识别、识全纸质试验报告类数据并结构化的方法对于降低工作强度、提高工作效率、推动自动化办公具有重要意义。

技术实现思路

[0004]有鉴于此,本专利技术的目的在于提供一种基于扫描件的纸质试验报告生成方法,以缓解现有OCR技术中图片,识别准确率极低,并且识别内容不能够表示文本单元格所属行列,难以做到结构化文本的问题,同时降低工作强度、提高工作效率、推动自动化办公。
[0005]本专利技术提供了一种基于扫描件的纸质试验报告生成方法,包括:具体包括如下步骤:
[0006]获取图片以提取表格;
[0007]对表格中的位置进行排序;
[0008]对排序好的表格进行文字识别以及校验以生成试验报告。
[0009]优选的,所述获取图片以提取表格的步骤包括:
[0010]对图片进行仿射变化;
[0011]对进行仿射变化后的图片进行边缘检测以获取试验报告表头与表格主体;
[0012]获取表格主体的位置信息,所述表格主体的位置信息包括左上点横坐标、左上点纵坐标、单元格的宽以及单元格的高;
[0013]设置第一阈值,并判定所述单元格的宽以及所述单元格的高的乘积是否在第一阈值范围内,
[0014]若不在,则对此判定单元格所在的点为噪声数据。
[0015]优选的,所述对表格中的位置进行排序的步骤包括:
[0016]设置第二阈值,若所述相邻单元格左上点纵坐标之间差值在一定阈值内,则判定
相邻的单元格在同一行;
[0017]获取同一行的单元格,获取单元格的横坐标并按升序排列,
[0018]基于单元格位置信息,对单元格进行输出。
[0019]优选的,所述对排序好的表格进行文字识别以及校验以生成试验报告的步骤包括:
[0020]采用深度学习对文字进行分项图片截取并识别。
[0021]本专利技术实施例带来了以下有益效果:本专利技术提供了一种基于扫描件的纸质试验报告生成方法,,具体包括如下步骤:获取图片以提取表格;对表格中的位置进行排序;对排序好的表格进行文字识别以及校验以生成试验报告。通过本专利技术提供的方法可以缓解现有OCR技术中图片,识别准确率极低,并且识别内容不能够表示文本单元格所属行列,难以做到结构化文本的问题,同时降低工作强度、提高工作效率、推动自动化办公。
[0022][0023]本专利技术的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
[0024]为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
[0025]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0026]图1为本专利技术实施例提供的“220kV金属氧化物避雷器交接试验报告”扫描图片;
[0027]图2为本专利技术实施例提供的仿射变换后表格主体;
[0028]图3为本专利技术实施例提供的仿射变换后表格表头;
[0029]图4为本专利技术实施例提供的边缘检测并表示的试验报告;
[0030]图5为本专利技术实施例提供的为表格坐标提取可视化展示
[0031]图6为本专利技术实施例提供的单元格截取图片。
[0032]图7为本专利技术实施例提供的识别效果图。
具体实施方式
[0033]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0034]目前,一般的OCR技术主要是对图片中的文本内容进行识别,并且对图片大小、文本位置等要求严格,特别是对于试验报告类的扫描图片,识别准确率极低,并且识别内容不能够表示文本单元格所属行列,难以做到结构化文本,不方便其他如录入数据库等数据操
作,基于此,本专利技术实施例提供的一种基于扫描件的纸质试验报告生成方法,可以缓解现有OCR技术中图片,识别准确率极低,并且识别内容不能够表示文本单元格所属行列,难以做到结构化文本的问题,同时降低工作强度、提高工作效率、推动自动化办公。
[0035]为便于对本实施例进行理解,首先对本专利技术实施例所公开的一种基于扫描件的纸质试验报告生成方法进行详细介绍。
[0036]实施例一:
[0037]结合图1至吐6,本专利技术提供了一种基于扫描件的纸质试验报告生成方法,包括:具体包括如下步骤:
[0038]获取图片以提取表格;
[0039]对表格中的位置进行排序;
[0040]对排序好的表格进行文字识别以及校验以生成试验报告。
[0041]优选的,所述获取图片以提取表格的步骤包括:
[0042]对图片进行仿射变化;
[0043]具体的,所述仿射变化的作用为对图片中的表格进行拉正;
[0044]对进行仿射变化后的图片进行边缘检测以获取试验报告表头与表格主体;
[0045]进一步的,分别采用横向和纵向的卷积核进行提取,识别出表格中的横线与纵线,并用颜色线条进行标识
[0046]获取表格主体的位置信息,所述表格主体的位置信息包括左上点横坐标、左上点纵坐标、单元格的宽以及单元格的高;
[0047]在本专利技术提供的实施例中,所述左上点横坐标、左上点纵坐标、单元格的宽以及单元格的高分别为(x,y,w,h);
[0048]设置第一阈值,并判定所述单元格的宽以及所述单元格的高的乘积是否在第一阈值范围内,
[0049]若本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于扫描件的纸质试验报告生成方法,其特征在于,具体包括如下步骤:获取图片以提取表格;对表格中的位置进行排序;对排序好的表格进行文字识别以及校验以生成试验报告。2.根据权利要求1所述的方法,其特征在于,所述获取图片以提取表格的步骤包括:对图片进行仿射变化;对进行仿射变化后的图片进行边缘检测以获取试验报告表头与表格主体;获取表格主体的位置信息,所述表格主体的位置信息包括左上点横坐标、左上点纵坐标、单元格的宽以及单元格的高;设置第一阈值,并判定所述单元格的宽以及所述单元格的高的乘积...

【专利技术属性】
技术研发人员:冯冰程法庆张锡喆杜岳凡殷震马泊宁王婧金岩周亚楠方琼顾庆东刘常军王云龙邹培根曲童
申请(专利权)人:国家电网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1