一种气象纸质表格文档的快速数字化方法及系统技术方案

技术编号:28498734 阅读:21 留言:0更新日期:2021-05-19 22:37
本发明专利技术提供了一种气象纸质表格文档的快速数字化方法及系统,属于气象数据处理领域。所述快速数字化方法包括:获取气象纸质表格文档的图像;对图像进行预处理后,提取表格线并进行字符识别,完成对字符的提取和定位,存储为第一类字符;对处理完的表格文档图像进行切割,对每个子图像进行文字录入;将录入的文字对第一类字符进行定位匹配及校验;校验通过时,存储字符;校验不通过时,丢弃字符,以当前子图像作为表格文档图像,转入预处理;遍历所有子图像且校验通过时,输出所有字符作为数字化结果。本发明专利技术实现了气象表格文档的快速数字化,简化了基于语义分割的文字检测,实现了对包含印刷和手写字符的表格文档高精度、高准确度的字符提取。度的字符提取。度的字符提取。

【技术实现步骤摘要】
一种气象纸质表格文档的快速数字化方法及系统


[0001]本专利技术属于气象数据处理领域,具体涉及一种气象纸质表格文档的快速数字化方法及系统。

技术介绍

[0002]在气象观测中,初始的观测结果是气象图像,各地方通过对气象图像的数字化,采集到地方气象数据,并上传到气象中心,气象中心对所有气象数据进行统计与分析。各地方在进行气象数据采集时,由于气象数据的时间序列性及多参数性,通常需要通过表格来对数据进行整理;气象纸质表格文档的整理,一般通过人工观测并手写填写纸质表格,再通过对纸质表格的识别,例如,人工智能中的OCR文字识别方法,获得数字化表格文档图像文件;再通过数字化表格文档图像文件获得气象表格信息。
[0003]现有技术中,中国气象局对各省数字化图像资料进行收集外,还没有一个统一的系统将收集的数字化图像文件进行数据校验,无法保证数字化图像文件中提取的气象表格信息的准确性。
[0004]表格是一种高度精炼,集中信息表达的手段,纸质表格中的大量信息常常需要输入到计算机进行整理、归类、排序和分析等。对纸质表格信息的提取,一般首先获取表格文档图像,再对图像进行处理获取表格信息。纸质表格文档图像的信息提取方法,是字符识别过程。其中,表格字符准确识别与定位是表格字符提取最困难也是最关键的环节之一。
[0005]表格字符提取,可以通过基于深度学习的网络模型自动获取图像中的文本特征,结合分类和回归进行字符定位。基于边界框回归的方法进行了文本定位,在图像上按区域设置大量不同大小形状的边界框,经过卷积网络的特征学习,判断边界框内是否含有字符,一般按标签边界框与实际标签所重合的面积(IOU,Intersection Over Union)大小判定,字符定位一般以IOU>=0.7为标准判定边界框内是否存在字符目标。然后对边界框的位置进行回归,定位精确的边界。基于边界框回归的方法依赖边界框形状大小的设置,若设置形状与所要检查的目标差别较大,则定位效果较差。基于语义分割法的字符定位,通过卷积与反卷积对每一个像素做一个二分类,判别每一个像素是否属于字符像素,最终根据字符区域定位。
[0006]目前,对上述数字化表格字符的识别及定位方法,包括图像倾斜校正、图像二值化、表格字符定位、单任务分组统计校验及可视化展示。在图像倾斜校正中,目前无法保证对含手写数字的表格文档图像取得较好的精度。在图像二值化过程中,二值化方法比较单一,在实际应用中往往无法较好的适应各种不同条件下的情况,如:扫描结果亮度不均匀、笔划灰度较浅、图像直方图灰度值分布较均匀等。在表格字符定位过程中,包括利用先验知识定位和通过表格线检测定位;其中,先验知识方法需要借助先验知识,无法自动适应各种不同格式的表格;表格线检测方法包括侧向投影法、轮廓提取法、表格线交叉点分析法、霍夫变换法;侧向投影法简单、速度快,但较容易受到表格倾斜和字符粘连表格线的影响;轮廓提取法也很容易因表格线断裂或字符粘连表格线而产生错误;表格线交叉点分析法则通
过对相邻交叉点进行分类和匹配来迭代地构建出表格中的所有单元格,但该方法比较耗时,且容易受断裂表格线的影响。

技术实现思路

[0007]鉴于上述问题,本专利技术实施例提供了一种气象纸质表格文档的快速数字化方法及系统,在获取文档图像的基础上,通过基于语义分割的DB模型进行表格字符定位,同时通过众筹式人工输入对定位字符进行检验,从而完成气象表格文档的快速数字化,简化基于分割方法的文字检测,实现对包含印刷字符和手写字符的表格文档图像中字符的高精度、高准确度的提取。
[0008]为了实现上述目的,本专利技术实施例采用的技术方案如下:
[0009]第一方面,本专利技术提供了一种气象纸质表格文档的快速数字化方法,所述快速数字化方法包括如下步骤:
[0010]步骤S1,获取所述气象纸质表格文档的图像;
[0011]步骤S2,对表格文档图像进行预处理;
[0012]步骤S3,从所述处理完的表格文档图像中提取表格线;
[0013]步骤S4,基于表格线,对表格文档图像进行字符识别,完成对字符的提取和定位,将带有定位信息的字符存储为第一类字符;
[0014]步骤S5,对所述处理完的表格文档图像进行切割,并基于切割后的子图像发起众筹,对每个子图像进行文字录入;
[0015]步骤S6,将录入的文字与第一类字符进行定位匹配,对相同位置处的第一类字符进行校验;校验通过时,将当前第一类字符存储在临时文档中;校验不通过时,丢弃第一类字符,以当前子图像作为表格文档图像,转入步骤S2;遍历所有子图像且全部校验通过时,进入步骤S7。
[0016]步骤S7,输出临时文档中的所有第一类字符,作为当前气象纸质表格文档的数字化结果。
[0017]作为本专利技术的一个优选实施例,所述步骤S2中的预处理,包括对获取的表格文档图像进行倾斜校正和降噪。
[0018]作为本专利技术的一个优选实施例,所述降噪,采用适用于表格文档图像的自适应阈值二值化方法,去除表格文档图像的噪声。
[0019]作为本专利技术的一个优选实施例,步骤S3中表格线,包括表格横线、竖线和边框。
[0020]作为本专利技术的一个优选实施例,步骤S3采用霍夫变换方法实现表格线提取,具体步骤如下:
[0021]步骤S31,采用霍夫变换方法进行表格线检测。根据表格线与周围像素灰度差异,最短直线长度和最长直线长度,确定表格横线、竖线和边框,获取表格线初步提取结果;
[0022]步骤S32,对初步提取表格线进行结果优化,获得完整的表格线。
[0023]作为本专利技术的一个优选实施例,所述对初步提取表格线进行结果优化,包括:
[0024]直线融合,对断裂的直线进行连线,获得完整的表格横线和竖线;
[0025]直线筛选,对多提的直线且不属于表格线的部分去除;
[0026]表格边框补齐,对表格边界进行补齐。
[0027]作为本专利技术的一个优选实施例,所述步骤S4采用基于语义分割的DB深度学习模型实现表格字符定位,具体实现步骤如下:
[0028]步骤S41,采集字符定位数据集;
[0029]步骤S42,基于深度学习算法,构建字符提取和定位的DB模型;
[0030]步骤S43,基于所采信的字符定位数据集,对DB模型进行训练;
[0031]步骤S44,采用训练获得的DB模型,对所述表格文档图像进行字符提取和定位,将带有定位信息的字符存储为第一类字符。
[0032]作为本专利技术的一个优选实施例,所述步骤S43中对表格文档图像进行字符提取和定位,将扫描并预处理后的气象表格文档图像送入训练过的DB模型,得到表格中的字符坐标与中心点坐标,将中心点坐标对比表格线坐标得到字符目标与表格的一一对应位置,完成定位。
[0033]作为本专利技术的一个优选实施例,步骤S5具体包括:
[0034]步骤S51,将需要数字化的气象纸质表格文档图像汇交至数据中心,在数据中心统一对表格文档图像进行批本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种气象纸质表格文档的快速数字化方法,其特征在于,所述快速数字化方法包括如下步骤:步骤S1,获取所述气象纸质表格文档的图像;步骤S2,对表格文档图像进行预处理;步骤S3,从所述处理完的表格文档图像中提取表格线;步骤S4,基于表格线,对表格文档图像进行字符识别,完成对字符的提取和定位,将带有定位信息的字符存储为第一类字符;步骤S5,对所述处理完的表格文档图像进行切割,并基于切割后的子图像发起众筹,对每个子图像进行文字录入;步骤S6,将录入的文字与第一类字符进行定位匹配,对相同位置处的第一类字符进行校验;校验通过时,将当前第一类字符存储在临时文档中;校验不通过时,丢弃第一类字符,以当前子图像作为表格文档图像,转入步骤S2;遍历所有子图像且全部校验通过时,进入步骤S7。步骤S7,输出临时文档中的所有第一类字符,作为当前气象纸质表格文档的数字化结果。2.根据权利要求1所述的气象纸质表格文档的快速数字化方法,其特征在于,所述步骤S2中的预处理,包括对获取的表格文档图像进行倾斜校正和降噪。3.根据权利要求1所述的气象纸质表格文档的快速数字化方法,其特征在于,步骤S3中表格线,包括表格横线、竖线和边框。4.根据权利要求3所述的气象纸质表格文档的快速数字化方法,其特征在于,步骤S3采用霍夫变换方法实现表格线提取,具体步骤如下:步骤S31,采用霍夫变换方法进行表格线检测。根据表格线与周围像素灰度差异,最短直线长度和最长直线长度,确定表格横线、竖线和边框,获取表格线初步提取结果;步骤S32,对初步提取表格线进行结果优化,获得完整的表格线。5.根据权利要求4所述的气象纸质表格文档的快速数字化方法,其特征在于,所述对初步提取表格线进行结果优化,包括:直线融合,对断裂的直线进行连线,获得完整的表格横线和竖线;直线筛选,对多提的直线且不属于表格线的部分去除;表格边框补齐,对表格边界进行补齐。6.根据权利要求1所述的气象纸质表格文档的快速数字化方法,其特征在于,所述步骤S4采用基于语义分割的DB深度学习模型实现表格字符定位,具体实现步骤如下:步骤S41,采集字符定位数据集;步骤S42,基于深度学习算法,构建字符提取和定位的DB模型;步骤S43,基于所采信的字符定位数据集,对DB模型进行训练;步骤S44,采用训练获得的DB模型,对所述表格文档图像进行字符提取和定位,将带有定位信息的字符存储为第一类字符。7.根据权利要求6所述的气象纸质表格文档的快速数字化方法,其特征在于,所述步骤S43中对表格文档图像进行字符提取和定位,将扫描并预处理后的气象表格文档图像送入训练过的DB模型,得到表格中的字符坐标与中心点坐标,将中心点坐标对比表格线坐标得
到字符目标与表格的一一对应位置,完成定位。8.根据权利要求1所...

【专利技术属性】
技术研发人员:韩瑞石明远陈东辉
申请(专利权)人:国家气象信息中心中国气象局气象数据中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1