一种表格图像识别方法技术

技术编号:36893087 阅读:11 留言:0更新日期:2023-03-15 22:07
本发明专利技术涉及图像处理技术领域,具体公开了一种表格图像识别方法。一种表格图像识别方法,该方法包括:采集获取目标表格图像;识别获取目标表格图像中的文字以及文字位置信息;识别获得目标表格图像中连线的位置信息;根据所述连线的位置信息,获取目标表格图像中拐点的位置信息;根据识别获得所述连线和拐点的位置信息,识别获得目标图像中的表格框架。本发明专利技术所述的一种表格图像识别方法,能够对目标表格图像中的表格框架及文字进行自动识别,实现对设计图纸中含有表格图像的自动识别,提高从设计图纸到仿真模型自动建模的自动转化,提高建模效率和质量。模效率和质量。模效率和质量。

【技术实现步骤摘要】
一种表格图像识别方法


[0001]本专利技术属于图像处理
,具体涉及一种表格图像识别方法。

技术介绍

[0002]在核电站全范围模拟机的开发过程中,需要对上百个电厂工艺系统、数百个配电系统、数千张DCS控制逻辑图和各种不同风格的流程、教控、盘台图进行仿真建模,而人工建模效率低,错误率高,是影响模拟机开发效率的关键因素。对此,亟需通过自动建模方式实现从设计图纸到仿真模型的自动转换,以提高建模效率和质量。
[0003]设计图纸中一般还含有表格,用以存储流程图中元件图标的编号/备注等信息、或者建模所需的参数信息等。为了实现自动建模,需要对这些表格进行准确识别。

技术实现思路

[0004]本专利技术的目的在于提供一种表格图像识别方法,解决设计图纸表格自动识别的问题。
[0005]本专利技术的技术方案如下:一种表格图像识别方法,该方法具体包括:
[0006]S1、采集获取目标表格图像;
[0007]S2、识别获取目标表格图像中的文字以及文字位置信息;
[0008]S3、识别获得目标表格图像中连线的位置信息;
[0009]S4、根据所述连线的位置信息,获取目标表格图像中拐点的位置信息;
[0010]S4.1根据所述连线位置信息,识别目标表格图像中角点的位置信息;
[0011]S4.2根据所述的角点位置信息,识别目标表格图像中连线的拐点;
[0012]检测与所述角点相连的连线至少有两条且均为直线时,则判断所述角点为拐点;
[0013]S5、根据识别获得所述连线和拐点的位置信息,识别获得目标图像中的表格框架。
[0014]所述步骤S5中识别获得目标图像中表格框架的具体步骤为:
[0015]S5.1识别获取所述连线和拐点位置信息,识别获取所述目标表格图像中的连接关系,根据检测相邻两个拐点之间是否存在满足预定条件的连线,来判断相应的两个拐点是否存在连接关系;
[0016]S5.2利用识别获得目标表格图像中拐点及拐点之间的连接关系,即可获得目标表格图像中的表格框架。
[0017]所示步骤4.2中识别目标表格图像中连线的拐点,可在所述连线为横线或竖线时,采用检测直角边来判断拐点,其具体步骤为:
[0018]根据识别获得的连线和角点位置信息,判断目标表格图像中所述角点连接的连线是否构成直角,若与所述角点相连的连线构成直角时,将所述角点识别为拐点。
[0019]所述检测直角的具体步骤为:
[0020]对任一角点,以所述角点为中心并确定一个矩形目标区域,并在所述矩形目标区域的中心位置确定矩形的中心区域,并将所述目标区域内位于中心中心区域上、下方的区
域分布确定为纵向检测区域,将该目标区域内位于中心区域左、右方的区域确定为横向检测区域;当所述纵向检测区域内存在竖直连线且所述竖直连线的长度近似等于纵向检测区域的高度、且横向检测区域内存在水平连线且所述水平连线的长度近似等于横向检测区域的宽度时,判断与相应角点相连的连线构成直角。
[0021]所述步骤S2中识别获取目标表格图像中文字及文字位置信息的具体步骤为:
[0022]S2.1对采集获取的表格图像进行图像预处理;
[0023]S2.1.1对采集获取的待识别图像进行图像灰度化处理;
[0024]S2.1.2对灰度化图像进行滤波处理,降低图像噪声;
[0025]S2.1.3将滤波后的图像进行二值化处理;
[0026]S2.2对表格图像中的文字区域进行目标检测;
[0027]S2.3对表格图像中的文字进行采集识别。
[0028]所述步骤S2.2中对表格图像中的文字区域进行目标检测是利用YOLO算法从图像像素中获取边界坐标和类别概率,对表格图像中所有目标的位置进行确认和信息识别;
[0029]所述步骤2.3中对表格图像中的文字进行采集识别是利用CRNN文字识别模型进行文字识别,其中,所述CRNN文字识别模型利用预训练模型以及构建的数据样本集进行训练获得相应的文字识别模型。
[0030]所述CRNN文字识别模型所使用的样本数据是利用数据增强方式获取,可利用以下任意一种或几种方式的组合获得:
[0031]将原始样本数据通过图像反转、翻转、旋转、缩放进行样本数据的扩充;
[0032]在样本图像中随机添加椒盐噪声、高斯噪声、图像模糊噪声以及图像腐蚀噪声,以构成新的样本数据;
[0033]针对数字、字母、符合标准标记原始是图像数据样本,通过建立标准字符的模板集,利用样本合成随机生产大量的样本图像。
[0034]对所述表格图像中文字进行识别时,需要对各文字区域对应文字方向进行检测,其中可选择其中任意一种方法:
[0035]通过二分类模型进行检测,将水平文字和竖排文字分成两类样本,通过训练获得二分类模型来判断文字的方向,后续对文字方向进行矫正;
[0036]基于规则进行判断检测,根据文字区域的长宽来判断文字的方向。
[0037]所述步骤S5识别目标表格图像中的表格框架后,还进一步包括基于识别到的表格框架重构表格,并在所述表格中的对应位置填入所识别的文字,完成目标表格图像转化为可编辑的表格格式文件。
[0038]所述步骤S3识别获得目标表格图像中连线的位置信息的具体步骤为:
[0039]对目标表格图像中的连线作为单独的一类元件进行识别,并最终输出连线的位置信息,其中,对目标表格图像进行二值化处理后,通过检测是否存在连续数量像素点的像素平均值小于预定像素阈值,来判定该连续数量像素点构成连续。
[0040]本专利技术的显著效果在于:本专利技术所述的一种表格图像识别方法,能够对目标表格图像中的表格框架及文字进行自动识别,实现对设计图纸中含有表格图像的自动识别,提高从设计图纸到仿真模型自动建模的自动转化,提高建模效率和质量。
附图说明
[0041]图1为本专利技术所述的一种表格图像识别方法流程图。
具体实施方式
[0042]下面结合附图及具体实施例对本专利技术作进一步详细说明。
[0043]如图1所示,一种表格图像识别方法,该方法具体包括如下步骤:
[0044]S1、获取目标表格图像
[0045]采集获得需要进行自动识别的目标表格图像,其中,该目标表格图像包括由若干单元格组成的表格框架,以及位于该表格框架内需要识别的文字;
[0046]S2、识别获取目标表格图像中的文字以及文字位置信息;
[0047]S2.1对采集获取的表格图像进行图像预处理;
[0048]S2.1.1对采集获取的待识别图像进行图像灰度化处理;
[0049]S2.1.2对灰度化图像进行滤波处理,降低图像噪声;
[0050]利用高斯滤波、中值滤波或者均值滤波对灰度化图像进行滤波处理;
[0051]S2.1.3将滤波后的图像进行二值化处理;
[0052]对滤波处理后的图像进行二值化处理,将图像上各本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种表格图像识别方法,其特征在于:该方法具体包括:S1、采集获取目标表格图像;S2、识别获取目标表格图像中的文字以及文字位置信息;S3、识别获得目标表格图像中连线的位置信息;S4、根据所述连线的位置信息,获取目标表格图像中拐点的位置信息;S4.1根据所述连线位置信息,识别目标表格图像中角点的位置信息;S4.2根据所述的角点位置信息,识别目标表格图像中连线的拐点;检测与所述角点相连的连线至少有两条且均为直线时,则判断所述角点为拐点;S5、根据识别获得所述连线和拐点的位置信息,识别获得目标图像中的表格框架。2.根据权利要求1所述的一种表格图像识别方法,其特征在于,所述步骤S5中识别获得目标图像中表格框架的具体步骤为:S5.1识别获取所述连线和拐点位置信息,识别获取所述目标表格图像中的连接关系,根据检测相邻两个拐点之间是否存在满足预定条件的连线,来判断相应的两个拐点是否存在连接关系;S5.2利用识别获得目标表格图像中拐点及拐点之间的连接关系,即可获得目标表格图像中的表格框架。3.根据权利要求1所示的一种表格图像识别方法,其特征在于,所示步骤4.2中识别目标表格图像中连线的拐点,可在所述连线为横线或竖线时,采用检测直角边来判断拐点,其具体步骤为:根据识别获得的连线和角点位置信息,判断目标表格图像中所述角点连接的连线是否构成直角,若与所述角点相连的连线构成直角时,将所述角点识别为拐点。4.根据权利要求3所述的一种表格图像识别方法,其特征在于,所述检测直角的具体步骤为:对任一角点,以所述角点为中心并确定一个矩形目标区域,并在所述矩形目标区域的中心位置确定矩形的中心区域,并将所述目标区域内位于中心中心区域上、下方的区域分布确定为纵向检测区域,将该目标区域内位于中心区域左、右方的区域确定为横向检测区域;当所述纵向检测区域内存在竖直连线且所述竖直连线的长度近似等于纵向检测区域的高度、且横向检测区域内存在水平连线且所述水平连线的长度近似等于横向检测区域的宽度时,判断与相应角点相连的连线构成直角。5.根据权利要求1所述的一种表格图像识别方法,其特征在于,所述步骤S2中识别获取目标表格图像中文字及文字位置信息的具体步骤为:S2.1对采集获取的表格图像进行图像预处理;S2.1.1对采集获取的待识别图像进行图像灰度...

【专利技术属性】
技术研发人员:杨宵何武略谭超李飞谢政权
申请(专利权)人:核动力运行研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1