一种表格数据的自动识别方法技术

技术编号:38198669 阅读:13 留言:0更新日期:2023-07-21 16:37
本发明专利技术公开了一种表格数据的自动识别方法,涉及图像识别技术领域,包括:获取文档和CAD图纸等文件,并将所述文档和CAD图纸转化为图像格式;对各个图像识别终端的算力占用情况进行监测分析,选取算力充余系数KY最大的图像识别终端作为目标终端,对所述文档和CAD图纸转化的图像进行表格数据识别,从而提高数据识别效率;目标终端基于深度学习算法对所述文档和CAD图纸转化的图像进行文本框位置检测和文本框内容识别,获取所述图像中每个文本框的文本框位置信息,以及和每个文本框位置信息对应的文本框内容信息;基于所述文本框位置信息对所述文本框进行排序,输出经过排布后的所述图像的结构化文本信息;识别精度高。识别精度高。识别精度高。

【技术实现步骤摘要】
一种表格数据的自动识别方法


[0001]本专利技术涉及图像识别
,具体是一种表格数据的自动识别方法。

技术介绍

[0002]CAD图纸中涉及大量表格,表格格式多样化,表格有边框无边框,少量边框等形式多样,自动识别表格是表格信息与图形信息联动的基础,对表格识别之前,需要先对文档进行版面分析,提取出文档中的表格,然后对表格进行定位,最后根据定位结果识别出表格中的文本。
[0003]在物体检测和定位方面,常用的技术有:边缘检测技术(canny边缘检测)和rcnn/faster

rcnn/yolo/ssd等技术;在OCR(光学字符识别)方面,主要技术有:基于监督学习的文字分类、cnn(卷积神经网络)和CRNN+CTC等;然而随着表格类别的增多,识别效率也会逐渐降低;如果样本集缺乏代表性和普遍性,这就会造成系统学习不到某些模式,最终导致模型对某些表格定位失败,基于以上不足,本专利技术提出一种表格数据的自动识别方法。

技术实现思路

[0004]本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术提出一种表格数据的自动识别方法。
[0005]为实现上述目的,根据本专利技术的第一方面的实施例提出一种表格数据的自动识别方法,包括如下步骤:
[0006]步骤一:获取文档和CAD图纸等文件,并将所述文档和CAD图纸转化为图像格式,所述图像格式包括:jpg、png;
[0007]步骤二:对各个图像识别终端的算力占用情况进行监测分析,计算得到算力充余系数KY;选取算力充余系数KY最大的图像识别终端作为目标终端,对所述文档和CAD图纸转化的图像进行表格数据识别;
[0008]步骤三:目标终端对所述文档和CAD图纸转化的图像进行表格数据识别,具体识别步骤包括:
[0009]基于深度学习算法对所述文档和CAD图纸转化的图像进行文本框位置检测和文本框内容识别,获取所述图像中每个文本框的文本框位置信息,以及和每个文本框位置信息对应的文本框内容信息;
[0010]对所述图像中的表格整体单元格进行检测,检测出所述表格整体单元格的所有横线和所有竖线;基于检测出的所有横线和所有竖线获取所述表格整体单元格中所有小单元格的小单元格位置信息;
[0011]基于所述文本框位置信息和所述小单元格位置信息,判断所述文本框是否与所述小单元格相对应;
[0012]当判断出所述文本框与所述小单元格相对应时,基于所述文本框位置信息对所述文本框进行排序,获取排序后的文本框内容信息;
[0013]基于排序后的文本框内容信息确定所述表格整体单元格的内容排布,输出经过排布后的所述图像的结构化文本信息;
[0014]步骤四:对目标终端进行数据识别监测,对数据识别过程中目标终端的状态偏离值进行评估;若状态偏离值ZP大于预设偏离阈值,则生成偏离预警信号,以提醒管理人员对目标终端进行检修。
[0015]进一步地,对各个图像识别终端的算力占用情况进行监测分析,具体监测分析步骤包括:
[0016]从初始时刻起,按照预设间隔采集图像识别终端的算力占用率并标记为Nc,建立算力占用率Nc随时间变化的曲线图;
[0017]当曲线图处于上升阶段时,对曲线图进行求导获取占用率变化速率曲线图;将图像识别终端的实时算力占用率变化速率标记为Vt;
[0018]将Vt与预设速率阈值相比较;若Vt>预设速率阈值,则表示图像识别终端忙于数据识别,在对应的曲线图中截取对应的曲线段进行标注;
[0019]在预设时间内,统计标注曲线段的数量为R1,将所有的标注曲线段对时间进行积分得到标注参考能量WE,利用公式WR=R1
×
d1+WE
×
d2计算得到图像识别终端的运算热度值WR,其中d1、d2均为系数因子;
[0020]获取图像识别终端的当前算力占用率为Nt,利用公式KY=(1

Nt)
×
d3/(WR
×
d4)计算得到图像识别终端的算力充余系数KY,其中d3、d4均为系数因子。
[0021]进一步地,对目标终端进行数据识别监测,对数据识别过程中目标终端的状态偏离值进行评估,具体为:
[0022]当监测到目标终端进行表格数据识别时,每间隔R2时间采集目标终端的状态参数,状态参数包括访问节点连接数、CPU负载率、带宽负载率和实时网络速率;其中R2为预设值;
[0023]将访问节点连接数、CPU负载率、带宽负载率和实时网络速率依次标记为Q1、Q2、Q3、Q4;利用公式ZX=(Q1
×
b1+Q4
×
b4)/(Q2
×
b2+Q3
×
b3)计算得到目标终端的状态系数ZX,其中b1、b2、b3、b4为系数因子;
[0024]将状态系数ZX与设定阈值相比较,若状态系数ZX小于设定阈值,则生成偏离信号;根据偏离信号的时空变化趋势,计算得到状态偏离值ZP。
[0025]进一步地,状态偏离值ZP的具体计算方法为:
[0026]当监测到偏离信号时,自动倒计时,倒计时时长为Td时间,Td为预设值;在倒计时阶段继续对偏离信号进行监测,若再次监测到偏离信号,则倒计时自动归为原值,重新按照Td进行倒计时;
[0027]统计倒计时阶段偏离信号的出现次数为C1;当监测到偏离信号时,将对应的状态系数ZX与设定阈值进行差值计算,并将所有的差值进行求和得到偏离总值CT,统计倒计时阶段的持续时长为Tc;
[0028]利用公式ZP=(C1
×
b1+CT
×
b2)/(Tc
×
b3)计算得到状态偏离值ZP,其中b1、b2、b3为系数因子。
[0029]进一步地,对所述图像中的表格整体单元格进行检测,检测出所述表格整体单元格的所有横线和所有竖线;具体包括:
[0030]将所述图像进行归一化处理,使得所述图像调整为预定尺寸;
[0031]将调整后的所述图像转化为灰度模式,并进行腐蚀处理;
[0032]通过中值滤波过滤掉经过腐蚀处理的所述图像的噪声干扰;
[0033]分别确定所述图像的X方向和Y方向的梯度,并进行阈值化处理,通过霍夫直线检测初步筛选出所有横线和所有竖线;分别对筛选出的所有横线和所有竖线进行排序和合并处理。
[0034]进一步地,当判断出所述文本框与所述小单元格位置不完全重合时,分别计算所述文本框与所述小单元格的面积;
[0035]计算所述文本框与所述小单元格的交集面积与所述文本框与所述小单元格的并集面积的比值;当计算出的比值满足预设范围时,确定所述文本框与所述小单元格相对应。
[0036]与现有技术相比,本专利技术的有益效果是:
[0037]1、本专利技术中首先获取文档和CAD图纸等文件,并将文档和CAD图纸转化为图像格式;对各个图像识别终端的算力占用情况进行监测分析,计算得到算力充余系数K本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种表格数据的自动识别方法,其特征在于,包括如下步骤:步骤一:获取文档和CAD图纸文件,并将所述文档和CAD图纸转化为图像格式,所述图像格式包括:jpg、png;步骤二:对各个图像识别终端的算力占用情况进行监测分析,计算得到算力充余系数KY;选取算力充余系数KY最大的图像识别终端作为目标终端,对所述文档和CAD图纸转化的图像进行表格数据识别;步骤三:目标终端对所述文档和CAD图纸转化的图像进行表格数据识别,具体识别步骤包括:基于深度学习算法对所述文档和CAD图纸转化的图像进行文本框位置检测和文本框内容识别,获取所述图像中每个文本框的文本框位置信息,以及和每个文本框位置信息对应的文本框内容信息;对所述图像中的表格整体单元格进行检测,检测出所述表格整体单元格的所有横线和所有竖线;基于检测出的所有横线和所有竖线获取所述表格整体单元格中所有小单元格的小单元格位置信息;基于所述文本框位置信息和所述小单元格位置信息,判断所述文本框是否与所述小单元格相对应;当判断出所述文本框与所述小单元格相对应时,基于所述文本框位置信息对所述文本框进行排序,获取排序后的文本框内容信息;基于排序后的文本框内容信息确定所述表格整体单元格的内容排布,输出经过排布后的所述图像的结构化文本信息;步骤四:对目标终端进行数据识别监测,对数据识别过程中目标终端的状态偏离值进行评估;若状态偏离值ZP大于预设偏离阈值,则生成偏离预警信号,以提醒管理人员对目标终端进行检修。2.根据权利要求1所述的一种表格数据的自动识别方法,其特征在于,对各个图像识别终端的算力占用情况进行监测分析,具体包括:从初始时刻起,按照预设间隔采集图像识别终端的算力占用率并标记为Nc,建立算力占用率Nc随时间变化的曲线图;当曲线图处于上升阶段时,对曲线图进行求导获取占用率变化速率曲线图;将图像识别终端的实时算力占用率变化速率标记为Vt;将Vt与预设速率阈值相比较;若Vt>预设速率阈值,则表示图像识别终端忙于数据识别,在对应的曲线图中截取对应的曲线段进行标注;在预设时间内,统计标注曲线段的数量为R1,将所有的标注曲线段对时间进行积分得到标注参考能量WE,利用公式WR=R1
×
d1+WE
×
d2计算得到图像识别终端的运算热度值WR,其中d1、d2均为系数因子;获取图像识别终端的当前算力占用率为Nt,利用公式KY=(1

Nt)
×
d3/(WR
×
d4)计算得到图像识别终端的算力充余系数KY,其中d3、d4均为系数因子。3....

【专利技术属性】
技术研发人员:谌永庭黄春霞王勃陈宁陈丽云肖继华程凉周勇刘智才黄鑫周勉
申请(专利权)人:华联世纪工程咨询股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1