【技术实现步骤摘要】
一种表格数据的自动识别方法
[0001]本专利技术涉及图像识别
,具体是一种表格数据的自动识别方法。
技术介绍
[0002]CAD图纸中涉及大量表格,表格格式多样化,表格有边框无边框,少量边框等形式多样,自动识别表格是表格信息与图形信息联动的基础,对表格识别之前,需要先对文档进行版面分析,提取出文档中的表格,然后对表格进行定位,最后根据定位结果识别出表格中的文本。
[0003]在物体检测和定位方面,常用的技术有:边缘检测技术(canny边缘检测)和rcnn/faster
‑
rcnn/yolo/ssd等技术;在OCR(光学字符识别)方面,主要技术有:基于监督学习的文字分类、cnn(卷积神经网络)和CRNN+CTC等;然而随着表格类别的增多,识别效率也会逐渐降低;如果样本集缺乏代表性和普遍性,这就会造成系统学习不到某些模式,最终导致模型对某些表格定位失败,基于以上不足,本专利技术提出一种表格数据的自动识别方法。
技术实现思路
[0004]本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术提出一种表格数据的自动识别方法。
[0005]为实现上述目的,根据本专利技术的第一方面的实施例提出一种表格数据的自动识别方法,包括如下步骤:
[0006]步骤一:获取文档和CAD图纸等文件,并将所述文档和CAD图纸转化为图像格式,所述图像格式包括:jpg、png;
[0007]步骤二:对各个图像识别终端的算力占用情况进行监测分析,计算得到算力充余系数 ...
【技术保护点】
【技术特征摘要】
1.一种表格数据的自动识别方法,其特征在于,包括如下步骤:步骤一:获取文档和CAD图纸文件,并将所述文档和CAD图纸转化为图像格式,所述图像格式包括:jpg、png;步骤二:对各个图像识别终端的算力占用情况进行监测分析,计算得到算力充余系数KY;选取算力充余系数KY最大的图像识别终端作为目标终端,对所述文档和CAD图纸转化的图像进行表格数据识别;步骤三:目标终端对所述文档和CAD图纸转化的图像进行表格数据识别,具体识别步骤包括:基于深度学习算法对所述文档和CAD图纸转化的图像进行文本框位置检测和文本框内容识别,获取所述图像中每个文本框的文本框位置信息,以及和每个文本框位置信息对应的文本框内容信息;对所述图像中的表格整体单元格进行检测,检测出所述表格整体单元格的所有横线和所有竖线;基于检测出的所有横线和所有竖线获取所述表格整体单元格中所有小单元格的小单元格位置信息;基于所述文本框位置信息和所述小单元格位置信息,判断所述文本框是否与所述小单元格相对应;当判断出所述文本框与所述小单元格相对应时,基于所述文本框位置信息对所述文本框进行排序,获取排序后的文本框内容信息;基于排序后的文本框内容信息确定所述表格整体单元格的内容排布,输出经过排布后的所述图像的结构化文本信息;步骤四:对目标终端进行数据识别监测,对数据识别过程中目标终端的状态偏离值进行评估;若状态偏离值ZP大于预设偏离阈值,则生成偏离预警信号,以提醒管理人员对目标终端进行检修。2.根据权利要求1所述的一种表格数据的自动识别方法,其特征在于,对各个图像识别终端的算力占用情况进行监测分析,具体包括:从初始时刻起,按照预设间隔采集图像识别终端的算力占用率并标记为Nc,建立算力占用率Nc随时间变化的曲线图;当曲线图处于上升阶段时,对曲线图进行求导获取占用率变化速率曲线图;将图像识别终端的实时算力占用率变化速率标记为Vt;将Vt与预设速率阈值相比较;若Vt>预设速率阈值,则表示图像识别终端忙于数据识别,在对应的曲线图中截取对应的曲线段进行标注;在预设时间内,统计标注曲线段的数量为R1,将所有的标注曲线段对时间进行积分得到标注参考能量WE,利用公式WR=R1
×
d1+WE
×
d2计算得到图像识别终端的运算热度值WR,其中d1、d2均为系数因子;获取图像识别终端的当前算力占用率为Nt,利用公式KY=(1
‑
Nt)
×
d3/(WR
×
d4)计算得到图像识别终端的算力充余系数KY,其中d3、d4均为系数因子。3....
【专利技术属性】
技术研发人员:谌永庭,黄春霞,王勃,陈宁,陈丽云,肖继华,程凉,周勇,刘智才,黄鑫,周勉,
申请(专利权)人:华联世纪工程咨询股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。