【技术实现步骤摘要】
基于结构单元的表格识别方法、系统、终端及介质
[0001]本专利技术涉及表格识别
,具体地,涉及一种基于结构单元的表格识别方法、系统、终端及介质。
技术介绍
[0002]随着时代的发展,对环保和资源节约等方面的重视,无纸化办公成为当前数字化办公方面的发展热点。采用图文识别可以将图片文字映射入一个可编辑的文档中,以代替繁杂的人工导入,节约人力成本。在图文识别的过程中,需要力求识别的准确性。
[0003]传统的方法确定表格的结构,主要采用确定表格中水平和垂直表格线的方法,通过检测到的表格线对表格进行分割,确定基本的表格结构单元,然后对表格结构单元中的文字进行识别。但是上述方法存在诸多弊端,例如依赖于表格线检测的方法,没有利用表格的局部空间特征,在图像不是很清晰或者图像有倾斜时,线检测准确率不高,另外基于检测线的方法无法适应非完全表格线表格。
[0004]经过检索发现:
[0005]公开号为CN104094282A的中国专利技术专利申请《无边框表格检测引擎》,公开了一种用于标识出现在从固定格式文档提取 ...
【技术保护点】
【技术特征摘要】
1.一种基于结构单元的表格识别方法,其特征在于,包括:对文档中表格的结构单元进行识别;基于获取的所述结构单元,进行表格空间结构确定;对文档进行文字检测与识别,并将识别得到的所述文字内容填放到确定的所述表格空间结构中对应的所述结构单元中,对表格进行重建,完成表格识别。2.根据权利要求1所述的基于结构单元的表格识别方法,其特征在于,所述对文档中表格的结构单元进行识别,包括:对于给定的文档中的表格,利用预训练的表格结构单元检测模型,基于图像特征,将文档中表格的结构单元视为图像目标进行识别,记录识别到的结构单元及其对应的结构单元信息。3.根据权利要求2所述的基于结构单元的表格识别方法,其特征在于,所述表格结构单元检测模型,基于深度学习的目标检测网络构建得到;所述预训练的过程包括:获取表格图像,并对获取的所述表格图像进行预处理;基于预处理后的表格图像建立表格结构单元检测模型样本;根据建立的所述样本,训练表格结构单元检测模型,完成模型训练。4.根据权利要求3所述的基于结构单元的表格识别方法,其特征在于,所述预训练过程还包括如下任一项或任意多项:在所述表格结构单元检测模型中添加整张表格的全局图像特征;在所述表格结构单元检测模型中基于图像特征进行行池化和列池化;采用软化的非最大抑制方法或基于混合高斯模型和检测目标合并方法,对所述表格结构单元检测模型进行目标候选框处理。5.根据权利要求2所述的基于结构单元的表格识别方法,其特征在于,所述文档中的表格包括:完全表格线表格和非完全表格线表格;当识别到的表格为完全表格线表格时,所述结构单元为完全表格线表格中的矩形线框单元;当识别到的表格为非完全表格线表格时,所述结构单元为非完全表格线表格中按语义理解的表格最小单元。6.根据权利要求2所述的基于结构单元的表格识别方法,其特征在于,所述结构单元信息,包括:每一个所述结构单元的区域位置信息和置信度信息;其中:所述区域位置信息,用于表示所述结构单元在文档中的位置;所述置信度信息,为每一个所述结构单元的附属概率信息,用于表示所述结构单元识别结果的准确度。7.根据权利要求6所述的基于结构单元的表格识别方法,其特征在于,所述区域位置信息的确定方法,包括:通过所述结构单元的四个顶点坐标确定或通过所述结构单元的中心点及长宽值确定。8.根据权利要求2所述的基于结构单元的表格识别方法,其特征在于,所述对文档中表格的结构单元进行识别,还包括:对识别到的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。