【技术实现步骤摘要】
Object Detection,以下简称为CenterNet,CenterNet为目标检测网 络的一种,与传统的目标检测网络不同的是,它是基于中心点的检测 网络,CenterNet的训练模式采用标准的监督训练,仅通过前向传播 网络推进得到结果,所以不存在传统目标检测网络所需要的后处理过 程,保证了本专利技术中图像检测的速度。
[0009](4)中英文识别模型,参考论文为An End
‑
to
‑
End Trainable NeuralNetwork for Image
‑
based Sequence Recognition and Its Application toScene Text Recognition,以下简称为CRNN,网络结构一共包括三个部 分,分别是特征提取部分
‑
CNN,序列预测部分
‑
RNN,翻译部分
‑
CTC, 首先进行图片的缩放,将高缩放为32,然后使用CNN进行特征提取, 得到512*1*w的特征图,从此特征图中提取特征向量并 ...
【技术保护点】
【技术特征摘要】
1.一种结构化文本识别方法,其特征在于,步骤如下:步骤(1)、表格检测与识别:采用深度学习模型实现对于表格的检测,通过语义分割网络U
‑
Net预测并找到文档图片中的横竖线,用这些线段来提取图中的表格;然后根据表格切分规则来对其中的文本信息进行提取与合成,再通过表格判断规则进行判断,最终得到去表格图片;步骤(2)、配图检测:在前期操作中,除了排除表格的干扰,也需要对配图的位置信息进行提取,以便于后期的文本检测操作中不会受到图片的影响,通过目标检测网络CenterNet网络实现对于配图的检测,获得配图的位置信息即图片坐标信息;步骤(3)、文本检测:采用以行为区域寻找识别区域的方法;对于已经去掉了表格的图像而言,在图像中主要包含三个部分:文本行,配图和公式;首先先将去表格图片转换为灰度图,然后使用阈值反二值化方法,将图片中的文本部分的像素值置为255,背景部分置为0;然后,以7*7的核对图像进行膨胀处理,然后按照8连通要求来求取膨胀后的图的连通区域,求得连通区域的外接矩形属性,获得图像中的近似文本行,即获得近似文本行图像;对近似文本行图像进行下划线去除,对剔除下划线的文本行图像按文本框属性进行两次水平和垂直方向合并操作,得到了最终的文本框;步骤(4)、文本分割与合并:首先对提取到的文本框获取文本区域中点的轨迹,根据文本的中点轨迹来进行文本框的切分,完成对弯曲文本的切分,保证了文本框的贴合性;然后对切分后的文本进行垂直方向的合并操作,按照具有上下结构的公式文本特点进行合并,解决公式的检测问题;步骤(5)、文本识别:首先对步骤4最终得到的文本行,将带有双行公式的文本行分割成了上下两行包括中间横线的多个文本框,对其进行水平方向的合并操作保证公式的连贯性,通过文本框图像的宽高属性找到横线对应的文本框并删除,完成一个双行公式到两个单行公式的转换,然后将其位置标号并储存;对于单行公式与单行文本的分割,则采用另一种方法:首先对文本标号,然后使用中英文识别模型进行识别,根据识别结果对单行公式文本行进行遍历分割,按照遍历的方式对识别结果中的每个字符进行判断,找到中文位置、数字位置、不是中英文的位置,然后根据这些位置信息判断出中文字符位置间的非中文区域,排除掉长度小于2的单个变量的情况,统计所有的公式位置并储存,最后将所有的公式文本与中英文文本分别放入WYGIWYS模型以及CRNN模型中进行识别操作;步骤(6)、后处理:将所有的表格坐标信息,图片坐标信息,中英文文本信息与坐标信息,公式文本信息与坐标信息结合,最终得到结构化文本信息。2.根据权利要求1所述的一种结构化文本识别方法,其特征在于,步骤(1)所述的切分规则以及表格判断规则:所述的切分规则,首先分别判断每对横线与竖线之间是否相交,得到一个m*n的矩阵,m为横线个数,n为竖线个数,以此进行表格结构分析,1代表相交,0代表没有相交,所以对于矩阵中的1而言,能够计算出对应的交点坐标,同时,根据此矩阵进行表格中单元格的标记,
并储存单元格Box信息;在进行表格切分之后,还需要对表格进行判断,认定为表格有两个条件,条件一为横线与竖线必须有三条以上,条件二为左右两端线段长距离近似等于,水平线段的最大X坐标值和最小X坐标值之差,上下两端线段的距离近似等于垂直方向的最大Y坐标值和最小Y坐标值之差。3.根据权利要求2所述的一种结构化文本识别方法,其特征在于,步骤(3)所述的膨胀操作具体如下:膨胀操作采用OpenCV中的dilate方法,目的是为了将字体加粗,使一段不连通的文本行变得连通,方便后续的Box提取;第一次膨胀使用的kernel为7*7,第二次的kernel为15*1。4.根据权利要求3所述的一种结构化文本识别方法,其特征在于,步骤(3)所述的文本行中下划线去除规则具体如下:首先,根据外接矩形属性得到近似文本行长宽值,通过长宽值得到近似平均文本行高度MidianHeight,遍历所有外接矩形,筛选外接矩形的高度小于0.1*MidianHeight得到目标外接矩形,在目标外接矩形中通过LSD直线检测得到边缘线段,将这些边缘线段所在图像中的的像素点置为0,得到去除直线的图像重新使用反二值化、膨胀和求连通域方法得到去除线段的文本行。5.根据权利要求4所述的一种结构化文本识别方法,其特征在于,步骤(3)所述的合并具体如下:步骤(3)中一共经历了两次水平合并和垂直合并,第一次水平和垂直方向合并,在同一行文本行中,由于标点符号的分割导致一段文本提取连通区域时提取到了两段,所以按照Box的坐标特征将其合并为一行同时,模糊的字体会导致单行文本识别为两行,所以进行了垂直合并,首先对文本框按照X轴方向进行从小到大排序,将排序好的外接矩形框两两合并,如果前一个外接矩形框X轴的最大值和后一个外接矩形框的最小值小于0.5...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。