一种处理表格图片中框选文字的方法及装置制造方法及图纸

技术编号:20546561 阅读:44 留言:0更新日期:2019-03-09 19:28
本发明专利技术提供一种处理表格图片中框选文字的方法,包括:去除表格图片中的干扰识别项;利用联合训练模型,在表格图片中圈选出字条,获取字条在表格图片中的字条位置坐标、并识别出与字条相对应的文字内容;利用表格特性对字条、字条位置坐标与文字内容进行表格还原。实施上述方法的装置,包括:用于去除表格图片中干扰识别项的预处理模块;利用联合训练模型,在表格图片中圈选出字条,获取字条在表格图片中的字条位置坐标、并识别出与字条相对应的文字内容的识别模块;利用表格特性对字条、字条位置坐标与文字内容进行表格还原的表格还原模块。本发明专利技术可以提升表格图片中文字识别和还原准确率。

A Method and Device for Processing Box Selection Text in Form Pictures

The invention provides a method for processing frame-selected characters in table pictures, which includes: removing interference recognition items in table pictures; using joint training model, circle-selected words in table pictures, obtaining position coordinates of words in table pictures, and identifying text content corresponding to words; and using table characteristics, entering words, position coordinates of words and text content. Row table restore. The device for implementing the above-mentioned method includes: a preprocessing module for removing interference recognition items in table pictures; a recognition module for obtaining the position coordinates of the bars in table pictures and identifying the corresponding text content of the bars by using the joint training model; and a recognition module for entering the bars, position coordinates of the bars and text content by using table characteristics. Table Restore Module for row table restore. The invention can improve the accuracy of character recognition and restoration in table pictures.

【技术实现步骤摘要】
一种处理表格图片中框选文字的方法及装置
本专利技术涉及一种表格处理方法,尤其是一种处理表格图片中框选文字的方法及装置。
技术介绍
在OCR识别领域中,对于类似A4纸的大段文字识别的准确率较高。但针对于表格的识别,目前业界准确率都不是很高。因为原有的切字识别的方式会造成难以进行版面还原,且无法利用表格中的信息。
技术实现思路
针对上述问题中存在的不足之处,本专利技术提供一种可以提升表格图片中文字识别和还原准确率的一种处理表格图片中框选文字的方法及装置。为实现上述目的,本专利技术提供一种处理表格图片中框选文字的方法,包括以下步骤:步骤1、以去除表格图片中的干扰识别项;步骤2、利用联合训练模型,在表格图片中圈选出字条,获取字条在表格图片中的字条位置坐标、并识别出与字条相对应的文字内容;步骤3、利用表格特性对字条、字条位置坐标与文字内容进行表格还原。上述的一种处理表格图片中框选文字的方法,其中,在步骤1中,对表格图片进行预处理,以去除表格图片中的干扰识别项,对表格图片进行的预处理包括图片角度纠偏操作、或水印印章去除操作。上述的一种处理表格图片中框选文字的方法,其中,在步骤2中,包括以下子步骤:步骤21、对去除干扰识别项的表格图片进行RGB三通道处理,以形成至少两个表格图片层;步骤22、通过卷积变换对每个表格图片层进行特征提取;步骤23、在第一表格图片层中,预测出字条在第一表格图片层中的字条位置坐标;步骤24、在第二表格图片层中,通过图像信息和应用语言模型得到与字条相对应的文字内容。上述的一种处理表格图片中框选文字的方法,其中,在步骤23中,字条位置坐标包括左上坐标(x0,y0)、右上坐标(x1,y1)、右下坐标(x2,y2)、左下坐标(x3,y3)。上述的一种处理表格图片中框选文字的方法,其中,在步骤3中,根据字条位置坐标进行表格行与表格列的切分,将文字内容导入字条位置中,根据语义判断进行单元格的结合,以完成整体表格的还原。上述的一种处理表格图片中框选文字的方法,其中,还包括步骤4、呈现还原后的表格。本专利技术还提供一种处理表格图片中框选文字的装置,包括:预处理模块、识别模块与表格还原模块;预处理模块,用于去除表格图片中的干扰识别项;识别模块,利用联合训练模型,在表格图片中圈选出字条,获取字条在表格图片中的字条位置坐标、并识别出与字条相对应的文字内容;表格还原模块,利用表格特性对字条、字条位置坐标与文字内容进行表格还原。上述的装置,其中,所述预处理模块对表格图片进行的预处理包括图片角度纠偏操作、或水印印章去除操作。上述的装置,其中,所述识别模块的实施步骤如下:对表格图片进行RGB三通道处理,以形成至少两个表格图片层;通过卷积变换对每个表格图片层进行特征提取;在第一表格图片层中,预测出字条在第一表格图片层中的字条位置坐标;在第二表格图片层中,通过图像信息和应用语言模型得到与字条相对应的文字内容。上述的装置,其中,所述表格还原模块根据字条位置坐标进行表格行与表格列的切分,将文字内容导入字条位置中,根据语义判断进行单元格的结合,以完成整体表格的还原。与现有技术相比,本专利技术具有以下优点:通过基于表格的文字框选和识别进行联合训练深度学习模型,使框选和识别两个任务可以公共表格的图像信息,使最终表格文字识别更加准确,且不丢失表格本身的版面信息,提升表格版面还原的准确率。附图说明图1为本专利技术中方法部分的流程图;图2为本专利技术中装置部分的结构框图。主要附图标记说明如下:1-预处理模块;2-识别模块;3-表格还原模块;4-呈现模块具体实施方式如图1所示,本专利技术提供一种处理表格图片中框选文字的方法,包括以下步骤:步骤1、去除表格图片中的干扰识别项。在步骤1中,对表格图片进行预处理,以去除表格图片中的干扰识别项,对表格图片进行的预处理包括图片角度纠偏操作、或水印印章去除操作。步骤2、利用联合训练模型,在表格图片中圈选出字条,获取字条在表格图片中的字条位置坐标、并识别出与字条相对应的文字内容。在步骤2中,包括以下子步骤:步骤21、对去除干扰识别项的表格图片进行RGB三通道处理,以形成至少两个表格图片层;步骤22、通过卷积变换对每个表格图片层进行特征提取;步骤23、在第一表格图片层中,预测出字条在第一表格图片层中的字条位置坐标;其中,字条位置坐标包括左上坐标(x0,y0)、右上坐标(x1,y1)、右下坐标(x2,y2)、左下坐标(x3,y3)。步骤24、在第二表格图片层中,通过图像信息和应用语言模型得到与字条相对应的文字内容。步骤3、利用表格特性对字条、字条位置坐标与文字内容进行表格还原。在步骤3中,根据字条位置坐标进行表格行与表格列的切分,将文字内容导入字条位置中,根据语义判断进行单元格的结合,以完成整体表格的还原。步骤4、呈现还原后的表格。联合训练模型的训练过程如下:1.针对不同字体、不同表格类型,生成出表格,且附上字条、文字的对应信息;2.对已生成的表格添加噪声,保证模型的健壮性;3.将样本送到联合训练模型中训练;4.得到训练后的模型用于OCR识别。如图2所示,本专利技术提供一种处理表格图片中框选文字的装置,包括:预处理模块1、识别模块2与表格还原模块3。预处理模块1,用于去除表格图片中的干扰识别项。预处理模块对表格图片进行预处理,以去除表格图片中的干扰识别项,对表格图片进行的预处理包括图片角度纠偏操作、或水印印章去除操作。识别模块2,利用联合训练模型,在表格图片中圈选出字条,获取字条在表格图片中的字条位置坐标、并识别出与字条相对应的文字内容。识别模块的实施步骤如下:对去除干扰识别项的表格图片进行RGB三通道处理,以形成至少两个表格图片层;通过卷积变换对每个表格图片层进行特征提取;在第一表格图片层中,预测出字条在第一表格图片层中的字条位置坐标;在第二表格图片层中,通过图像信息和应用语言模型得到与字条相对应的文字内容。其中,字条位置坐标包括左上坐标(x0,y0)、右上坐标(x1,y1)、右下坐标(x2,y2)、左下坐标(x3,y3)。表格还原模块3,利用表格特性对字条、字条位置坐标与文字内容进行表格还原。其中,表格还原模块根据字条位置坐标进行表格行与表格列的切分,将文字内容导入字条位置中,根据语义判断进行单元格的结合,以完成整体表格的还原。还包括呈现模块4,用于呈现还原后的表格。整体的联合训练模型基于深度学习的CTPN模型,同时在CTPN模型之上创造性的接入CTC和识别字条周围的特征,使识别过程可以利用表格特性,大幅提升准确性。以上所述仅为本专利技术的较佳实施例,对专利技术而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在专利技术权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效,但都将落入本专利技术的保护范围内。本文档来自技高网...

【技术保护点】
1.一种处理表格图片中框选文字的方法,包括以下步骤:步骤1、以去除表格图片中的干扰识别项;步骤2、利用联合训练模型,在表格图片中圈选出字条,获取字条在表格图片中的字条位置坐标、并识别出与字条相对应的文字内容;步骤3、利用表格特性对字条、字条位置坐标与文字内容进行表格还原。

【技术特征摘要】
1.一种处理表格图片中框选文字的方法,包括以下步骤:步骤1、以去除表格图片中的干扰识别项;步骤2、利用联合训练模型,在表格图片中圈选出字条,获取字条在表格图片中的字条位置坐标、并识别出与字条相对应的文字内容;步骤3、利用表格特性对字条、字条位置坐标与文字内容进行表格还原。2.根据权利要求1所述的一种处理表格图片中框选文字的方法,其特征在于,在步骤1中,对表格图片进行预处理,以去除表格图片中的干扰识别项,对表格图片进行的预处理包括图片角度纠偏操作、或水印印章去除操作。3.根据权利要求1所述的一种处理表格图片中框选文字的方法,其特征在于,在步骤2中,包括以下子步骤:步骤21、对去除干扰识别项的表格图片进行RGB三通道处理,以形成至少两个表格图片层;步骤22、通过卷积变换对每个表格图片层进行特征提取;步骤23、在第一表格图片层中,预测出字条在第一表格图片层中的字条位置坐标;步骤24、在第二表格图片层中,通过图像信息和应用语言模型得到与字条相对应的文字内容。4.根据权利要求3所述的一种处理表格图片中框选文字的方法,其特征在于,在步骤23中,字条位置坐标包括左上坐标(x0,y0)、右上坐标(x1,y1)、右下坐标(x2,y2)、左下坐标(x3,y3)。5.根据权利要求1所述的一种处理表格图片中框选文字的方法,其特征在于,在步骤3中,根据字条位置坐标进行表格...

【专利技术属性】
技术研发人员:李鹏辉竺晨曦邱锡鹏
申请(专利权)人:上海犀语科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1