图像中表格信息的识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号：21060812 阅读：49 留言：0更新日期：2019-05-08 07:19

本发明专利技术实施例提供了一种图像中表格信息的识别方法、装置、电子设备及存储介质，所述方法包括：接收具有表格的目标图像；从目标图像中确定包含表格的表格图像；对表格图像进行文本行检测，确定表格图像中文本行的位置；根据文本行的位置对表格图像进行识别，得到表格图像的表格信息，其中，所述表格信息包括文字信息及表格结构信息。由于识别得到的表格信息包括文字信息及表格结构信息，而不仅仅是表格中的文字内容，因此提高了图像中的表格识别结果的多样性，利用后续进行表格恢复等进一步处理。

Recognition Method, Device, Electronic Equipment and Storage Medium of Table Information in Image

全部详细技术资料下载

【技术实现步骤摘要】
图像中表格信息的识别方法、装置、电子设备及存储介质
本专利技术涉及图像处理
，特别是涉及一种图像中表格信息的识别方法、装置、电子设备及存储介质。
技术介绍
在图像处理领域有一种图像是包括表格的图像，为了获得图像中的表格的内容，需要对包括表格的图像进行识别。目前对图像中表格的识别过程一般为：首先提取图像中的水平线和垂直线，若无水平线和垂直线，则判定区域内没有表格；若有水平线和垂直线，则采用区域生长方法来确定图像中表格的位置，进而根据图像中表格的位置，对图像中表格进行文本识别，获得图像中的表格中的文字内容。在上述图像中表格的识别过程中，得到的识别结果仅为表格中的文字内容，信息较少，非常不利于后续对表格进行恢复等进一步处理。
技术实现思路
本专利技术实施例的目的在于提供一种图像中表格信息的识别方法、装置、电子设备及存储介质，以提高图像中的表格识别结果的多样性，利用后续进行进一步处理。具体技术方案如下：第一方面，本专利技术实施例提供了一种图像中表格信息的识别方法，所述方法包括：接收具有表格的目标图像；从所述目标图像中确定包含表格的表格图像；对所述表格图像进行文本行检测，...

【技术保护点】
1.一种图像中表格信息的识别方法，其特征在于，所述方法包括：接收具有表格的目标图像；从所述目标图像中确定包含表格的表格图像；对所述表格图像进行文本行检测，确定所述表格图像中文本行的位置；根据所述文本行的位置对所述表格图像进行识别，得到所述表格图像的表格信息，其中，所述表格信息包括文字信息及表格结构信息。

【技术特征摘要】
1.一种图像中表格信息的识别方法，其特征在于，所述方法包括：接收具有表格的目标图像；从所述目标图像中确定包含表格的表格图像；对所述表格图像进行文本行检测，确定所述表格图像中文本行的位置；根据所述文本行的位置对所述表格图像进行识别，得到所述表格图像的表格信息，其中，所述表格信息包括文字信息及表格结构信息。2.如权利要求1所述的方法，其特征在于，在所述根据所述文本行的位置对所述表格图像进行识别，得到所述表格图像的表格信息的步骤之前，所述方法还包括：去除所述表格图像的所有表格线；所述根据所述文本行的位置对所述表格图像进行识别，得到所述表格图像的表格信息的步骤，包括：根据所述文本行的位置，从去除表格线后的表格图像中分割出文本图像；对所述分割出的文本图像进行识别，得到所述表格图像的文字信息；确定所述表格图像的表格线是否完整；如果所述表格图像的表格线不完整，将所述表格图像的表格线补全；对表格线完整的表格图像进行表格识别，得到所述表格图像的表格结构信息。3.如权利要求2所述的方法，其特征在于，所述确定所述表格图像的表格线是否完整的步骤，包括：基于所述表格图像中文本行的位置，去除所述表格图像中的字符；确定去除字符后的表格图像中交点数量及封闭单元格的数量；根据所述表格线的交点数量确定所述表格的单元格数量；判断所述封闭单元格的数量与所述单元格数量是否相等；如果所述封闭单元格的数量与所述单元格数量相等，确定所述表格图像的表格线完整；如果所述封闭单元格的数量与所述单元格数量不相等，确定所述表格图像的表格线不完整。4.如权利要求3所述的方法，其特征在于，所述确定去除字符后的表格图像中交点数量及封闭单元格的数量的步骤，包括：将所述去除字符后的表格图像进行二值化处理并对像素值进行取反处理，得到中间图像；对所述中间图像进行腐蚀处理，得到腐蚀图像；对所述腐蚀图像进行膨胀处理，得到膨胀图像；对所述膨胀图像进行横向及纵向表格线分开处理，得到横线图像及竖线图像；对所述横线图像及所述竖线图像进行取并集处理，得到表格线图像；对所述横线图像及所述竖线图像进行取交集处理，得到交点图像；根据所述交点图像，确定去除字符后的表格图像中交点数量；根据所述表格线图像，确定去除字符后的表格图像中封闭单元格的数量。5.如权利要求2所述的方法，其特征在于，所述对所述分割出的文本图像进行识别，得到所述表格的文字信息的步骤，包括：对所述分割出的文本图像进行文字识别，得到所述表格图像的文字识别结果；对所述文字识别结果进行语义分析，得到各文本行对应的语义；根据所述各文本行对应的语义，对所述文字识别结果进行分类，得到每个文字识别结果对应的类别；根据所述文字识别结果对应的类别，对所述文字识别结果进行存储，得到所述表格图像的文字信息。6.如权利要求1-5任一项所述的方法，其特征在于，所述从所述目标图像中确定包含表格的表格图像的步骤，包括：将所述目标图像输入预先训练完成的深度学习模型，得到所述目标图像中表格的目标位置；根据所述目标位置，判断所述目标位置对应的表格区域是否扭曲；如果是，对所述表格区域进行仿射变换处理，得到所述目标图像对应的表格图像。7.一种图像中表格信息的识别装置，其特征在于，所述装置包括：目标图像接收模块，用于接收具有表格的目标图像；表格图像确定模块，用于从所述目标图像中确定包含表格的表格图像；文本行位置确定模块，用于对所述表格图像进行文本行检测，确定所述表格图像中文本行的位置；信息识别模块，用于根据所述文本行的位置对所述表格图像进行识别，得到所述表格图像的表格信息，其中，所述表格信息包括文字信息及表格结构信息。8.如权利要求7所述的装置，其特征在...

【专利技术属性】
技术研发人员：郑磊波，王洪伟，刘天悦，
申请(专利权)人：北京金山数字娱乐科技有限公司，成都金山互动娱乐科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人