表格识别方法、装置、电子设备和可读存储介质制造方法及图纸

技术编号:32007949 阅读:31 留言:0更新日期:2022-01-22 18:24
本发明专利技术提出了一种表格识别方法、装置、电子设备和可读存储介质。其中,表格识别方法包括:获取第一表格图像;识别第一表格图像中的背景特征和表格特征;根据背景特征和表格特征对第一表格图像进行矫正,以得到第二表格图像;提取第二表格图像中待识别表格的单元格信息和文本信息;根据单元格信息和文本信息生成目标表格。本发明专利技术在对图像中的表格进行识别之前,先对图像进行初步处理,去除图像中可能影响表格识别准确性的图像特征,并且对图像中的表格的位置进行调节,从而在开始识别图像中的表格之前先对图像进行更新处理,由于更新后的图像中不存在各种干扰信息,因此对更新的图像进行表格识别,能够提高表格识别的准确性。能够提高表格识别的准确性。能够提高表格识别的准确性。

【技术实现步骤摘要】
表格识别方法、装置、电子设备和可读存储介质


[0001]本专利技术属于图像识别
,具体而言,涉及一种表格识别方法、装置、电子设备和可读存储介质。

技术介绍

[0002]在企业的日常运作时,工作人员在其工作的各种环节需要提交各种不同样式不同内容的表格,相关技术中均是通过人工对各种表格进行审核,容易出现审核错误,影响工作的效率,增加了人力成本。为了节省人力,出现了对图像中表格进行识别的方案。
[0003]现有的表格识别均是利用分割网络检测表格边框位置,忽略了图像背景中各种信息的干扰,导致表格识别准确性差。

技术实现思路

[0004]本专利技术旨在解决现有技术或相关技术中存在的技术问题之一。
[0005]为此,本专利技术的第一方面提出了一种表格识别方法。
[0006]本专利技术的第二方面提出了一种表格识别装置。
[0007]本专利技术的第三方面提出了一种电子设备。
[0008]本专利技术的第四方面提出了一种可读存储介质。
[0009]有鉴于此,根据本专利技术的第一方面提出一种表格识别方法,包括:获取第一表格图像;识别第一表格图像中的背景特征和表格特征;根据背景特征和表格特征对第一表格图像进行矫正,以得到第二表格图像;提取第二表格图像中待识别表格的单元格信息和文本信息;根据单元格信息和文本信息生成目标表格。
[0010]本专利技术提供的表格识别方法用于电子设备对带有表格的图像中的表格进行识别。电子设备获取第一表格图像,第一表格图像中包括待识别表格,电子设备分别对第一表格图像中的背景特征进行和表格特征进行识别,其中,背景特征包括但不限于印章图案、背景水印对应的图像特征,表格特征为带有表格的图像特征,背景特征中的部分特征在识别图像中表格之前需要去除,从而提高识别得到的单元格信息和文本信息的准确性。根据提取得到的背景特征和表格特征对第一表格图像进行处理,生成第二表格图像。第二表格图像为对第一表格图像矫正后的待处理图像,第二表格图像中包括待识别的表格,并且第二表格图像中不存在印章图案和背景水印等可能影响对表格识别的图像特征。利用图像处理模型对第二表格图像中单元格信息和文本信息进行识别,并根据识别到的单元格信息和文本信息生成最终的目标表格。本专利技术在对图像中的表格进行识别之前,先对图像进行初步处理,去除图像中可能影响表格识别准确性的图像特征,并且对图像中的表格的位置进行调节,从而在开始识别图像中的表格之前先对图像进行更新处理,由于更新后的图像中不存在各种干扰信息,因此对更新的图像进行表格识别,能够提高表格识别的准确性。
[0011]具体来说,电子设备包括图像采集装置,如摄像头,电子设备通过摄像头采集第一表格图像,在采集过程中需要保证采集到的第一表格图像中包括完整的表格。通过目标检
测网络提取第一表格图像中每个表格特征的位置信息,对表格特征进行初步定位,通过图像处理对第一表格图像中的表格特征进行位置调整,例如旋转表格特征、平移表格特征等。并通过神经网络检测背景特征,将第一表格图像中的背景特征去除,从而得到第二表格图像。通过UNet(神经网络)检测第二表格图像中表格的单元格,以得到单元格信息,单元格信息包括单元格的位置信息,并对单元格中的文本信息进行检测,以得到文本信息。将单元格信息和文本信息与数据库中预存的表格信息进行比对,并根据预存的表格信息将单元格信息和文本信息按照设定格式生成目标表格。
[0012]另外,根据本专利技术提供的上述技术方案中的表格识别方法,还可以具有如下附加技术特征:
[0013]在一种可能的设计中,根据背景特征和表格特征对第一表格图像进行矫正,以得到第二表格图像,包括:根据表格特征,确定第一表格图像中的待处理表格的第一位置信息;根据第一位置信息,调整第一表格图像中待处理表格的位置,以得到第三表格图像;识别背景特征中的待处理特征;去除第三表格图像中的待处理特征,以得到第二表格图像。
[0014]在该设计中,根据识别到的表格特征,能够确定待处理表格在第一表格图像中的第一位置信息。根据第一位置信息对待处理表格的位置进行调整,使待处理表格位于第一表格图像的中部位置,并使待处理表格平铺与整个第一表格图像中,从而得到调整后的第三表格图像。筛选背景特征中需要去除的待处理特征,将第三表格图像中的待处理特征去除,从而得到第二表格图像。通过先对第一表格图像中的待处理表格的位置进行确定和调整,能够提高后续对图像中表格的识别成功率。由于在提取背景特征中可能存在将部分文本或单元格的相关特征一同提取出来,故通过检测模型对背景特征中的待处理特征进行二次提取,进一步提高了去除特征的准确性,避免将图像中的表格特征或文本特征也进行去除操作,从而进一步提高了后续对图像中表格的识别成功率。
[0015]值得说明的是,通过CenterNet(目标检测网络)模型通过深层的卷积神经网络,提取图像中的各种特征,然后利用卷积网络得到第一表格图像中的热力图,从热力图中找到待处理表格的中心位置。最后通过图像中的表格特征得到待检测表格的宽度和高度,从而确定每个表格的位置信息,即第一位置信息。
[0016]在一种可能的设计中,去除第三表格图像中的待处理特征,包括:获取待处理特征的第二位置信息;根据第二位置信息,提取第三表格图像中的第一待处理图像,第一待处理图像中包括待处理特征;去除待处理图像中的第一待处理特征,以得到第二待处理图像;根据第二待处理图像对第三表格图像进行更新,以得到第二表格图像。
[0017]在该设计中,第三表格图像中包括待处理特征,待处理特征会影响对表格内容的检测识别,故需要去除待处理特征。在去除第三表格图像中待处理特征的过程中,首先检测待处理特征在第三表格图像中的第二位置信息,第二位置信息能够准确反应待处理特征在整个图像中的具体位置。根据第二位置信息截取第三表格图像中的包括待处理特征的部分图像,作为第一待处理图像,并去除第一待处理图像中的待处理特征,从而得到第二待处理图像,第二待处理图像与第一待处理图像相对应,且第二待处理图像中的待处理特征已被去除,故将第三表格图像中的第一待处理图像替换为第二待处理图像,实现了去除第三表格图像中待处理特征的效果。
[0018]值得说明的是,待处理特征包括印章图案,在去除待处理特征时可能会对表格特
征产生影响,例如去除掉表格中的边框或文本,为减少去除待处理特征过程对图像中表格特征的影响,故通过CenterNet检测到待处理特征在第三表格图像中的具体位置。然后截取带有印章图像的第一待处理图像,将第一待处理图像输入到UNet中,经过编码解码过程输出去除印章后的第二待处理图像。
[0019]在一种可能的设计中,提取第二表格图像中待识别表格的单元格信息,包括:检测第二表格图像中待识别表格中直线的第一坐标信息;根据第一坐标信息,确定待识别表格中单元格的第二坐标信息;根据第二坐标信息确定单元格信息。
[0020]在该设计中,单元格信息中包括单元格的位置信息,即单元格在第二表格图像中的坐标信息。在识别单元格信息的过程中,首先检测第二表本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种表格识别方法,其特征在于,包括:获取第一表格图像;识别所述第一表格图像中的背景特征和表格特征;根据所述背景特征和所述表格特征对所述第一表格图像进行矫正,以得到第二表格图像;提取所述第二表格图像中待识别表格的单元格信息和文本信息;根据所述单元格信息和所述文本信息生成目标表格。2.根据权利要求1所述的表格识别方法,其特征在于,所述根据所述背景特征和所述表格特征对所述第一表格图像进行矫正,以得到第二表格图像,包括:根据所述表格特征,确定所述第一表格图像中的待处理表格的第一位置信息;根据所述第一位置信息,调整所述第一表格图像中所述待处理表格的位置,以得到第三表格图像;识别所述背景特征中的待处理特征;去除所述第三表格图像中的所述待处理特征,以得到所述第二表格图像。3.根据权利要求2所述的表格识别方法,其特征在于,所述去除所述第三表格图像中的所述待处理特征,包括:获取所述待处理特征的第二位置信息;根据所述第二位置信息,提取所述第三表格图像中的第一待处理图像,所述第一待处理图像中包括所述待处理特征;去除所述待处理图像中的第一待处理特征,以得到第二待处理图像;根据所述第二待处理图像对所述第三表格图像进行更新,以得到所述第二表格图像。4.根据权利要求1至3中任一项所述的表格识别方法,其特征在于,所述提取所述第二表格图像中待识别表格的单元格信息,包括:检测所述第二表格图像中待识别表格中直线的第一坐标信息;根据所述第一坐标信息,确定所述待识别表格中单元格的第二坐标信息;根据所述第二坐标信息确定所述单元格信息。5.根据权利要求1至3中任一项所述的表格识别方法,其特征在于,所述提取所述第二表格图像...

【专利技术属性】
技术研发人员:庞博
申请(专利权)人:深圳中兴网信科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1