基于语义分割的表格重建方法、装置、设备及存储介质制造方法及图纸

技术编号:29099383 阅读:17 留言:0更新日期:2021-06-30 10:11
本申请涉及人工智能领域,具体公开了一种基于语义分割的表格重建方法、装置、设备及存储介质。该方法包括:获取待重建图像,所述待重建图像中存在待重建表格;对所述待重建图像进行语义分割,得到多个掩码图,其中,所述多个掩码图与多个预设分割类别一一对应,所述多个掩码图中的每个掩码图用于表示所述待重建图像中的各个像素点属于与所述每个掩码图对应的预设分割类别的概率;根据所述多个掩码图构建待重建表格;从所述待重建图像中提取与所述待重建表格对应的文字内容;将所述文字内容填入所述待重建表格,得到重建好的表格。本申请实施例有利于提高表格重建的精度。施例有利于提高表格重建的精度。施例有利于提高表格重建的精度。

【技术实现步骤摘要】
基于语义分割的表格重建方法、装置、设备及存储介质


[0001]本申请涉及人工智能
,具体涉及一种基于语义分割的表格重建方法、装置、设备及存储介质。

技术介绍

[0002]表格作为一种有效的数据组织与展现方法被广泛应用,也成为各类文档中常见的页面对象。表格通常以结构化的方式展示基本信息,因而表格检测和识别是诸多文件分析应用中的一项重要任务。而且,随着文档数目的爆炸性增长,如何高效地从文档中找到表格并获取内容与结构信息即表格识别,成为了一个亟待解决的问题。
[0003]目前,对于图像中的表格的检测与重建大多通过边缘检测的方式来实现,即通过边缘检测技术识别出表格的边界,基于表格的边界重建表格。但是,实际应用中有些图像可能会存在变形,甚至有些表格没有明显的边界,这都给边缘检测带来巨大的挑战,导致重建出的表格精度低。

技术实现思路

[0004]本申请实施例提供了一种基于语义分割的表格重建方法、装置、设备及存储介质。通过语义分割的方式,提高表格的重建精度。
[0005]第一方面,本申请实施例提供一种基于语义分割的表格重建方法,包括:
[0006]获取待重建图像,所述待重建图像中存在待重建表格;
[0007]对所述待重建图像进行语义分割,得到多个掩码图,其中,所述多个掩码图与多个预设分割类别一一对应,所述多个掩码图中的每个掩码图用于表示所述待重建图像中的各个像素点属于与所述每个掩码图对应的预设分割类别的概率;
[0008]根据所述多个掩码图构建待重建表格;
[0009]从所述待重建图像中提取与所述待重建表格对应的文字内容;
[0010]将所述文字内容填入所述待重建表格,得到重建好的表格。
[0011]第二方面,本申请实施例提供一种表格重建装置,包括:
[0012]获取单元,用于获取待重建图像,所述待重建图像中存在待重建表格;
[0013]处理单元,用于对所述待重建图像进行语义分割,得到多个掩码图,其中,所述多个掩码图与多个预设分割类别一一对应,所述多个掩码图中的每个掩码图用于表示所述待重建图像中的各个像素点属于与所述每个掩码图对应的预设分割类别的概率;
[0014]根据所述多个掩码图构建待重建表格;
[0015]从所述待重建图像中提取与所述待重建表格对应的文字内容;
[0016]将所述文字内容填入所述待重建表格,得到重建好的表格。
[0017]第三方面,本申请实施例提供一种电子设备,包括:处理器,所述处理器与存储器相连,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器中存储的计算机程序,以使得所述电子设备执行如第一方面所述的方法。
[0018]第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序使得计算机执行如第一方面所述的方法。
[0019]第五方面,本申请实施例提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机可操作来使计算机执行如第一方面所述的方法。
[0020]实施本申请实施例,具有如下有益效果:
[0021]可以看出,在本申请实施例中,获取包含有待重建表格的待重建图像,然后,对该待重建图像中的每个像素点进行语义分割,得到多个掩码图,根据该多个掩码图可以得到每个像素点属于各个预设分割类别的概率,进而可以根据每个像素点属于各个预设分割类别的概率确定出属于该待重建图像中属于表格的像素点;然后,可以根据属于表格线的像素点重建出表格,即实现通过语义分割重建表格,由于语义分割是从像素点的在图像中的本质出发,只要是表格上的像素点(无论是显性的还是隐性的)均可以被检测出来,进而提高了表格重建的精度。而且,还可以从待重建图像中将文字内容提取出来,并填入表格,得到可以和图像中一模一样的表格,无需用户在重建后的表格中手动输入文字内容,提高了用户体验。
附图说明
[0022]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0023]图1为本申请实施例提供的一种基于语义分割的表格重建方法的流程示意图;
[0024]图2为本申请实施例提供的一种对像素点进行sigmoid激活处理的示意图;
[0025]图3为本申请实施例提供的一种图像校正前后的示意图;
[0026]图4为本申请实施例提供的一种直线段合并的示意图;
[0027]图5为本申请实施例提供的一种表格重建装置的功能单元组成框图;
[0028]图6为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
[0029]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0030]本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0031]在本文中提及“实施例”意味着,结合实施例描述的特定特征、结果或特性可以包
含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0032]参阅图1,图1为本申请实施例提供的一种基于语义分割的表格重建方法的流程示意图。该方法应用于表格重建装置。该方法包括以下步骤:
[0033]101:表格重建装置获取待重建图像,所述待重建图像中存在待重建表格。
[0034]示例性的,该待重建图像可以由用户输入到该表格重建装置,或者,由该表格重建装置自动从图像库中读取的,等等。本申请不限定待重建图像的获取方式。
[0035]102:表格重建装置对所述待重建图像进行语义分割,得到多个掩码图,其中,所述多个掩码图与多个预设分割类别一一对应,所述多个掩码图中的每个掩码图用于表示所述待重建图像中的各个像素点属于与所述每个掩码图对应的预设分割类别的概率。
[0036]其中,基于表格的结构,该多个预设分割类别可以为横线、竖线、不可见横线以及不可见竖线。因此,若该多个掩码图中的某个掩码图对应的预设分割类别为横线,则该掩码图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语义分割的表格重建方法,其特征在于,包括:获取待重建图像,所述待重建图像中存在待重建表格;对所述待重建图像进行语义分割,得到多个掩码图,其中,所述多个掩码图与多个预设分割类别一一对应,所述多个掩码图中的每个掩码图用于表示所述待重建图像中的各个像素点属于与所述每个掩码图对应的预设分割类别的概率;根据所述多个掩码图构建待重建表格;从所述待重建图像中提取与所述待重建表格对应的文字内容;将所述文字内容填入所述待重建表格,得到重建好的表格。2.根据权利要求1所述的方法,其特征在于,所述对所述待重建图像进行语义分割,得到多个掩码图,包括:对所述待重建图像进行特征提取,得到多个第一特征图;对所述多个第一特征图进行卷积处理,得到多个第一语义分割结果,其中,所述多个第一语义分割结果与所述多个预设分割类别一一对应;将所述待重建图像中每个像素点分别在所述多个第一语义分割结果中的取值进行sigmoid激活处理,得到所述多个掩码图,其中,所述多个第一语义分割结果与所述多个掩码图一一对应。3.根据权利要求1或2所述的方法,其特征在于,所述根据所述多个掩码图构建待重建表格,包括:对所述多个掩码图中的每个掩码图进行二值化处理,得到多个二值图;针对所述多个二值图中的每个二值图,确定所述每个二值图中的目标像素点组成的M个连通域,其中,所述目标像素点为所述每个二值图像素值为1的像素点;将所述每个二值图中的M个连通域中的每个连通域进行直线拟合,得到与所述每个二值图对应的N条第一直线段;对所述每个连通域对应的第一直线段进行合并,得到与所述每个二值图对应的目标直线段;根据所述多个二值图中的每个二值图对应的目标直线段,构建待重建表格。4.根据权利要求3所述的方法,其特征在于,所述将所述每个二值图中的M个连通域中的每个连通域进行直线拟合,得到与所述每个连通域对应的第一直线段,包括:对所述每个二值图中的M个连通域中的每个连通域进行直线拟合,得到M条第二直线段,其中,所述M条第二直线段与所述M个连通域一一对应;确定所述M条第二直线段中的每条第二直线段在图像坐标下与X轴的夹角,所述X轴为图像坐标系下的X轴;根据所述M条第二直线段中的每条第二直线段与X轴的夹角,从所述M条第二直线段中选取K条第二直线段,其中,所述K条第二直线段中的每条第二直线段与所述X轴的夹角小于与所述每个二值图对应的预设分割类别对应的第一阈值或者大于第二阈值,K小于或等于M;确定所述K条第二直线段与所述X轴的夹角的均值和标准差,并确定所述K条第二直线段中的每条第二直线段与所述X轴的夹角与所述均值之间的差值;根据所述K条第二直线段中的每条第二直线段对应的差值,以及目标阈值,从所述K条
第二直线段中选取出N条第二直线段,并将所述N条第二直线段作为与所述每个连通域对应的N条第一直线段,其中,所述N条第二直线段中的每条第二直线段对应的差值小于所述目标阈值,所述目标阈值是根据...

【专利技术属性】
技术研发人员:朱锦祥臧磊
申请(专利权)人:深圳壹账通智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1