表格结构化信息提取方法、装置及电子设备制造方法及图纸

技术编号:29789834 阅读:17 留言:0更新日期:2021-08-24 18:08
本申请实施例公开了一种表格结构化信息提取方法、装置及电子设备,所述方法包括:提取图片中表格包含的线段、线段的位置、表格中包含的文字内容以及文字内容的位置;根据提取得到的线段、线段的位置、文字内容和文字内容的位置,将图片中的表格进行重建,得到重建后的表格;根据预先建立的表格结构解析关系,对重建后的表格进行结构化信息提取,得到与图片中的表格对应的结构化信息。本申请实施例通过表格重建和表格结构解析关系,可以将图片中的表格信息转换成结构化的信息,进而发挥其应用价值。

【技术实现步骤摘要】
表格结构化信息提取方法、装置及电子设备
本申请涉及数据处理
,具体涉及一种表格结构化信息提取方法、装置及电子设备。
技术介绍
表格作为一种有效的数据组织与展现方法被广泛应用,在日常工作中会遇到图片包含了多个表格信息的情况,且每个表格的布局可能大不相同。然而现有的数据抽取算法很难处理表格布局复杂多变的情况,无法有效的将图片中出现的表格信息转换成具有高度组织和整齐格式化的数据,因此导致图片中的表格信息无法发挥其应有的价值。
技术实现思路
由于现有方法存在上述问题,本申请实施例提供一种表格结构化信息提取方法、装置及电子设备。具体的,本申请实施例提供了以下技术方案:第一方面,本申请实施例提供一种表格结构化信息提取方法,包括:提取图片中表格包含的线段、所述线段的位置,表格中包含的文字内容以及所述文字内容的位置;根据提取得到的线段、线段的位置、文字内容和文字内容的位置,将所述图片中的表格进行重建,得到重建后的表格;根据预先建立的表格结构解析关系,对所述重建后的表格进行结构化信息提取,得到与所述图片中的表格对应的结构化信息。可选的,所述根据提取得到的线段、线段的位置、文字内容和文字内容的位置,将所述图片中的表格进行重建,得到重建后的表格,包括:根据提取得到的线段和线段的位置,重建表格结构;根据重建后的所述表格结构,以及提取得到的文字内容和文字内容的位置,还原所述表格结构中的文字内容;根据所述表格结构和还原的文字内容得到重建后的表格。可选的,根据提取得到的线段和线段的位置,重建表格结构,包括:当图片中的表格为直线表格时,提取表格中的线段和线段的位置,并根据提取得到的线段和线段的位置,重建表格结构;当图片中的表格为弯曲表格时,提取表格中的线段和线段的位置,并根据提取到的相邻线段之间的夹角和距离判断所提取得到的相邻线段是否满足合并条件,当满足合并条件时,将所提取得到的相邻线段进行合并,根据合并后的线段以及合并后的线段的位置,重建表格结构。可选的,所述根据提取到的相邻线段之间的夹角和距离判断所提取得到的相邻线段是否满足合并条件,当满足合并条件时,将所提取得到的相邻线段进行合并,包括:当提取到的相邻两条线段之间的夹角小于15°,且两条线段之间的距离小于2像素时,将所述相邻两条线段进行合并。可选的,当图片中的表格为直线表格或者弯曲表格时,所述重建表格结构,包括:根据提取得到的线段或合并后的线段与水平线的角度,将提取得到的线段或合并后的线段划分为水平线段集合和竖直线段集合;其中,所述水平线段集合中包含至少一条水平线段;所述竖直线段集合中包含至少一条竖直线段;确定所述水平线段集合中所有的水平线段与所述竖直线段集合中所有的竖直线段之间产生的交点,并根据产生的交点生成线段交点集合;根据所述水平线段集合中所有的水平线段与所述竖直线段集合中所有的竖直线段,确定表格结构的左上角位置以及表格结构的最小单元格;按照从左上到右下的行列顺序,从所述左上角位置的最小单元格开始,判断当前单元格的四个顶点是否都存在于所述线段交点集合中,若是,则确定所述当前单元格为有效单元格,同时记录所述当前单元格的起止行列索引,并继续判断下一个最小单元格的四个顶点是否都存在于所述线段交点集合中,直至所述表格结构中的所有最小单元格均被遍历。可选的,若确定当前单元格的四个顶点不都存在于所述线段交点集合中,则确定所述当前单元格为无效单元格,同时在所述当前单元格的基础上向右以列为单元逐次扩张直至确定扩张后的单元格的四个顶点均存在于所述线段交点集合中,相应地,记录扩张后的单元格的起止行列索引,并继续判断下一个最小单元格的四个顶点是否都存在于所述线段交点集合中。可选的,当以列为单元向右扩张至表格结构的最右侧时仍未确定扩张后的单元格的四个顶点均存在于所述线段交点集合中,则向下增加一行,并重新向右以列为单元逐次扩张直至确定扩张后的单元格的四个顶点均存在于所述线段交点集合中。可选的,根据所述表格结构和还原的文字内容得到重建后的表格,包括:根据提取得到的文字内容的位置,判断相应的文字内容是否包含在所述有效单元格的内部,若是,则将相应的文字内容追加到所述有效单元格内部,得到重建后的表格。可选的,所述根据预先建立的表格结构解析关系,对所述重建后的表格进行结构化信息提取,得到与所述图片中的表格对应的结构化信息,包括:根据预先建立的表格结构解析关系中包含的单元格之间的key-value解析对应关系,提取所述重建后的表格中对应单元格的文字内容,并将提取的单元格的内容按照所述key-value解析对应关系进行结构化记录。可选的,所述预先建立的表格结构解析关系中包含的单元格之间的key-value解析对应关系包括下述中的一种或多种:相邻的单元格中一个为key,另一个为value;呈列表的多个单元格中首个为key,其余均为value;以行为对象单元,每一行包含多个单元格,相邻的单元格中一个为key,另一个为value;同一个单元格中包含key和value,通过字符串进行切割;由两个单元格组成key,由两个单元格确定内容组成value;以多层单元格组成key,由多层单元格确定的内容组成value。第二方面,本专利技术实施例还提供了一种表格结构化信息提取装置,所述装置包括:第一处理模块,用于提取图片中表格包含的线段、所述线段的位置,表格中包含的文字内容以及文字内容的位置;第二处理模块,用于根据提取得到的线段、线段的位置、文字内容和文字内容的位置,将所述图片中的表格进行重建,得到重建后的表格;第三处理模块,用于根据预先建立的表格结构解析关系,对所述重建后的表格进行结构化信息提取,得到与所述图片中的表格对应的结构化信息。可选的,所述第二处理模块,具体用于:根据提取得到的线段和线段的位置,重建表格结构;根据重建后的所述表格结构,以及提取得到的文字内容和文字内容的位置,还原所述表格结构中的文字内容;根据所述表格结构和还原的文字内容得到重建后的表格。可选的,所述第二处理模块在用于执行根据提取得到的线段和线段的位置,重建表格结构时,具体用于:当图片中的表格为直线表格时,提取表格中的线段和线段的位置,并根据提取得到的线段和线段的位置,重建表格结构;当图片中的表格为弯曲表格时,提取表格中的线段和线段的位置,并根据提取到的相邻线段之间的夹角和距离判断所提取得到的相邻线段是否满足合并条件,当满足合并条件时,将所提取得到的相邻线段进行合并,根据合并后的线段以及合并后的线段的位置,重建表格结构。可选的,所述第二处理模块在用于执行根据提取到的相邻线段之间的夹角和距离判断所提取得到的相邻线段是否满足合并条件,当满足合并条件时,将所提取得到的相邻线段进行合并时,具体用于:当提取到的相邻两条线段之间的夹角本文档来自技高网...

【技术保护点】
1.一种表格结构化信息提取方法,其特征在于,包括:/n提取图片中表格包含的线段、所述线段的位置,表格中包含的文字内容以及所述文字内容的位置;/n根据提取得到的线段、线段的位置、文字内容和文字内容的位置,将所述图片中的表格进行重建,得到重建后的表格;/n根据预先建立的表格结构解析关系,对所述重建后的表格进行结构化信息提取,得到与所述图片中的表格对应的结构化信息。/n

【技术特征摘要】
1.一种表格结构化信息提取方法,其特征在于,包括:
提取图片中表格包含的线段、所述线段的位置,表格中包含的文字内容以及所述文字内容的位置;
根据提取得到的线段、线段的位置、文字内容和文字内容的位置,将所述图片中的表格进行重建,得到重建后的表格;
根据预先建立的表格结构解析关系,对所述重建后的表格进行结构化信息提取,得到与所述图片中的表格对应的结构化信息。


2.根据权利要求1所述的表格结构化信息提取方法,其特征在于,所述根据提取得到的线段、线段的位置、文字内容和文字内容的位置,将所述图片中的表格进行重建,得到重建后的表格,包括:
根据提取得到的线段和线段的位置,重建表格结构;
根据重建后的所述表格结构,以及提取得到的文字内容和文字内容的位置,还原所述表格结构中的文字内容;
根据所述表格结构和还原的文字内容得到重建后的表格。


3.根据权利要求2所述的表格结构化信息提取方法,其特征在于,根据提取得到的线段和线段的位置,重建表格结构,包括:
当图片中的表格为直线表格时,提取表格中的线段和线段的位置,并根据提取得到的线段和线段的位置,重建表格结构;
当图片中的表格为弯曲表格时,提取表格中的线段和线段的位置,并根据提取到的相邻线段之间的夹角和距离判断所提取得到的相邻线段是否满足合并条件,当满足合并条件时,将所提取得到的相邻线段进行合并,根据合并后的线段以及合并后的线段的位置,重建表格结构。


4.根据权利要求3所述的表格结构化信息提取方法,其特征在于,所述根据提取到的相邻线段之间的夹角和距离判断所提取得到的相邻线段是否满足合并条件,当满足合并条件时,将所提取得到的相邻线段进行合并,包括:
当提取到的相邻两条线段之间的夹角小于15°,且两条线段之间的距离小于2像素时,将所述相邻两条线段进行合并。


5.根据权利要求3所述的表格结构化信息提取方法,其特征在于,当图片中的表格为直线表格或者弯曲表格时,所述重建表格结构,包括:
根据提取得到的线段或合并后的线段与水平线的角度,将提取得到的线段或合并后的线段划分为水平线段集合和竖直线段集合;其中,所述水平线段集合中包含至少一条水平线段;所述竖直线段集合中包含至少一条竖直线段;
确定所述水平线段集合中所有的水平线段与所述...

【专利技术属性】
技术研发人员:李壮
申请(专利权)人:北京房江湖科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1