基于富文本格式文档的表格提取方法、装置、设备和介质制造方法及图纸

技术编号:22722974 阅读:10 留言:0更新日期:2019-12-04 05:43
本发明专利技术公开了基于富文本格式文档的表格提取方法、装置、设备和介质。所述方法包括:获取页面内容;通过预设表格检测模型,对页面内容进行表格检测处理,得到表格标签列表,以及得到第一表格内容;依据预设画贯穿线模型,对第一表格内容进行画贯穿线处理,得到惯穿线标签列表,以及得到第二表格内容;基于预设单元表格合并模型,对第二表格内容进行表格单元合并处理,得到短线标签列表,以及得到显性表格内容。根据本发明专利技术实施例提供的方案,通过预先训练出预设表格检测模型、预设画贯穿线模型和预设单元表格合并模型的这3个模型,可以将隐性表格内容提出出来,以得到显性表格内容。

Methods, devices, devices and media of table extraction based on rich text documents

The invention discloses a table extraction method, device, device and medium based on a rich text format document. The method comprises the following steps: obtaining page content; performing table detection processing on page content through preset table detection model, obtaining table label list and the first table content; drawing through line model according to preset, drawing through line processing on the first table content, obtaining inertial through line label list and obtaining the second table content; combining tables based on preset unit And the model, the second table content of the table cell merge processing, get short-term label list, as well as the explicit table content. According to the scheme provided by the embodiment of the invention, the implicit table content can be proposed to obtain the explicit table content by pre training the three models of the preset table detection model, the preset drawing through line model and the preset unit table merging model.

【技术实现步骤摘要】
基于富文本格式文档的表格提取方法、装置、设备和介质
本专利技术涉及计算机
,尤其涉及一种基于富文本格式文档的表格提取方法、装置、设备和介质。
技术介绍
现有技术中富文本格式文档是包括但不限于文件扫描件、跨平台文件格式和网页等,其中跨平台文件格式包括PDF文档、Word文档等,它们是标题、文字章节和段落、表格和图像等组成成分的复合有机排版。表格是一种对于人而言包含丰富的信息,并且对于机器而言有高度的结构化形式的数据结构,因此提取富文本格式文档中的表格数据有很大的研究价值和应用价值。但是,目前对富文本格式文档中的隐性表格并没有很好的提取方法,无法准确地提取富文本格式文档中的隐性表格。
技术实现思路
本专利技术实施例提供基于富文本格式文档的表格提取方法、装置、设备和介质,可以准确地提取富文本格式文档中的隐性表格。根据本专利技术实施例的一方面,提供一种基于富文本格式文档的表格提取方法,所述表格提取方法包括:获取富文本格式文档,所述富文本格式文档包括至少一张页面内容;通过预设表格检测模型,对所述富文本格式文档中所述页面内容进行表格检测处理,得到表格标签列表,以及依据所述页面内容和所述表格标签列表,得到第一表格内容;依据预设画贯穿线模型,对所述第一表格内容进行画贯穿线处理,得到惯穿线标签列表,以及依据所述第一表格内容和所述惯穿线标签列表,得到第二表格内容;基于预设单元表格合并模型,对所述第二表格内容进行表格单元合并处理,得到短线标签列表,以及依据短线标签列表和所述第二表格内容,得到显性表格内容。根据本专利技术实施例的另一方面,提供一种基于富文本格式文档的表格提取装置,所述表格提取装置包括:获取模块、预设表格检测模块、预设画贯穿线模块和预设单元表格合并模块;所述获取模块,用于获取富文本格式文档,所述富文本格式文档包括至少一张页面内容;所述预设表格检测模块,用于对所述富文本格式文档中所述页面内容进行表格检测处理,得到表格标签列表,以及依据所述页面内容和所述表格标签列表,得到表格内容;所述预设画贯穿线模块,用于对所述表格内容进行画贯穿线处理,得到惯穿线标签列表,以及依据所述表格内容和所述惯穿线标签列表,得到第二表格内容;所述预设单元表格合并模块,用于对所述第二表格内容进行表格单元合并处理,得到短线标签列表,以及依据短线标签列表和所述第二表格内容,得到显性表格内容。根据本专利技术实施例的再一方面,提供一种设备,所述设备包括:处理器以及存储有计算机程序指令的存储器;所述处理器执行所述计算机程序指令时实现如第一方面所述的表格提取方法。根据本专利技术实施例的再一方面,提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现第一方面所述的表格提取方法。根据本专利技术实施例中的表格提取方法、装置、设备和介质,通过预设表格检测模型、预设画贯穿线模型和预设单元表格合并模型,可以提取富文本格式文档中的隐性表格内容,以得到显性表格内容。不但提高了提取的效率,同时也提高了提取的精度,能够准确地将隐性表格内容提取出来。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是现有技术中深度卷积神经网络的网络结构的结构示意图;图2是示出本专利技术实施例的基于富文本格式文档的表格提取方法的流程图;图3是示出本专利技术实施例的页面内容的示意图;图4是示出本专利技术实施例检测的隐性表格的示意图;图5是示出本专利技术实施例画贯穿线处理的示意图;图6是示出本专利技术实施例表格单元合并处理的示意图;图7是示出本专利技术实施例的页面内容分区的示意图;图8示出本专利技术实施例的基于富文本格式文档的表格提取装置的结构示意图;图9示出本专利技术实施例的预设表格检测模块的结构示意图;图10示出本专利技术另一实施例的预设表格检测模块的详细结构示意图;图11是示出能够实现根据本专利技术实施例的表格提取方法和装置的计算设备的示例性硬件架构的结构图。具体实施方式下面将详细描述本专利技术的各个方面的特征和示例性实施例,为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本专利技术,并不被配置为限定本专利技术。对于本领域技术人员来说,本专利技术可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本专利技术的示例来提供对本专利技术更好的理解。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。在本专利技术实施例中主要是采用如下三个模型,如:预设表格检测模型、预设画贯穿线模型和预设单元表格合并模型。这三个模型都可以通过深度卷积神经网络的训练方法训练得到的,当然在本申请中并不限制采用深度卷积神经网络,也可以采用其他的训练方法可以得到。图1是现有技术中深度卷积神经网络的网络结构的结构示意图。深度卷积神经网络是一个多层的神经网络,每层由多个二维平面组成,而每个平面由多个独立神经元组成。可以理解的是,如图1所示,例如:输入图像通过和三个可训练的滤波器和可加偏置进行卷积。卷积后在C1层产生三个特征映射图,然后特征映射图中每组的四个像素再进行求和,加权值,加偏置,通过一个Sigmoid函数得到三个S2层的特征映射图。这些映射图再经过滤波得到C3层。这个层级结构再和S2一样产生S4。最终,这些像素值被光栅化,并连接成一个向量输入到传统的神经网络,得到输出。一般的,C层为特征提取层,C层可以包括C1层和C3层。每个神经元的输入与前一层的局部感受野相连,并提取该局部的特征,一旦该局部特征被提取后,它与其他特征间的位置关系也随之确定下来。S层是特征映射层,S层包括S2层和S4层。网络的每个特征映射层由多个特征映射组成,每个特征映射为一个平面,平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数,使得特征映射具有位移不变性。此外,由于一个映射面上的神经元共享权值,因而减少了网络自由参数的个数,降低了网络参数选择的复杂度。卷积神经网络中的每一个特征本文档来自技高网...

【技术保护点】
1.一种基于富文本格式文档的表格提取方法,其特征在于,所述表格提取方法包括:/n获取富文本格式文档,所述富文本格式文档包括至少一张页面内容;/n通过预设表格检测模型,对所述富文本格式文档中所述页面内容进行表格检测处理,得到表格标签列表,以及依据所述页面内容和所述表格标签列表,得到第一表格内容;/n依据预设画贯穿线模型,对所述第一表格内容进行画贯穿线处理,得到惯穿线标签列表,以及依据所述第一表格内容和所述惯穿线标签列表,得到第二表格内容;/n基于预设单元表格合并模型,对所述第二表格内容进行表格单元合并处理,得到短线标签列表,以及依据短线标签列表和所述第二表格内容,得到显性表格内容。/n

【技术特征摘要】
1.一种基于富文本格式文档的表格提取方法,其特征在于,所述表格提取方法包括:
获取富文本格式文档,所述富文本格式文档包括至少一张页面内容;
通过预设表格检测模型,对所述富文本格式文档中所述页面内容进行表格检测处理,得到表格标签列表,以及依据所述页面内容和所述表格标签列表,得到第一表格内容;
依据预设画贯穿线模型,对所述第一表格内容进行画贯穿线处理,得到惯穿线标签列表,以及依据所述第一表格内容和所述惯穿线标签列表,得到第二表格内容;
基于预设单元表格合并模型,对所述第二表格内容进行表格单元合并处理,得到短线标签列表,以及依据短线标签列表和所述第二表格内容,得到显性表格内容。


2.根据权利要求1所述的表格提取方法,其特征在于,所述通过预设表格检测模型,对所述富文本格式文档中所述页面内容进行表格检测处理,得到表格标签列表,包括:
对所述页面内容进行渲染处理,得到所述页面内容的页面内容张量;
根据第一预设训练参数和所述页面内容张量,得到所述表格标签列表。


3.根据权利要求2所述的表格提取方法,其特征在于,所述根据第一预设训练参数和所述页面内容张量,得到所述表格标签列表,包括:
根据所述第一预设训练参数计算所述页面内容张量,确定所述页面内容的特征张量;
遍历所述特征张量中每个区域的表格信息,确定预测值;
当所述预测值大于预设信度阈值时,则判断该区域包含表格,
或者,
当所述预测值小于预设信度阈值时,则判断该区域不包含表格;
确定每个包含表格的区域的表格标签,得到所述表格标签列表。


4.根据权利要求3所述的表格提取方法,其特征在于,所述第一预设训练参数是由所述页面内容的特征张量和预设表格标签张量确定的参数,所述预设表格标签张量是通过对所述页面内容进行区域划分处理得到的参数。


5.根据权利要求4所述的表格提取方法,其特征在于,所述区域划分处理是指将每张所述页面内容划分成m×n个区域,确定每个包含表格的区域的表格标签张量,m和n确定每个区域只包含一个表格且每个表格只属于一个区域,且m和n均为大于0的整数。


6.根据权利要求4所述的表格提取方法,其特征在于,所述页面内容的特征张量的维度与所述预设表格标签张量的维度相同。


7.根据权利要求1所述的表格提取方法,其特征在于,所述依据预设画贯穿线模型,对所述第一表格内容进行画贯穿线处理,得到惯穿线标签列表,包括;
对所述第一表格内容进行渲染处理,得到第二表格内容张量;
根据所述第二表格内容张量和第二预设训练参数,得到所述惯穿线标签列表。


8.根据权利要求7所述的表格提取方法,其特征在于,所述第二预设训练参数是由所述第二表格内容的特征张量和预设贯穿线标签张量确定的参数,所述第二表格内容的特征张量是通过对所述第一表格内容进行特征提取得到的参数,所述预设贯穿线标签张量是由多条贯穿线向量组成,每条贯穿线向量是指每个区域的中心线向量。


9.根据权利要求8所述的表格提取方法,其特征在于,所述表格内容的特征张量的维度和所述预设贯穿线标签张量的维度相同。


10.根据权利要求1所述的表格提取方法,...

【专利技术属性】
技术研发人员:林得苗
申请(专利权)人:北京庖丁科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1