基于富文本格式文档的表格提取方法、装置、设备和介质制造方法及图纸

技术编号：22722974 阅读：10 留言：0更新日期：2019-12-04 05:43

本发明专利技术公开了基于富文本格式文档的表格提取方法、装置、设备和介质。所述方法包括：获取页面内容；通过预设表格检测模型，对页面内容进行表格检测处理，得到表格标签列表，以及得到第一表格内容；依据预设画贯穿线模型，对第一表格内容进行画贯穿线处理，得到惯穿线标签列表，以及得到第二表格内容；基于预设单元表格合并模型，对第二表格内容进行表格单元合并处理，得到短线标签列表，以及得到显性表格内容。根据本发明专利技术实施例提供的方案，通过预先训练出预设表格检测模型、预设画贯穿线模型和预设单元表格合并模型的这3个模型，可以将隐性表格内容提出出来，以得到显性表格内容。

Methods, devices, devices and media of table extraction based on rich text documents

The invention discloses a table extraction method, device, device and medium based on a rich text format document. The method comprises the following steps: obtaining page content; performing table detection processing on page content through preset table detection model, obtaining table label list and the first table content; drawing through line model according to preset, drawing through line processing on the first table content, obtaining inertial through line label list and obtaining the second table content; combining tables based on preset unit And the model, the second table content of the table cell merge processing, get short-term label list, as well as the explicit table content. According to the scheme provided by the embodiment of the invention, the implicit table content can be proposed to obtain the explicit table content by pre training the three models of the preset table detection model, the preset drawing through line model and the preset unit table merging model.

全部详细技术资料下载

【技术实现步骤摘要】
基于富文本格式文档的表格提取方法、装置、设备和介质
本专利技术涉及计算机
，尤其涉及一种基于富文本格式文档的表格提取方法、装置、设备和介质。
技术介绍
现有技术中富文本格式文档是包括但不限于文件扫描件、跨平台文件格式和网页等，其中跨平台文件格式包括PDF文档、Word文档等，它们是标题、文字章节和段落、表格和图像等组成成分的复合有机排版。表格是一种对于人而言包含丰富的信息，并且对于机器而言有高度的结构化形式的数据结构，因此提取富文本格式文档中的表格数据有很大的研究价值和应用价值。但是，目前对富文本格式文档中的隐性表格并没有很好的提取方法，无法准确地提取富文本格式文档中的隐性表格。
技术实现思路
本专利技术实施例提供基于富文本格式文档的表格提取方法、装置、设备和介质，可以准确地提取富文本格式文档中的隐性表格。根据本专利技术实施例的一方面，提供一种基于富文本格式文档的表格提取方法，所述表格提取方法包括：获取富文本格式文档，所述富文本格式文档包括至少一张页面内容；通过预设表格检测模型，对所述富文本格式文档中所述页面内容进行表格检测处理，得到表格标签列表，以及依据所述页面内容和所述表格标签列表，得到第一表格内容；依据预设画贯穿线模型，对所述第一表格内容进行画贯穿线处理，得到惯穿线标签列表，以及依据所述第一表格内容和所述惯穿线标签列表，得到第二表格内容；基于预设单元表格合并模型，对所述第二表格内容进行表格单元合并处理，得到短线标签列表，以...

【技术保护点】
1.一种基于富文本格式文档的表格提取方法，其特征在于，所述表格提取方法包括：/n获取富文本格式文档，所述富文本格式文档包括至少一张页面内容；/n通过预设表格检测模型，对所述富文本格式文档中所述页面内容进行表格检测处理，得到表格标签列表，以及依据所述页面内容和所述表格标签列表，得到第一表格内容；/n依据预设画贯穿线模型，对所述第一表格内容进行画贯穿线处理，得到惯穿线标签列表，以及依据所述第一表格内容和所述惯穿线标签列表，得到第二表格内容；/n基于预设单元表格合并模型，对所述第二表格内容进行表格单元合并处理，得到短线标签列表，以及依据短线标签列表和所述第二表格内容，得到显性表格内容。/n

【技术特征摘要】
1.一种基于富文本格式文档的表格提取方法，其特征在于，所述表格提取方法包括：
获取富文本格式文档，所述富文本格式文档包括至少一张页面内容；
通过预设表格检测模型，对所述富文本格式文档中所述页面内容进行表格检测处理，得到表格标签列表，以及依据所述页面内容和所述表格标签列表，得到第一表格内容；
依据预设画贯穿线模型，对所述第一表格内容进行画贯穿线处理，得到惯穿线标签列表，以及依据所述第一表格内容和所述惯穿线标签列表，得到第二表格内容；
基于预设单元表格合并模型，对所述第二表格内容进行表格单元合并处理，得到短线标签列表，以及依据短线标签列表和所述第二表格内容，得到显性表格内容。

2.根据权利要求1所述的表格提取方法，其特征在于，所述通过预设表格检测模型，对所述富文本格式文档中所述页面内容进行表格检测处理，得到表格标签列表，包括：
对所述页面内容进行渲染处理，得到所述页面内容的页面内容张量；
根据第一预设训练参数和所述页面内容张量，得到所述表格标签列表。

3.根据权利要求2所述的表格提取方法，其特征在于，所述根据第一预设训练参数和所述页面内容张量，得到所述表格标签列表，包括：
根据所述第一预设训练参数计算所述页面内容张量，确定所述页面内容的特征张量；
遍历所述特征张量中每个区域的表格信息，确定预测值；
当所述预测值大于预设信度阈值时，则判断该区域包含表格，
或者，
当所述预测值小于预设信度阈值时，则判断该区域不包含表格；
确定每个包含表格的区域的表格标签，得到所述表格标签列表。

4.根据权利要求3所述的表格提取方法，其特征在于，所述第一预设训练参数是由所述页面内容的特征张量和预设表格标签张量确定的参数，所述预设表格标签张量是通过对所述页面内容进行区域划分处理得到的参数。

5.根据权利要求4所述的表格提取方法，其特征在于，所述区域划分处理是指将每张所述页面内容划分成m×n个区域，确定每个包含表格的区域的表格标签张量，m和n确定每个区域只包含一个表格且每个表格只属于一个区域，且m和n均为大于0的整数。

6.根据权利要求4所述的表格提取方法，其特征在于，所述页面内容的特征张量的维度与所述预设表格标签张量的维度相同。

7.根据权利要求1所述的表格提取方法，其特征在于，所述依据预设画贯穿线模型，对所述第一表格内容进行画贯穿线处理，得到惯穿线标签列表，包括；
对所述第一表格内容进行渲染处理，得到第二表格内容张量；
根据所述第二表格内容张量和第二预设训练参数，得到所述惯穿线标签列表。

8.根据权利要求7所述的表格提取方法，其特征在于，所述第二预设训练参数是由所述第二表格内容的特征张量和预设贯穿线标签张量确定的参数，所述第二表格内容的特征张量是通过对所述第一表格内容进行特征提取得到的参数，所述预设贯穿线标签张量是由多条贯穿线向量组成，每条贯穿线向量是指每个区域的中心线向量。

9.根据权利要求8所述的表格提取方法，其特征在于，所述表格内容的特征张量的维度和所述预设贯穿线标签张量的维度相同。

10.根据权利要求1所述的表格提取方法，...

【专利技术属性】
技术研发人员：林得苗，
申请(专利权)人：北京庖丁科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人