表格合并方法、表格合并预测模型训练方法及装置制造方法及图纸

技术编号：40901567 阅读：2 留言：0更新日期：2024-04-18 11:19

本申请提供了一种表格合并方法、表格合并预测模型训练方法及装置，表格合并方法包括：获取待处理图像，待处理图像中包括跨页面分布的第一表格段以及第二表格段；将待处理图像输入表格合并预测模型中进行预测处理，得到物理合并预测结果以及语义合并预测序列，语义合并预测序列中的各项分别对应第一表格段以及第二表格段的一个单元格，且语义合并预测序列中各项的值分别用于指示所对应的第一表格段和第二表格段上的单元格是否可语义合并；根据物理合并预测结果以及语义合并预测序列进行合并处理。结合了物理结构以及单元格级别的上下文语义信息来判断表格是否可合并，使得表格合并的结果的准确性得以显著提高。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机，具体而言，涉及一种表格合并方法、表格合并预测模型训练方法及装置。

技术介绍

1、在金融等涉及文档识别解析的场景中，通常需要进行跨页面表格合并处理。具体的，由于文档的页面范围的限制，同一表格可能被披露在不同的页面上。当对文档进行识别解析时，就需要对这种表格的内容进行合并处理。

2、现有技术中提供了一些跨页面表格合并的方法，这些方法主要通过对表格物理结构的分析，判断表格是否可以进行物理合并。

3、但是，现有技术的方法由于仅基于表格物理结构进行分析，可能导致跨页面表格合并的结果不准确。

技术实现思路

1、本申请的目的在于，针对上述现有技术中的不足，提供一种表格合并方法、表格合并预测模型训练方法及装置，以解决现有技术中跨页面表格合并的结果不准确的问题。

2、为实现上述目的，本申请实施例采用的技术方案如下：

3、第一方面，本申请一实施例提供了一种表格合并方法，包括：

4、获取待处理图像，所述待处理图像中包括跨页面分布的第一表格段以及第二表格段；

5、将所述待处理图像输入预先训练得到的表格合并预测模型中进行预测处理，得到物理合并预测结果以及语义合并预测序列，其中，所述物理合并预测结果用于指示所述第一表格段与所述第二表格段在物理结构上是否可合并，所述语义合并预测序列中的各项分别对应所述第一表格段以及所述第二表格段的一个单元格，且所述语义合并预测序列中各项的值分别用于指示所对应的第一表格段和所述第二表格段上的单元格是否可语义合并；

6、根据所述物理合并预测结果以及所述语义合并预测序列，对所述第一表格段以及所述第二表格段进行合并处理。

7、作为一种可能的实现方式，所述表格合并预测模型包括：视觉特征处理网络、语义特征处理网络以及线性处理层；

8、所述将所述待处理图像输入预先训练得到的表格合并预测模型中进行预测处理，得到物理合并预测结果以及语义合并预测序列，包括：

9、将所述待处理图像输入所述视觉特征处理网络，由所述视觉特征处理网络进行视觉特征编码，得到视觉特征，并对所述视觉特征进行位置编码，得到位置编码后特征；

10、将所述位置编码后特征输入所述语义特征处理网络，由所述语义特征处理网络进行语义特征编码，得到语义编码后特征；

11、将所述语义编码后特征输入所述线性处理层进行线性变换，得到所述物理合并预测结果以及语义合并预测序列。

12、作为一种可能的实现方式，所述视觉特征处理网络包括依次串接的多个编码层；

13、所述将所述待处理图像输入所述视觉特征处理网络，由所述视觉特征处理网络进行视觉特征编码，得到视觉特征，包括：

14、将所述待处理图像输入首个编码层中进行编码处理，并将处理后的特征输入下一编码层中进行编码处理，依次执行，直至最后一个编码层完成编码处理；

15、分别对除最后一个编码层外的各编码层的处理后特征进行最大值池化处理，得到各编码层的池化后特征；

16、将各编码层的池化后特征以及最后一个编码层编码处理后的特征进行拼接处理，得到所述视觉特征。

17、作为一种可能的实现方式，所述对所述视觉特征进行位置编码，得到位置编码后特征，包括：

18、基于二维正余弦编码算法，分别对所述视觉特征进行水平方向位置编码以及竖直方向位置编码，得到所述编码后特征。

19、作为一种可能的实现方式，所述根据所述物理合并预测结果以及所述语义合并预测结果，对所述第一表格段以及所述第二表格段进行合并处理，包括：

20、若所述物理合并预测结果指示所述第一表格段与所述第二表格段在物理结构上可合并，则遍历所述语义合并预测序列中的各项，针对遍历到的当前项，若所述当前项的值为预设值，则对所述当前项在所述第一表格段中对应的单元格以及在所述第二表格段中对应的单元格进行内容合并。

21、作为一种可能的实现方式，所述获取待处理图像之前，还包括：

22、根据电子文档中的页面分割标记，从所述电子文档的相邻页面中截取第一初始表格段以及第二初始表格段，得到初始图像；

23、对所述初始图像进行剪裁以及表格边缘对齐处理，得到所述待处理图像。

24、第二方面，本申请实施例提供一种表格合并预测模型训练方法，包括：

25、基于包含跨页面表格的原始电子文档，构建训练数据集；

26、基于所述训练数据集对初始合并模型进行训练，得到表格合并预测模型，其中，所述表格合并预测模型的预测结果包括物理合并预测结果以及语义合并预测序列，所述物理合并预测结果用于指示输入的待处理图像中的第一表格段与第二表格段在物理结构上是否可合并，所述语义合并预测序列中的各项分别对应所述第一表格段以及所述第二表格段的一个单元格，且所述语义合并预测序列中各项的值分别用于指示所对应的第一表格段和所述第二表格段上的单元格是否可语义合并。

27、作为一种可能的实现方式，所述基于包含跨页面表格的原始电子文档，构建训练数据集，包括：

28、对所述原始电子文档中的跨页面表格进行截取、裁剪以及表格边缘对齐，得到测试数据集以及正向训练数据集；

29、对所述原始电子文档中的表格进行拆分以及拼接处理，得到负向训练数据集。

30、作为一种可能的实现方式，所述基于所述训练数据集对初始合并模型进行训练，得到表格合并预测模型，包括：

31、将所述训练数据集中的样本数据输入所述初始合并模型，得到所述初始合并模型的处理结果，所述初始合并模型中包括：视觉特征处理网络、语义特征处理网络以及线性处理层；

32、基于目标损失函数对所述初始合并模型的处理结果进行损失计算，得到所述初始合并模型的损失，其中，所述目标损失函数中至少包括：误差传递损失函数，所述误差传递损失函数用于计算所述视觉特征处理网络的处理结果与所述语义特征处理网络的处理结果的偏差；

33、根据所述初始合并模型的损失，对所述初始合并模型进行迭代修正，得到所述表格合并预测模型。

34、作为一种可能的实现方式，所述目标损失函数中还包括：物理合并损失函数以及语义合并损失函数；

35、所述物理合并损失函数用于计算物理合并预测结果的损失，所述语义合并损失函数用于计算语义合并预测结果的损失。

36、第三方面，本申请实施例提供一种表格合并装置，包括：

37、获取模块，用于获取待处理图像，所述待处理图像中包括跨页面分布的第一表格段以及第二表格段；

38、处理模块，用于将所述待处理图像输入预先训练得到的表格合并预测模型中进行预测处理，得到物理合并预测结果以及语义合并预测序列，其中，所述物理合并预测结果用于指示所述第一表格段与所述第二表格段在物理结构上是否可合并，所述语义合并预测序列中的各项分别对应所述第一表格段以及所述第二表格段的一个单元格，且所述语义本文档来自技高网...

【技术保护点】

1.一种表格合并方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述表格合并预测模型包括：视觉特征处理网络、语义特征处理网络以及线性处理层；

3.根据权利要求2所述的方法，其特征在于，所述视觉特征处理网络包括依次串接的多个编码层；

4.根据权利要求2所述的方法，其特征在于，所述对所述视觉特征进行位置编码，得到位置编码后特征，包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述根据所述物理合并预测结果以及所述语义合并预测结果，对所述第一表格段以及所述第二表格段进行合并处理，包括：

6.根据权利要求1-4任一项所述的方法，其特征在于，所述获取待处理图像之前，还包括：

7.一种表格合并预测模型训练方法，其特征在于，包括：

8.根据权利要求7所述的方法，其特征在于，所述基于包含跨页面表格的原始电子文档，构建训练数据集，包括：

9.根据权利要求7所述的方法，其特征在于，所述基于所述训练数据集对初始合并模型进行训练，得到表格合并预测模型，包括：

10.根

11.一种表格合并装置，其特征在于，包括：

12.一种表格合并预测模型训练装置，其特征在于，包括：

13.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器执行所述机器可读指令，以执行如权利要求1至6任一项所述的表格合并方法的步骤或权利要求7-10任一项所述的表格合并预测模型训练方法的步骤。

14.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至6任一项所述的表格合并方法的步骤或权利要求7-10任一项所述的表格合并预测模型训练方法的步骤。

...

【技术特征摘要】