一种基于级联解码的表格结构识别方法技术

技术编号：38414019 阅读：31 留言：0更新日期：2023-08-07 11:18

本发明专利技术涉及一种基于级联解码的表格结构识别方法，属于半结构化文本生成技术领域。首先将表格图像输入到编码器进行编码，用以捕获所输入表格图像的视觉特征；然后将编码结果分别输入到行解码器和单元格解码器中；其中，首先将编码结果单独输入到行解码器解码得到表头、表体、行等标记；再将编码结果与行解码器解码结果输入单元格解码器解码得到单元格标记以及单元格行列跨度属性；最后将两种解码器解码结果融合得到相应表格图像的结构化HTML序列表示。本发明专利技术将编码结果分别在行、单元格两个层面上进行解码，分级解码结构保证每个解码器不会生成较长的HTML序列，解决了生成较长序列时的错误累计问题，能够更准确的识别表格结构信息。构信息。构信息。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于级联解码的表格结构识别方法

[0001]本专利技术涉及一种基于级联解码的表格结构识别方法，属于半结构化文本生成

技术介绍

[0002]表格作为一种常用的数据载体，具备易比较分析、信息密度大等特点，常被用来展示重要实验数据、生产数据；在如今的智能化时代，能够快速准确的识别、分析这些数据会给社会企业、研究机构带来强大的竞争力；表格结构识别任务旨在从表格图像中得到单元格的行列信息，准确的识别出表格结构是分析表格内容的重要基础。
[0003]当前，基于表格图像恢复出表格对应的HTML序列的表格结构识别方法中，都是使用一级解码器解码得到表格中的所有元素对应的HTML标签，此类方法在推理过程中会随着表格复杂度的提高生成更长的HTML序列，生成更长的HTML序列意味着容易产生更多的错误。因此，研究一种避免生成较长HTML序列，准确识别表格结构信息的方法具有重要意义。

技术实现思路

[0004]本专利技术要解决的技术问题是针对现有技术的不足，提供一种基于级联解码的表格结构识别方法，分两阶段对编码结果...

【技术保护点】

【技术特征摘要】
1.一种基于级联解码的表格结构识别方法，其特征在于：Step1：利用编码器从表格图像中提取视觉特征；Step2：对编码器提取的视觉特征，单独输入行解码器进行解码，行解码器的训练过程如下：训练数据：对公开数据集注释文件进行处理，只保留表头标签、表体标签、行标签；训练模型及模型推理：在模型训练过程中，使用融合注意力机制的循环单元模块从编码器提取的视觉特征中学习表格行特征，在推理过程中只生成表头标签、标题标签和行标签；Step3：对行解码器解码结果，与编码器提取的视觉特征一同输入单元格解码器，以对每一行中所有单元格对应的单元格标签和单元格属性进行解码；训练模型：在模型训练过程中，使用融合注意力机制的循环单元模块从编码器所提取的视觉特征和行解码器隐藏层特征中学习单元格特征；模型推理：在模型推理过程中，根据行解码器解码结果决定单元格解码器是否生成单元格标签、单元格行列跨度属性；Step4：融合行解码器解码结果和单元格解码器解码结果以得到该表格图像对应的完整HTML序列。2.根据权利要求1所述的基于级联解码的表格结构识别方法，其特征在于：所述Step1中，编码器采用残差网络作为主干网络提取视觉特征，并利用特征金字塔网络增强视觉特征。3.根据权利要求1所述的基于级联解码的表格结构识别方法，其特征在于：所述Step2中的处理训练数据过程中，对公开数据集PubTabNet注释文件进行处理，只保留注释文件中的表头标签(
‘
<thead>
’
、
‘
</thead>
’
)、表体标签(
‘
<tbody>
’
、
‘
</tbody>
’
)、行标签(
‘
<tr>
’
、
‘
</tr>
’
)。4.根据权利要求3所述的基于级联解码的表格结构识别方法，其特征在于：所述Step2中的行解码器由基于注意力机制的循环单...

【专利技术属性】
技术研发人员：刘英莉，张广涛，郑剑锋，沈韬，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人