一种基于级联解码的表格结构识别方法技术

技术编号:38414019 阅读:14 留言:0更新日期:2023-08-07 11:18
本发明专利技术涉及一种基于级联解码的表格结构识别方法,属于半结构化文本生成技术领域。首先将表格图像输入到编码器进行编码,用以捕获所输入表格图像的视觉特征;然后将编码结果分别输入到行解码器和单元格解码器中;其中,首先将编码结果单独输入到行解码器解码得到表头、表体、行等标记;再将编码结果与行解码器解码结果输入单元格解码器解码得到单元格标记以及单元格行列跨度属性;最后将两种解码器解码结果融合得到相应表格图像的结构化HTML序列表示。本发明专利技术将编码结果分别在行、单元格两个层面上进行解码,分级解码结构保证每个解码器不会生成较长的HTML序列,解决了生成较长序列时的错误累计问题,能够更准确的识别表格结构信息。构信息。构信息。

【技术实现步骤摘要】
一种基于级联解码的表格结构识别方法


[0001]本专利技术涉及一种基于级联解码的表格结构识别方法,属于半结构化文本生成


技术介绍

[0002]表格作为一种常用的数据载体,具备易比较分析、信息密度大等特点,常被用来展示重要实验数据、生产数据;在如今的智能化时代,能够快速准确的识别、分析这些数据会给社会企业、研究机构带来强大的竞争力;表格结构识别任务旨在从表格图像中得到单元格的行列信息,准确的识别出表格结构是分析表格内容的重要基础。
[0003]当前,基于表格图像恢复出表格对应的HTML序列的表格结构识别方法中,都是使用一级解码器解码得到表格中的所有元素对应的HTML标签,此类方法在推理过程中会随着表格复杂度的提高生成更长的HTML序列,生成更长的HTML序列意味着容易产生更多的错误。因此,研究一种避免生成较长HTML序列,准确识别表格结构信息的方法具有重要意义。

技术实现思路

[0004]本专利技术要解决的技术问题是针对现有技术的不足,提供一种基于级联解码的表格结构识别方法,分两阶段对编码结果进行解码,第一阶段根据编码结果对表头、表体、行进行解码,第二阶段根据第一阶段解码结果与编码结果对单元格标签和单元格属性进行解码;级联解码结构的设计缩短了每级解码器解码时生成的标签长度,一定程度上解决了在生成较长HTML序列时准确率低的问题。
[0005]本专利技术的技术方案是:一种基于级联解码的表格结构识别方法,首先将表格图像输入到编码器进行编码,用以捕获所输入表格图像的视觉特征;然后将编码结果分别输入到行解码器和单元格解码器中;其中,首先将编码结果单独输入到行解码器解码得到表头、表体、行等标记;再将编码结果与行解码器解码结果输入单元格解码器解码得到单元格标记以及单元格行列跨度属性;最后将两种解码器解码结果融合得到相应表格图像的结构化HTML序列表示。
[0006]具体步骤为:
[0007]Step1:利用编码器从表格图像中提取视觉特征。
[0008]Step2:对编码器提取的视觉特征,单独输入行解码器进行解码,行解码器的训练过程如下:
[0009]训练数据:对公开数据集注释文件进行处理,只保留表头标签、表体标签、行标签。
[0010]训练模型及模型推理:在模型训练过程中,使用融合注意力机制的循环单元模块从编码器提取的视觉特征中学习表格行特征;在推理过程中只生成表头标签、标题标签和行标签。
[0011]Step3:对行解码器解码结果,与编码器提取的视觉特征一同输入单元格解码器,用于对每一行中所有单元格对应的单元格标签和单元格属性进行解码。
[0012]训练模型:在模型训练过程中,使用融合注意力机制的循环单元模块从编码器所提取的视觉特征和行解码器隐藏层特征中学习单元格特征。
[0013]模型推理:在模型推理过程中,根据行解码器解码结果决定单元格解码器是否生成单元格标签、单元格行列跨度属性。
[0014]Step4:融合行解码器解码结果和单元格解码器解码结果以得到该表格图像对应的完整HTML序列。
[0015]所述Step1中,编码器采用ResNet18作为主干网络提取视觉特征,并利用FPN增强视觉特征。
[0016]所述Step2中的处理训练数据过程中,对公开数据集PubTabNet注释文件进行处理,只保留注释文件中的表头标签(

<thead>



</thead>

)、表体标签(

<tbody>



</tbody>

)、行标签(

<tr>



</tr>

)。
[0017]所述Step2中的行解码器由基于注意力机制的GRU模块和GRU隐藏层特征解码器模块组成;训练过程中GRU从表格图像视觉特征和上一层隐藏层特征中学习表头、表体、行对应特征;模型推理时通过GRU隐藏层特征解码器生成表头标签(

<thead>



</thead>

)、表体标签(

<tbody>



</tbody>

)、行标签(

<tr>



</tr>

)。
[0018]所述Step2中生成表头标签、表体标签、行标签的行解码器的损失函数l
rd
采用交叉熵损失函数:
[0019][0020]其中,N表示生成标签总数,i表示生成的第i个标签,6种类别是指表头、表体、行对应的开始标签和结束标签,y
ic
表示每个样本的类别标签,p
ic
表示第i个标签属于类别c的概率。
[0021]所述Step3中的单元格解码器由基于注意力机制的GRU模块和GRU隐藏层特征解码器模块组成;在训练模型过程中,GRU从表格图像视觉特征和行解码器隐藏层特征中学习单元格标签(

<td>



</td>

)特征和单元格属性(

colspan



rowspan

)特征。
[0022]所述Step3中生成单元格标签与单元格属性的单元格解码器的损失函数l
cd
采用交叉熵损失函数:
[0023][0024]其中,N表示生成标签总数,i表示生成的第i个标签,4种类别是指单元格对应的开始标签和结束标签和行列跨度属性,y
ic
表示每个样本的类别标签,p
ic
表示第i个标签属于类别c的概率。
[0025]所述Step3中单元格解码器中除了对单元格标签和单元格属性标签进行解码,还使用单元格坐标解码器以回归出单元格坐标,回归得到单元格边界框的损失函数l
b

box
采用Smooth L1 Loss:
[0026][0027]其中,x=|y
i

f(x
i
)|,y
i
表示真实边界框值,f(x
i
)表示预测边界框值。
[0028]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于级联解码的表格结构识别方法,其特征在于:Step1:利用编码器从表格图像中提取视觉特征;Step2:对编码器提取的视觉特征,单独输入行解码器进行解码,行解码器的训练过程如下:训练数据:对公开数据集注释文件进行处理,只保留表头标签、表体标签、行标签;训练模型及模型推理:在模型训练过程中,使用融合注意力机制的循环单元模块从编码器提取的视觉特征中学习表格行特征,在推理过程中只生成表头标签、标题标签和行标签;Step3:对行解码器解码结果,与编码器提取的视觉特征一同输入单元格解码器,以对每一行中所有单元格对应的单元格标签和单元格属性进行解码;训练模型:在模型训练过程中,使用融合注意力机制的循环单元模块从编码器所提取的视觉特征和行解码器隐藏层特征中学习单元格特征;模型推理:在模型推理过程中,根据行解码器解码结果决定单元格解码器是否生成单元格标签、单元格行列跨度属性;Step4:融合行解码器解码结果和单元格解码器解码结果以得到该表格图像对应的完整HTML序列。2.根据权利要求1所述的基于级联解码的表格结构识别方法,其特征在于:所述Step1中,编码器采用残差网络作为主干网络提取视觉特征,并利用特征金字塔网络增强视觉特征。3.根据权利要求1所述的基于级联解码的表格结构识别方法,其特征在于:所述Step2中的处理训练数据过程中,对公开数据集PubTabNet注释文件进行处理,只保留注释文件中的表头标签(

<thead>



</thead>

)、表体标签(

<tbody>



</tbody>

)、行标签(

<tr>



</tr>

)。4.根据权利要求3所述的基于级联解码的表格结构识别方法,其特征在于:所述Step2中的行解码器由基于注意力机制的循环单...

【专利技术属性】
技术研发人员:刘英莉张广涛郑剑锋沈韬
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1