一种引入单元格对齐信息的基于图像到序列技术的表格解析方法技术

技术编号:43846486 阅读:29 留言:0更新日期:2024-12-31 18:40
本发明专利技术公开了一种引入单元格对齐信息的基于图像到序列技术的表格解析方法,涉及文字识别、信息抽取领域,通过引入单元格对齐信息,设计了一种能同时解析表格结构、文字识别和单元格对齐信息的表格解析模型。通过加入了对齐信息的单元格文本匹配算法降低上述部分文本误分配问题的出现频率,提升表格结构解析的准确率,从而优化表格解析的模型效果。同时,本发明专利技术设计了一套表格随机生成算法,该算法可生成单元格各自随机对齐的表格图片及其对应带有对齐信息的标注信息。该算法可为本发明专利技术提出的表格解析算法提供训练用数据集。

【技术实现步骤摘要】

本专利技术属于文字识别、信息抽取领域,更具体地说,尤其涉及一种引入单元格对齐信息的基于图像到序列技术的表格解析方法


技术介绍

1、近年来,伴随着文字识别、信息抽取等技术的不断完善,表格解析技术也得到了越来越多的关注;表格解析算法可以分析和抽取表格图片中的结构和信息,并将提取出的结构化表格存储为相应的格式;目前的表格解析模型大多以表格结构信息和文本识别的准确率作为主要的训练目标;然而,目前单纯基于这两者训练出来的模型在表格解析结果上仍未达到完美,依旧有部分解析结果会有偏差;本专利技术注意到,其中有一部分解析偏差某种程度上都和“单元格对齐”有关;本专利技术认为,这部分由单元格文本误分配造成的结果偏差可以通过引入一个目前尚未受到重视的、额外的模型训练目标“单元格对齐信息”进行优化;

2、目前表格解析效果的衡量标准大致可分为两块,即表格结构解析的准确率以及单元格内部的文本识别准确率;当前的表格解析模型大多基于这两部分进行训练,其基于的众多大型公开数据集内的图片标注信息也多由这两部分组成,原表格图像中表达出来的其他属性在现有模型中并未被提取和关注;然而本文档来自技高网...

【技术保护点】

1.一种引入单元格对齐信息的基于图像到序列技术的表格解析方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种引入单元格对齐信息的基于图像到序列技术的表格解析方法,其特征在于,步骤S1中,生成表格具体为:

3.根据权利要求2所述的一种引入单元格对齐信息的基于图像到序列技术的表格解析方法中所包含的表格生成算法,其特征在于:对于复杂度等于n的表格,算法会先随机找一个表格块切割为两部分,切割方向从横纵中随机,切割后任意部分表格块都可作为下次切割的对象,该切割操作持续n次。

4.根据权利要求1所述的一种引入单元格对齐信息的基于图像到序列技术的表格解析方...

【技术特征摘要】

1.一种引入单元格对齐信息的基于图像到序列技术的表格解析方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种引入单元格对齐信息的基于图像到序列技术的表格解析方法,其特征在于,步骤s1中,生成表格具体为:

3.根据权利要求2所述的一种引入单元格对齐信息的基于图像到序列技术的表格解析方法中所包含的表格生成算法,其特征在于:对于复杂度等于n的表格,算法会先随机找一个表格块切割为两部分,切割方向从横纵中随机,切割后任意部分表格块都可作为下次切割的对象,该切割操作持续n次。

4.根据权利要求1所述的一种引入单元格对齐信息的基于图像到序列技术的表格解析方法,其特征在于,步骤s2中,建立表格解析模型具体为:

5.根据权利要求1所述的一种引入单元格对齐信息的基于图像到序列技术的表格解析方法,其特征在于,步骤s2中,所述的模型架构为:

6.根据权利要求1所述的一种引入单元格对齐信息的基于图像到序列技术的表格解析方法,其特征在于,步骤s2中,所述...

【专利技术属性】
技术研发人员:候学杰崔赫杨林张鹤许若华
申请(专利权)人:中图科信数智技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1