【技术实现步骤摘要】
本专利技术属于文字识别、信息抽取领域,更具体地说,尤其涉及一种引入单元格对齐信息的基于图像到序列技术的表格解析方法。
技术介绍
1、近年来,伴随着文字识别、信息抽取等技术的不断完善,表格解析技术也得到了越来越多的关注;表格解析算法可以分析和抽取表格图片中的结构和信息,并将提取出的结构化表格存储为相应的格式;目前的表格解析模型大多以表格结构信息和文本识别的准确率作为主要的训练目标;然而,目前单纯基于这两者训练出来的模型在表格解析结果上仍未达到完美,依旧有部分解析结果会有偏差;本专利技术注意到,其中有一部分解析偏差某种程度上都和“单元格对齐”有关;本专利技术认为,这部分由单元格文本误分配造成的结果偏差可以通过引入一个目前尚未受到重视的、额外的模型训练目标“单元格对齐信息”进行优化;
2、目前表格解析效果的衡量标准大致可分为两块,即表格结构解析的准确率以及单元格内部的文本识别准确率;当前的表格解析模型大多基于这两部分进行训练,其基于的众多大型公开数据集内的图片标注信息也多由这两部分组成,原表格图像中表达出来的其他属性在现有模型中并
...【技术保护点】
1.一种引入单元格对齐信息的基于图像到序列技术的表格解析方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种引入单元格对齐信息的基于图像到序列技术的表格解析方法,其特征在于,步骤S1中,生成表格具体为:
3.根据权利要求2所述的一种引入单元格对齐信息的基于图像到序列技术的表格解析方法中所包含的表格生成算法,其特征在于:对于复杂度等于n的表格,算法会先随机找一个表格块切割为两部分,切割方向从横纵中随机,切割后任意部分表格块都可作为下次切割的对象,该切割操作持续n次。
4.根据权利要求1所述的一种引入单元格对齐信息的基于图像到
...【技术特征摘要】
1.一种引入单元格对齐信息的基于图像到序列技术的表格解析方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种引入单元格对齐信息的基于图像到序列技术的表格解析方法,其特征在于,步骤s1中,生成表格具体为:
3.根据权利要求2所述的一种引入单元格对齐信息的基于图像到序列技术的表格解析方法中所包含的表格生成算法,其特征在于:对于复杂度等于n的表格,算法会先随机找一个表格块切割为两部分,切割方向从横纵中随机,切割后任意部分表格块都可作为下次切割的对象,该切割操作持续n次。
4.根据权利要求1所述的一种引入单元格对齐信息的基于图像到序列技术的表格解析方法,其特征在于,步骤s2中,建立表格解析模型具体为:
5.根据权利要求1所述的一种引入单元格对齐信息的基于图像到序列技术的表格解析方法,其特征在于,步骤s2中,所述的模型架构为:
6.根据权利要求1所述的一种引入单元格对齐信息的基于图像到序列技术的表格解析方法,其特征在于,步骤s2中,所述...
【专利技术属性】
技术研发人员:候学杰,崔赫,杨林,张鹤,许若华,
申请(专利权)人:中图科信数智技术北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。