一种表格提取方法和电子设备技术

技术编号:42723664 阅读:22 留言:0更新日期:2024-09-13 12:10
本申请实施例提供一种表格提取方法和电子设备,该方法包括获取待提取表格的文档;对文档进行处理,得到多个文本块和各文本块对应的文本块信息,其中,文本块信息包括语义向量、位置信息和类型向量;根据各文本块信息,得到表格开始指针序列、表格内容指针序列和表格结束指针序列;根据各文本块、表格开始指针序列、表格内容指针序列和表格结束指针序列,得到表格。在对文档中的电子表格进行提取时,不再基于文档中存在的线条进行提取,而是通过利用文档中的文本块的信息进行提取,能够有效避免因为边框缺失导致表格无法识别的缺点,泛化性能更强,可提高对少线条或无线条的表格进行提取的效果。

【技术实现步骤摘要】

本申请实施例涉及表格提取,特别涉及一种表格提取方法和电子设备


技术介绍

1、表格是一种整理数据的手段,在通讯交流、科学研究以及数据分析活动当中有着广泛的应用。电子表格提取是指使用计算机自动抽取的方式对富文档文件(如pdf文件,图片等)的表格进行检测并将内容识别,最终进行结构化输出的一项工作。表格提取和检测在日常中较为常用,由于目前富文档文本文件不能直接对表格进行二次加工,如汇总、求和和转换等,需要对表格进行规范化提取后再进入电子表格软件(如exce l,wps)再进行处理,因而需要一种工具快速将表格从富文档文件中提取出来。

2、目前,市面上存在的表格提取工具,如pdfp l umber,came l ot等第三方开源工具,其都是基于抽取线框类的做法,这种方法将表格内容提取分为表格检测步骤以及表格内容识别步骤,在检测时,需从页面中检测出水平方向和竖直方向可能用于构成表格的直线,然后根据检测出的直线确定交点,接着根据交点,找到它们围成的最小的单元格,最后把连通的单元格整合到一起,生成一个检测出的表格对象,最后通过对每个划分好的单元格进行字符的检测本文档来自技高网...

【技术保护点】

1.一种表格提取方法,其特征在于,包括:

2.根据权利要求1所述的表格提取方法,其特征在于,在所述对所述文档进行处理之前,所述方法还包括:

3.根据权利要求2所述的表格提取方法,其特征在于,所述对所述文档进行处理,得到多个文本块和各所述文本块对应的文本块信息,包括:

4.根据权利要求1-3任意一项所述的表格提取方法,其特征在于,所述根据各所述文本块信息,得到表格开始指针序列、表格内容指针序列和表格结束指针序列,包括:

5.根据权利要求4所述的表格提取方法,其特征在于,所述根据各所述输入向量和各所述位置信息,采用自注意力机制得到各所述文本块对...

【技术特征摘要】

1.一种表格提取方法,其特征在于,包括:

2.根据权利要求1所述的表格提取方法,其特征在于,在所述对所述文档进行处理之前,所述方法还包括:

3.根据权利要求2所述的表格提取方法,其特征在于,所述对所述文档进行处理,得到多个文本块和各所述文本块对应的文本块信息,包括:

4.根据权利要求1-3任意一项所述的表格提取方法,其特征在于,所述根据各所述文本块信息,得到表格开始指针序列、表格内容指针序列和表格结束指针序列,包括:

5.根据权利要求4所述的表格提取方法,其特征在于,所述根据各所述输入向量和各所述位置信息,采用自注意力机制得到各所述文本块对应的输出向量,包括:

6.根据权利...

【专利技术属性】
技术研发人员:黄锦裕
申请(专利权)人:广州视源电子科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1