【技术实现步骤摘要】
本申请实施例涉及表格提取,特别涉及一种表格提取方法和电子设备。
技术介绍
1、表格是一种整理数据的手段,在通讯交流、科学研究以及数据分析活动当中有着广泛的应用。电子表格提取是指使用计算机自动抽取的方式对富文档文件(如pdf文件,图片等)的表格进行检测并将内容识别,最终进行结构化输出的一项工作。表格提取和检测在日常中较为常用,由于目前富文档文本文件不能直接对表格进行二次加工,如汇总、求和和转换等,需要对表格进行规范化提取后再进入电子表格软件(如exce l,wps)再进行处理,因而需要一种工具快速将表格从富文档文件中提取出来。
2、目前,市面上存在的表格提取工具,如pdfp l umber,came l ot等第三方开源工具,其都是基于抽取线框类的做法,这种方法将表格内容提取分为表格检测步骤以及表格内容识别步骤,在检测时,需从页面中检测出水平方向和竖直方向可能用于构成表格的直线,然后根据检测出的直线确定交点,接着根据交点,找到它们围成的最小的单元格,最后把连通的单元格整合到一起,生成一个检测出的表格对象,最后通过对每个划分好的
...【技术保护点】
1.一种表格提取方法,其特征在于,包括:
2.根据权利要求1所述的表格提取方法,其特征在于,在所述对所述文档进行处理之前,所述方法还包括:
3.根据权利要求2所述的表格提取方法,其特征在于,所述对所述文档进行处理,得到多个文本块和各所述文本块对应的文本块信息,包括:
4.根据权利要求1-3任意一项所述的表格提取方法,其特征在于,所述根据各所述文本块信息,得到表格开始指针序列、表格内容指针序列和表格结束指针序列,包括:
5.根据权利要求4所述的表格提取方法,其特征在于,所述根据各所述输入向量和各所述位置信息,采用自注意力机
...【技术特征摘要】
1.一种表格提取方法,其特征在于,包括:
2.根据权利要求1所述的表格提取方法,其特征在于,在所述对所述文档进行处理之前,所述方法还包括:
3.根据权利要求2所述的表格提取方法,其特征在于,所述对所述文档进行处理,得到多个文本块和各所述文本块对应的文本块信息,包括:
4.根据权利要求1-3任意一项所述的表格提取方法,其特征在于,所述根据各所述文本块信息,得到表格开始指针序列、表格内容指针序列和表格结束指针序列,包括:
5.根据权利要求4所述的表格提取方法,其特征在于,所述根据各所述输入向量和各所述位置信息,采用自注意力机制得到各所述文本块对应的输出向量,包括:
6.根据权利...
【专利技术属性】
技术研发人员:黄锦裕,
申请(专利权)人:广州视源电子科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。