【技术实现步骤摘要】
本申请属于数据处理,具体涉及一种从pdf文件中提取表格信息的方法及电子设备。
技术介绍
1、pdf(portable document format,便携式文档格式)是一种文件格式,采用这种文件格式的文件通常被称为pdf文件。由于在跨软件或跨平台时可以保持显示效果一致,pdf文件目前已是人们日常工作和生活中一种常用的文件格式。在一些情况下,需要从pdf文件中提取字符内容,这其中包括表格内容的提取。在pdf文件中提取表格信息时,主要是利用表格的线框相交来获取线框所围成的一个个单元格,然后根据单元格的位置信息还原出整个表格的结构关系。然而,这种方法在表格线框不齐全的情况下,提取的表格的准确性不高,甚至无法提取表格。
技术实现思路
1、本申请的目的在于提供一种从pdf文件中提取表格信息的方法及电子设备,以提高从pdf文件中提取表格的准确性。
2、本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
3、根据本申请实施例的一个方面,提供一种从
...【技术保护点】
1.一种从PDF文件中提取表格信息的方法,其特征在于,包括:
2.根据权利要求1所述的从PDF文件中提取表格信息的方法,其特征在于,对待处理PDF文件进行解析后,还得到所述待处理PDF文件包含的分割线;对所述包围盒进行扩展,以使相邻包围盒的边界重合,得到扩展包围盒,包括:
3.根据权利要求1所述的从PDF文件中提取表格信息的方法,其特征在于,根据所述扩展包围盒之间的行对齐关系和列连接关系,从所述扩展包围盒中提取候选单元格,包括:
4.根据权利要求3所述的从PDF文件中提取表格信息的方法,其特征在于,在检测所述有效单元格在列方向上是否
...【技术特征摘要】
1.一种从pdf文件中提取表格信息的方法,其特征在于,包括:
2.根据权利要求1所述的从pdf文件中提取表格信息的方法,其特征在于,对待处理pdf文件进行解析后,还得到所述待处理pdf文件包含的分割线;对所述包围盒进行扩展,以使相邻包围盒的边界重合,得到扩展包围盒,包括:
3.根据权利要求1所述的从pdf文件中提取表格信息的方法,其特征在于,根据所述扩展包围盒之间的行对齐关系和列连接关系,从所述扩展包围盒中提取候选单元格,包括:
4.根据权利要求3所述的从pdf文件中提取表格信息的方法,其特征在于,在检测所述有效单元格在列方向上是否与其他行的有效单元格存在相连边界之前,所述方法还包括:
5.根据权利要求1所述的从pdf文件中提取表格信息的方法,其特征在于,根据所述候选单元格构成的候选表格,以所述候选表格中宽度最小行的两侧的列边界线分别作为切割线对所述候选表格进行切割,将位于两根所述切割线之间的候选单元格作为目标单元格,包括:
【专利技术属性】
技术研发人员:邓高伟,
申请(专利权)人:深圳前海微众银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。