一种针对非图片类型表格数据提取方法、装置及介质制造方法及图纸

技术编号:40112972 阅读:21 留言:0更新日期:2024-01-23 19:27
本发明专利技术的实施方式提供了一种针对非图片类型表格数据提取方法,包括:基于PDF文档利用opencv进行表格范围和表结构确认;在确认的表结构和表范围内提取表格文字,将所述表格文字填充在所述表结构内,得到表格数据。本发明专利技术可以有效的针对特定类型的表格进行结构化数据提取,还可针对普通类型的表格进行结构化数据提取,具有普适性。

【技术实现步骤摘要】

本专利技术的实施方式涉及图像处理及识别领域,更具体地,本专利技术的实施方式涉及一种针对非图片类型表格数据提取方法、装置及介质


技术介绍

1、元器件数据手册是元器件厂商关于器件信息的完整描述文档, 文档中通常使用表格针对产品型号, 产品引脚信息, 产品尺寸信息等关键信息进行描述; 因此在进行元器件数据手册数据提取时, 这部分表格数据的定位过滤及原始数据抽取就显得极为重要;

2、从主体流程看, 现有的元器件数据手册读取流程主要依靠人工完成(如建库工程师等), 传统人工提取效率低、数据一致性难以保证;

3、从技术角度看, 现在存在很多技术, 可以从pdf格式文档中进行表格数据提取,主要思路为以下两种:


技术实现思路

1、在本上下文中,本专利技术的实施方式期望提供一种针对非图片类型表格数据提取方法、装置及介质。

2、在本专利技术实施方式的第一方面中,提供了一种针对非图片类型表格数据提取方法,包括:

3、基于pdf文档利用opencv 进行表格范围和表结构确认;

本文档来自技高网...

【技术保护点】

1.一种针对非图片类型表格数据提取方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述基于PDF文档利用opencv 进行表格范围和表结构确认,包括:

3.如权利要求2所述的方法,其特征在于,所述基于绘制出来的原始表格结构与所述矩形图像, 确认表格范围和表结构,包括:

4.如权利要求1所述的方法,其特征在于,所述在确认的表结构和表范围内提取表格文字,将所述表格文字填充在所述表结构内,得到表格数据,包括:

5.如权利要求1所述的方法,其特征在于,还包括,对表格数据进行表格过滤和功能确认。

6.如权利要求5所述的方...

【技术特征摘要】

1.一种针对非图片类型表格数据提取方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述基于pdf文档利用opencv 进行表格范围和表结构确认,包括:

3.如权利要求2所述的方法,其特征在于,所述基于绘制出来的原始表格结构与所述矩形图像, 确认表格范围和表结构,包括:

4.如权利要求1所述的方法,其特征在于,所述在确认的表结构和表范围内提取表格文字,将所述表格文字填充在所述表结构内,得到表格数据,包括:

5.如权利要求1所述的方法,其特征...

【专利技术属性】
技术研发人员:忻喆
申请(专利权)人:上海楷领科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1