一种识别文档中数据表格的方法及装置制造方法及图纸

技术编号:4105655 阅读:191 留言:0更新日期:2012-04-11 18:40
本发明专利技术属于文档应用领域,公开了一种识别文档中数据表格的方法和装置,所述方法包括:提取PDF文档中的文本;根据提取的文本的属性对文本进行划分,得到一划分结果;对划分结果进行判断和处理,识别并生成数据表格;将数据表格保存至独立的中间数据结构中;根据目标文档格式将所述中间数据结构中的数据表格还原。本发明专利技术准确的对PDF中的表格数据进行转换,极大的提高了转换后的可编辑性,减少了转换后对文档再次手工处理的工作。

【技术实现步骤摘要】

本专利技术属于文档应用领域,具体涉及一种识别文档中数据表格的方法及装置
技术介绍
随着电脑的不断普及,无纸化办公得到越来越多的应用,各种各样的文档也大量 的出现在用户的面前。在可移植文档格式(Portable Document Format,PDF)文档中,实际看到的表格是 线条与文本叠加形成的。因此,在将PDF文件转换为其它较易于编辑的文档格式时,如果仅 仅是从PDF文档中提取原始数据内容,就会得到分散的文本内容与线条;如果需要表格,需 要手动删除线条,插入表格,并将文本内容重新填入表格中,费时费力。同时,在PDF中,还存在一些文本内容是以类似表格的形式呈现,却没有相应的表 格线来形成真正的表格。这些文本内容在提取后,若不经过特殊的处理,较难保持原有的排 版。从PDF文档中提取数据后,根据其中的线条识别出表格,再将文本内容填入表格 中,由于表格识别受到线条制约,无法识别没有表格线的表格,表格的表格线缺失对其识别 过程也有一定影响。同时,在对存在大量线条的文档进行表格识别时,处理也比较缓慢。对于有数据表格或者类似表格的平面二维数据表的PDF,如果根据PDF中的线条 进行表格识别本文档来自技高网...

【技术保护点】

【技术特征摘要】
一种识别文档中数据表格的方法,其特征在于,所述方法包括以下步骤提取PDF文档中的文本;根据提取的文本的属性对文本进行划分,得到一划分结果;对划分结果进行判断和处理,识别并生成数据表格;将数据表格保存至独立的中间数据结构中;根据目标文档格式将所述中间数据结构中的数据表格还原。2.如权利要求1所述的识别文档中数据表格的方法,其特征在于,所述提取PDF文档中 的文本的步骤具体包括根据PDF页面内容流控制字所指示的绘制指令,提取该绘制指令对应的要绘制的文本块;将提取的文本块保存至一文本块集合中,其中,提取出的文本块保存有该文本块的位 置以及外接矩形区域大小信息。3.如权利要求2所述的识别文档中数据表格的方法,其特征在于,根据提取的文本的 属性对文本进行划分,得到一划分结果的步骤具体包括对文本块集合中的文本块进行划分; 对文本间隙进行划分,获取间隙属性集合。4.如权利要求3所述的识别文档中数据表格的方法,其特征在于,所述对划分结果进 行判断和处理,识别并生成数据表格的步骤具体包括根据获取的间隙属性集合计算出表格的网格线,所述网格线包括有行线和列线; 根据生成的网格线生成一表格。5.如权利要求4所述的识别文档中数据表格的方法,其特征在于,将数据表格保存至 独立的中间数据结构中的步骤具体包括对于文本块集合中的每一个文本块,根据该文本块的位置信息,结合网格线进行计算, 确定该文本块所属的表格中的单元格; 将该文本块填至上述确定的单元格中。6.一种识别文档中数据表格的装置,其特征在于,所述装置包括 文本提取模块,用于提...

【专利技术属性】
技术研发人员:李譞
申请(专利权)人:深圳市万兴软件有限公司
类型:发明
国别省市:94

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1