【技术实现步骤摘要】
文档信息的提取方法和装置
[0001]本申请涉及智能招标、IT应用
,尤其涉及一种文档信息的提取方法和装置。
技术介绍
[0002]第一代电子招投标系统运行期间积累了大量的非结构化招投标文件,文件中包含了大量有价值信息,需要将文档中的主要指标数据提取出来,存入结构化数仓中,支撑后续分析、建模使用。但是由于非结构化文档的局限性,无法直接对其进行大数据分析及应用。其中,在投标价格文档原数据中,存在大量的以pdf格式存储的报价文件,常用的pdf提取python包只能简单的提取文本或者简单表达表格信息,不能充分挖掘表格的横向或纵向合并情况,无法提取整个文档的数据信息。
技术实现思路
[0003]本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
[0004]为此,本申请的第一个目的在于提出一种文档信息的提取方法,解决了现有方法不能充分挖掘表格的横向或纵向合并情况,无法提取文档的数据信息的技术问题,通过提取文档页面的表格数据,解析表格横向或纵向的合并问题,实现对文档的表格数据信息的提取。
[ ...
【技术保护点】
【技术特征摘要】
1.一种文档信息的提取方法,其特征在于,包括以下步骤:获取文档中页面的文本信息和所述文本信息对应的位置信息;获取所述页面中的表格数据集,并从所述表格数据集中提取行信息和列信息,以及所述行信息和列信息对应的位置信息;将所述文本信息对应的位置信息与所述行信息和列信息对应的位置信息进行匹配,得到匹配结果和表格中单元格的横向合并信息和纵向合并信息;根据所述匹配结果将所述文本信息保存至基于所述行信息和列信息建立的表格信息数据结构体,其中,所述表格信息数据结构体还保存有所述表格中单元格的横向合并信息和纵向合并信息。2.如权利要求1所述的方法,其特征在于,在根据所述匹配结果将所述文本信息保存至基于所述行信息和列信息建立的表格信息数据结构体之后,还包括:根据所述文本信息对应的位置信息判断所述文本信息是否在所述表格的内部;若所述文本信息在所述表格的内部,则确定所述文本信息为表格信息;若所述文本信息不在所述表格的内部,则确定所述文本信息为段落信息。3.如权利要求2所述的方法,其特征在于,还包括:逐页判断文档中的页面是否存在跨页表格;若存在跨页表格,则对所述跨页表格进行合并。4.如权利要求3所述的方法,其特征在于,所述判断文档中的页面是否存在跨页表格,包括:判断页面与前一页面是否均包含表格;若是,则判断所述页面的第一个表格的上方是否存在段落信息;若存在且同样的段落出现在所述前一页面的相同位置,则判断所述前一页面的最后的表格下方是否存在段落信息;若存在且同样的段落出现在所述页面的相同位置,则判断所述前一页面的最后的表格和所述页面的第一个表格的大小及内部的分割线的位置是否相同;若相同,则存在跨页表格。5.如权利要求4所述的方法,其特征在于,所述对所述跨页表格进行合并,包括:对所述前一页面的最后的表格的分割线与所述页面的...
【专利技术属性】
技术研发人员:袁建,张慧娜,邸智,黄思皖,李小翔,
申请(专利权)人:中国华能集团清洁能源技术研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。