一种PDF文档结构化信息提取方法及装置制造方法及图纸

技术编号:16587823 阅读:55 留言:0更新日期:2017-11-18 15:30
本申请实施例公开一种PDF文档结构化信息提取方法,所述方法包括:获取PDF文档的原始页;从所述原始页中提取至少一个包含文本内容或标题的实际页;从所述实际页中提取各级标题及隶属于所述标题的文本内容;结构化存储每一个所述标题及隶属于所述标题的文本内容。上述技术方案中的结构化信息提取方法能够把PDF文档中各级标题以及隶属于各级标题的相应文本内容提取出来,并结构化存储,从而得到结构化信息,使得PDF文档的结构化信息提取能够自动化实现,避免手工再处理,便捷高效。

Method and device for extracting structured information of PDF documents

The embodiment of the invention discloses a method for extracting information of structured PDF documents, the method includes: obtaining the original page PDF document; extracting the actual page at least one contains text or title from the original page; extraction of text belongs to the title from the actual page title and subordinate levels; structured storage text content of each of the title and the title belongs to. The technical scheme of structured information extraction methods to the corresponding text in the PDF document and all the title belongs to all levels of the title is extracted, and structured storage, so as to obtain structured information, makes the structured information of PDF documents to realize the automatic extraction, avoid manual processing, convenient and efficient.

【技术实现步骤摘要】
一种PDF文档结构化信息提取方法及装置
本申请涉及PDF文档信息提取领域,尤其涉及一种PDF文档结构化信息提取方法。此外,本申请还涉及一种PDF文档结构化信息提取装置。
技术介绍
PDF(PortableDocumentFormat,便携式文档格式),是由AdobeSystems所发展出的文件格式,用于与应用程序、操作系统、硬件无关的方式进行文件交换,属于版式文档。PDF的页面之间相对独立,会忠实地再现原稿的每一个字符、颜色以及图象,但是PDF的存储是非结构化的数据存储格式,没有记录文档的逻辑结构,没有段落、表格等逻辑元素。提取PDF文档中的信息,通常采用OCR(OpticalCharacterRecognition,光学字符识别)技术。但采用OCR技术所提取出来的PDF文档的信息,是以矢量的方式进行的渲染,每个字符之间是没有逻辑关系的(比如相邻、前后的关系)。提取出来的字符形成的文本仅是x、y、z三个坐标加上旋转量来渲染的矩阵。这样的文本存在格式和位置随意性大的问题,还需要手工再进行处理,才能得到具有明确层次结构的结构化信息。因此,采用现有方法提取PDF文档中的信息,提取到的文本中,文字格式和位置随意,无法便利地得到结构化信息,这是本领域技术人员亟待解决的问题。
技术实现思路
本申请提供一种PDF文档结构化信息提取方法及一种PDF文档结构化信息提取装置,以解决通过现有技术无法便利地得到PDF文档结构化信息的问题。第一方面,本申请提供了一种PDF文档结构化信息提取方法,该方法包括:获取PDF文档的原始页;从所述原始页中提取至少一个包含文本内容或标题的实际页;从所述实际页中提取各级标题及隶属于所述标题的文本内容;结构化存储每一个所述标题及隶属于所述标题的文本内容。结合第一方面,在第一方面第一种可能的实现方式中,从所述原始页中提取至少一个包含文本内容或标题的实际页的步骤,包括:分别判断所述原始页中是否包含目录页、页眉和页脚;将原始页中的目录页、页眉或页脚删除,得到至少一个实际页。结合第一方面及上述可能的实现方式,在第一方面第二种可能的实现方式中,从所述实际页中提取各级标题及隶属于所述标题的文本内容的步骤,包括:提取每个实际页中的第一级标题;提取实际页中当前第一级标题与下一个第一级标题之间的内容,作为与当前第一级标题对应的内容;若当前第一级标题为实际页中最后一个第一级标题,提取该实际页中当前第一级标题之后的内容,作为与当前第一级标题对应的内容;将每个第一级标题,及与该第一级标题所对应的内容,作为一个一级逻辑页;若所述一级逻辑页中不存在下一级标题,所述结构化存储每一个所述标题及隶属于所述标题的文本内容的步骤,包括:结构化存储每一个第一级标题及隶属于所述第一级标题的文本内容,其中,隶属于第一级标题的文本内容为与该第一级标题对应的内容。结合第一方面及上述可能的实现方式,在第一方面第三种可能的实现方式中,所述将每个第一级标题,及与该第一级标题所对应的内容,作为一个一级逻辑页的步骤之前,还包括以下步骤:若当前实际页中没有第一级标题,将当前实际页的所有内容合并至上一个第一级标题对应的内容;若当前实际页中的第一个第一级标题不在当前实际页的第一行,将所述当前实际页中第一个第一级标题之前的内容合并至上一个第一级标题对应的内容。结合第一方面及上述可能的实现方式,在第一方面第四种可能的实现方式中,从所述实际页中提取各级标题及隶属于所述标题的文本内容的步骤,还包括以下步骤:分别从每一个N级逻辑页中提取第(N+1)级标题,及隶属于第(N+1)级标题的文本内容,N取≥1的整数。结合第一方面及上述可能的实现方式,在第一方面第五种可能的实现方式中,所述分别从每一个N级逻辑页中提取第(N+1)级标题,及隶属于第(N+1)级标题的文本内容的步骤,包括:提取每个N级逻辑页中的第N+1级标题;提取当前第N+1级标题与下一个第N+1级标题之间的内容,作为与当前第N+1级标题对应的内容;若当前的第N+1级标题为N级逻辑页中最后一个第N+1级标题,提取该N级逻辑页中当前第N+1级标题之后的内容,作为与当前第N+1级标题对应的内容;将每一个第N+1级标题,及与该第N+1级标题对应的内容,作为一个N+1级逻辑页;所述结构化存储每一个所述标题及隶属于所述标题的文本内容的步骤,包括:结构化存储第1至第N+1级标题,及分别隶属于所述第1至第N+1级标题的文本内容,其中,隶属于第N+1级标题的文本内容为与该第N+1级标题对应的内容,隶属于第i级标题的文本内容为与该第i级标题对应的内容中除i+1级逻辑页之外的内容,i=1,2,…,N。结合第一方面及上述可能的实现方式,在第一方面第六种可能的实现方式中,所述分别从每一个N级逻辑页中提取第N+1级标题,及隶属于第N+1级标题的文本内容的步骤包括:确定每一个N级逻辑页中是否存在表格,若存在表格,将所述表格切分成表格区块,提取第N+1级标题及隶属于所述第N+1级标题的文本内容。结合第一方面及上述可能的实现方式,在第一方面第七种可能的实现方式中,所述提取每个实际页中的第一级标题的步骤,包括:获取实际页中的标题线及所述标题线在实际页中Y轴坐标;若同一个实际页中当前标题线与下一个标题线的Y轴坐标之差小于3个Y轴单位时,将下一个标题线与当前标题线合并;获取标题线之上离标题线最近的一行的文本内容作为实际页中的第一级标题。第二方面,本申请还提供了一种PDF文档结构化信息提取装置,包括:获取单元,用于获取PDF文档的原始页;第一提取单元,用于从所述原始页中提取至少一个包含文本内容或标题的实际页;第二提取单元,用于从所述实际页中提取各级标题及隶属于所述标题的文本内容;存储单元,用于结构化存储每一个所述标题及隶属于所述标题的文本内容。结合第二方面,在第二方面第一种可能的实现方式中,所述第一提取单元,包括:判断单元,用于分别判断所述原始页中是否包含目录页、页眉和页脚;删除单元,用于将原始页中的目录页、页眉或页脚删除,得到至少一个实际页。与现有技术相比,该方法首先从PDF文档的原始页中去除可能对结构化信息的提取产生干扰的部分,例如目录页、页眉、页脚等,生成实际页,从而完成从原始页中提取实际页的步骤。然后从实际页中把各级标题以及隶属于各级标题的相应文本内容提取出来,结构化存储,从而得到结构化信息,使得PDF文档的结构化信息提取能够自动化实现,避免手工处理,便捷高效。附图说明为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1至图7为本申请的PDF文档结构化信息本提取方法的一个具体实施方式的流程图;图8至图19为本申请的PDF文档结构化信息本提取方法的一个实施例中子步骤的效果示意图;图20为本申请的PDF文档结构化信息本提取装置的一个实施例的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本专利技术作进一步详细的描述。请参考图1,在一个具体实施方式中,PDF文档结构化信息本提取方法包括:S100获取PDF文档的原始页。S200从原始页中提取至少一个包含文本内容或标题的实本文档来自技高网...
一种PDF文档结构化信息提取方法及装置

【技术保护点】
一种PDF文档结构化信息提取方法,其特征在于,所述方法包括:获取PDF文档的原始页;从所述原始页中提取至少一个包含文本内容或标题的实际页;从所述实际页中提取各级标题及隶属于所述标题的文本内容;结构化存储每一个所述标题及隶属于所述标题的文本内容。

【技术特征摘要】
1.一种PDF文档结构化信息提取方法,其特征在于,所述方法包括:获取PDF文档的原始页;从所述原始页中提取至少一个包含文本内容或标题的实际页;从所述实际页中提取各级标题及隶属于所述标题的文本内容;结构化存储每一个所述标题及隶属于所述标题的文本内容。2.根据权利要求1所述的PDF文档结构化信息提取方法,其特征在于,从所述原始页中提取至少一个包含文本内容或标题的实际页的步骤,包括:分别判断所述原始页中是否包含目录页、页眉和页脚;将原始页中的目录页、页眉或页脚删除,得到至少一个实际页。3.根据权利要求1所述的PDF文档结构化信息提取方法,其特征在于,从所述实际页中提取各级标题及隶属于所述标题的文本内容的步骤,包括:提取每个实际页中的第一级标题;提取实际页中当前第一级标题与下一个第一级标题之间的内容,作为与当前第一级标题对应的内容;若当前第一级标题为实际页中最后一个第一级标题,提取该实际页中当前第一级标题之后的内容,作为与当前第一级标题对应的内容;将每个第一级标题,及与该第一级标题所对应的内容,作为一个一级逻辑页;若所述一级逻辑页中不存在下一级标题,所述结构化存储每一个所述标题及隶属于所述标题的文本内容的步骤,包括:结构化存储每一个第一级标题及隶属于所述第一级标题的文本内容,其中,隶属于第一级标题的文本内容为与该第一级标题对应的内容。4.根据权利要求3所述的PDF文档结构化信息提取方法,其特征在于,所述将每个第一级标题,及与该第一级标题所对应的内容,作为一个一级逻辑页的步骤之前,还包括以下步骤:若当前实际页中没有第一级标题,将当前实际页的所有内容合并至上一个第一级标题对应的内容;若当前实际页中的第一个第一级标题不在当前实际页的第一行,将所述当前实际页中第一个第一级标题之前的内容合并至上一个第一级标题对应的内容。5.根据权利要求3所述的PDF文档结构化信息提取方法,其特征在于,从所述实际页中提取各级标题及隶属于所述标题的文本内容的步骤,还包括以下步骤:分别从每一个N级逻辑页中提取第(N+1)级标题,及隶属于第(N+1)级标题的文本内容,N取≥1的整数。6.根据权利要求5所述的PDF文档结构化信息提取方法,其特征在于,所述分别从每一个N级逻辑页中提取第N+1级标题...

【专利技术属性】
技术研发人员:徐龙李德彦杨宇
申请(专利权)人:北京神州泰岳软件股份有限公司中科鼎富北京科技发展有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1