The embodiment of the invention discloses a method for extracting information of structured PDF documents, the method includes: obtaining the original page PDF document; extracting the actual page at least one contains text or title from the original page; extraction of text belongs to the title from the actual page title and subordinate levels; structured storage text content of each of the title and the title belongs to. The technical scheme of structured information extraction methods to the corresponding text in the PDF document and all the title belongs to all levels of the title is extracted, and structured storage, so as to obtain structured information, makes the structured information of PDF documents to realize the automatic extraction, avoid manual processing, convenient and efficient.
【技术实现步骤摘要】
一种PDF文档结构化信息提取方法及装置
本申请涉及PDF文档信息提取领域,尤其涉及一种PDF文档结构化信息提取方法。此外,本申请还涉及一种PDF文档结构化信息提取装置。
技术介绍
PDF(PortableDocumentFormat,便携式文档格式),是由AdobeSystems所发展出的文件格式,用于与应用程序、操作系统、硬件无关的方式进行文件交换,属于版式文档。PDF的页面之间相对独立,会忠实地再现原稿的每一个字符、颜色以及图象,但是PDF的存储是非结构化的数据存储格式,没有记录文档的逻辑结构,没有段落、表格等逻辑元素。提取PDF文档中的信息,通常采用OCR(OpticalCharacterRecognition,光学字符识别)技术。但采用OCR技术所提取出来的PDF文档的信息,是以矢量的方式进行的渲染,每个字符之间是没有逻辑关系的(比如相邻、前后的关系)。提取出来的字符形成的文本仅是x、y、z三个坐标加上旋转量来渲染的矩阵。这样的文本存在格式和位置随意性大的问题,还需要手工再进行处理,才能得到具有明确层次结构的结构化信息。因此,采用现有方法提取PDF文档中的信息,提取到的文本中,文字格式和位置随意,无法便利地得到结构化信息,这是本领域技术人员亟待解决的问题。
技术实现思路
本申请提供一种PDF文档结构化信息提取方法及一种PDF文档结构化信息提取装置,以解决通过现有技术无法便利地得到PDF文档结构化信息的问题。第一方面,本申请提供了一种PDF文档结构化信息提取方法,该方法包括:获取PDF文档的原始页;从所述原始页中提取至少一个包含文本内容或标题的实际页;从 ...
【技术保护点】
一种PDF文档结构化信息提取方法,其特征在于,所述方法包括:获取PDF文档的原始页;从所述原始页中提取至少一个包含文本内容或标题的实际页;从所述实际页中提取各级标题及隶属于所述标题的文本内容;结构化存储每一个所述标题及隶属于所述标题的文本内容。
【技术特征摘要】
1.一种PDF文档结构化信息提取方法,其特征在于,所述方法包括:获取PDF文档的原始页;从所述原始页中提取至少一个包含文本内容或标题的实际页;从所述实际页中提取各级标题及隶属于所述标题的文本内容;结构化存储每一个所述标题及隶属于所述标题的文本内容。2.根据权利要求1所述的PDF文档结构化信息提取方法,其特征在于,从所述原始页中提取至少一个包含文本内容或标题的实际页的步骤,包括:分别判断所述原始页中是否包含目录页、页眉和页脚;将原始页中的目录页、页眉或页脚删除,得到至少一个实际页。3.根据权利要求1所述的PDF文档结构化信息提取方法,其特征在于,从所述实际页中提取各级标题及隶属于所述标题的文本内容的步骤,包括:提取每个实际页中的第一级标题;提取实际页中当前第一级标题与下一个第一级标题之间的内容,作为与当前第一级标题对应的内容;若当前第一级标题为实际页中最后一个第一级标题,提取该实际页中当前第一级标题之后的内容,作为与当前第一级标题对应的内容;将每个第一级标题,及与该第一级标题所对应的内容,作为一个一级逻辑页;若所述一级逻辑页中不存在下一级标题,所述结构化存储每一个所述标题及隶属于所述标题的文本内容的步骤,包括:结构化存储每一个第一级标题及隶属于所述第一级标题的文本内容,其中,隶属于第一级标题的文本内容为与该第一级标题对应的内容。4.根据权利要求3所述的PDF文档结构化信息提取方法,其特征在于,所述将每个第一级标题,及与该第一级标题所对应的内容,作为一个一级逻辑页的步骤之前,还包括以下步骤:若当前实际页中没有第一级标题,将当前实际页的所有内容合并至上一个第一级标题对应的内容;若当前实际页中的第一个第一级标题不在当前实际页的第一行,将所述当前实际页中第一个第一级标题之前的内容合并至上一个第一级标题对应的内容。5.根据权利要求3所述的PDF文档结构化信息提取方法,其特征在于,从所述实际页中提取各级标题及隶属于所述标题的文本内容的步骤,还包括以下步骤:分别从每一个N级逻辑页中提取第(N+1)级标题,及隶属于第(N+1)级标题的文本内容,N取≥1的整数。6.根据权利要求5所述的PDF文档结构化信息提取方法,其特征在于,所述分别从每一个N级逻辑页中提取第N+1级标题...
【专利技术属性】
技术研发人员:徐龙,李德彦,杨宇,
申请(专利权)人:北京神州泰岳软件股份有限公司,中科鼎富北京科技发展有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。