一种PDF文档标题结构树生成方法、装置、终端及系统制造方法及图纸

技术编号:16455934 阅读:54 留言:0更新日期:2017-10-25 20:31
本发明专利技术实施例提供了一种PDF文档标题结构树生成方法、装置、终端及系统,为了解决从PDF文档中提取文档的标题结构的问题,首先,获取PDF文档中所有的字符信息;然后,获取每个所述字符信息的属性信息,所述属性信息包括字符信息的X轴坐标、Y轴坐标、字符尺寸和字体样式等;其次,根据所述属性信息,将所述字符信息划分成多个单元行,每个所述单元行顺序包含所有位于文档同一行的所述字符信息;再次,根据单元行划分结果,从所有所述单元行中识别出所有标题信息;最后,确定所述标题信息的标题级别,生成包含所有所述标题信息的标题结构树,解决了现有技术中无法从PDF文档中提取文档标题结构的问题。

Method, device, terminal and system for generating title structure tree of PDF document

The embodiment of the invention provides a PDF title of the document structure tree generation method, device, terminal and system, in order to solve the problem of the structure of the document Title Extraction from PDF documents, first of all, to get all the character information of the PDF document; then, obtaining attribute information of each of the character information, the attribute information including the character information of X axis, Y axis, character size and font style; secondly, according to the attribute information, the character information is divided into a plurality of cells, each of the units for order in the document contains all the same line of the character information; thirdly, according to the classification results for unit identify all the information from the title, all of the units in a row; finally, determine the title information heading level, generating all of the tree structure contains the header header information, address It is impossible to extract the title structure of document from PDF document in the existing technology.

【技术实现步骤摘要】
一种PDF文档标题结构树生成方法、装置、终端及系统
本专利技术涉及文字信息处理领域,尤其涉及一种PDF文档标题结构树生成方法、装置、终端及系统。
技术介绍
便携式文档格式(英语:PortableDocumentFormat,简称PDF)是电子设备中常用的呈现文档的文件格式,每个PDF文档包含固定布局的平面文档的完整描述,包括文本、字形、图形及其他需要显示的信息。PDF文档的内容经常是一篇文章、一本书籍等,因此,在PDF文档中,文档的内容按照文章的结构、书籍的章节等具有不同的层级,每个层级的内容在开头处通常具有与内容层级对应的标题。由于,文档的标题通常与文档的内容相对应,所以,文档的标题结构通常能够体现文档的内容结构,因此,在一些文档数据管理系统中,通常通过展现标题结构或提供标题内容检索的方式,为用户提供文档结构预览或文档内容检索。在现有技术中,通常通过识别PDF文档目录的方式获取到文档的标题结构,然而,有些文档并不包含目录,就无法通过识别PDF文档目录的方式获取到文档的标题结构。因此,对于PDF文档,尤其是对于不包含目录的PDF文档,如何PDF文档中提取文档的标题结构成为本领域技术人本文档来自技高网...
一种PDF文档标题结构树生成方法、装置、终端及系统

【技术保护点】
一种PDF文档标题结构树生成方法,其特征在于,所述方法包括:获取PDF文档中所有的字符信息;获取每个所述字符信息的属性信息,所述属性信息包括字符信息的X轴坐标、Y轴坐标、字符尺寸和字体样式等;根据所述属性信息,将所述字符信息划分成多个单元行,每个所述单元行顺序包含所有位于文档同一行的所述字符信息;根据单元行划分结果,从所有所述单元行中识别出所有标题信息;确定所述标题信息的标题级别,生成包含所有所述标题信息的标题结构树。

【技术特征摘要】
1.一种PDF文档标题结构树生成方法,其特征在于,所述方法包括:获取PDF文档中所有的字符信息;获取每个所述字符信息的属性信息,所述属性信息包括字符信息的X轴坐标、Y轴坐标、字符尺寸和字体样式等;根据所述属性信息,将所述字符信息划分成多个单元行,每个所述单元行顺序包含所有位于文档同一行的所述字符信息;根据单元行划分结果,从所有所述单元行中识别出所有标题信息;确定所述标题信息的标题级别,生成包含所有所述标题信息的标题结构树。2.根据权利要求1所述的方法,其特征在于,所述获取PDF文档中所有的字符信息的步骤,包括:对PDF文档进行文档内容解析;根据解析结果,获取PDF文档中所有的所述字符信息。3.根据权利要求1所述的方法,其特征在于,所述获取每个所述字符信息的属性信息,所述属性信息包括字符信息的X轴坐标、Y轴坐标、字符尺寸和字体样式等的步骤,包括:在文档页面建立二维坐标系,所述二维坐标系包括沿页面宽度方向的X轴和沿页面高度方向的Y轴;根据所述二维坐标系获取所述字符信息的X轴坐标、Y轴坐标、字符尺寸,以及,从字体库中匹配所述字符信息的字体样式,从而获取每个所述字符信息的所述属性信息。4.根据权利要求1所述的方法,其特征在于,根据所述属性信息,将所述字符信息划分成多个单元行,每个所述单元行顺序包含所有位于文档同一行的所述字符信息的步骤,包括:对每个页面的所述字符信息,按照Y轴坐标的大小进行一次排序;根据所述一次排序的结果,对Y轴坐标相同的所述字符信息,按照X轴坐标的大小进行二次排序;根据所述二次排序的结果,将Y轴坐标数值相同的所述字符信息,划分为所述单元行。5.根据权利要求1所述的方法,其特征在于,所述根据单元行划分结果,从所有所述单元行中识别出所有标题信息的步骤,包括:根据所述字符信息的字符尺寸,判断所述单元行中是否包含字符尺寸最小的字符信息;如果否,则判断所述单元行是否以序号开头和/或使用加粗字体;如果是,则判断所述单元行在序号处以外,是否还包含标点符号;如果否,则判断所述单元行相邻的前一个所述单元行和后一个所述单元行中的字符信息是否均占满整行;如果否,则判断所述单元行的所述字符信息的起始X轴坐标和终止X轴坐标是否在预设坐标范围内;如果是,则将所述单元行识别为标题信息。6.根据权利要求1所述的方法,其特征在于,所述确定所述标题信息的标题级别,生成包含所有所述标题信息的标题结构树的步骤,包括:将无序号且字符尺寸最大的所述标题信息,确定为一级标题,所述一级标题为级别最高的标题;在所述标题信息中,确定有序号的所述标题信息的标题级别;将除所述一级标题以外,无...

【专利技术属性】
技术研发人员:徐龙王文军房平会
申请(专利权)人:北京神州泰岳软件股份有限公司中科鼎富北京科技发展有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1