提取版式文档目录的方法及装置制造方法及图纸

技术编号:7502067 阅读:173 留言:0更新日期:2012-07-11 02:20
本发明专利技术提供了一种提取版式文档目录的方法及装置。根据本发明专利技术的提取版式文档目录的方法包括:查找页面中的页码块;提取页码块所在行的文本串;将所提取的文本串与正文章节标题匹配;根据匹配成功率判断所述页面是否为目录页;以及提取被判断为目录页的页面的目录条目。通过匹配成功率判断所述页面是否目录页,提高了提取目录页条目相关信息的效率以及成功率。

【技术实现步骤摘要】

本专利技术涉及版式文件处理
,更具体地说,本专利技术涉及一种提取版式文档目录的方法及装置
技术介绍
数字版式文档的目录页是文档组成单元的一个提纲,能够直观地展现文档树形层次结构。中国专利申请200810119333.0公布了一种自动识别数字文档目录的方法及装置。该方法基于目录页的属性信息自动识别数字文档的目录,并利用聚类的方法对折行进行处理。其优点是根据目录页面的属性信息提取到目录页条目;缺点是不能很好的适应数字文档的排版方式的多样性。在梁莹等人提出的海蓝目录自动识别系统的设计(参见梁莹、施善旦.海蓝目录自动识别系统的设计,广西科学院学报,2004,(4))中,根据目录的缩进量作为目录层次的判断依据,再通过目录提取和人工校正得到目录格式,其优点是能够提取多种格式的书籍目录结构,但是该方案的缺点是不能有效地处理没有缩进量的目录页。在陈国光等人提出的一种基于规则的图书逻辑结构提取算法(参见陈国光,丁晓青,彭良瑞.一个基于规则的图书逻辑结构提取算法,计算机工程与应用,2002,(19)) 中,基于规则的方法提取书籍中的逻辑元素和各元素间的关系,得到图书的逻辑结构,其优点是根据目录页文本行的各种语义模式提取目录条目,但是该方案的缺点是标题和正文的特征近似时不能有效的提取条目。综上所述,数字版式文档的目录识别和目录条目提取主要利用目录页的特征、建立识别模型,然而,在文档资料的数字化过程中,目录页的页面性质以及格式特征之多是难以穷尽的,所以
技术介绍
的上述方法均存在其局限性。因此,希望提出一种能够更有效地提取目录页条目相关信息的方法。
技术实现思路
本专利技术的一个目的是提供一种能够更有效地提取目录页条目相关信息的方法及直ο根据本专利技术的第一方面,提供了一种提取版式文档目录的方法,包括查找页面中的页码块;提取页码块所在行的文本串;将所提取的文本串与正文章节标题匹配;以及根据匹配成功率判断所述页面是否为目录页;并提取被判断为目录页的页面的目录条目。通过匹配成功率判断所述页面是否目录页,提高了提取目录页条目相关信息的效率以及成功率。在上述提取版式文档目录的方法中,查找页面中的页码块的步骤包括提取页面中的数字块;查找数字块中的页码块;记录页码块的数目;按照页码块的非数字内容的一致性、或数字和字符的间距的一致性进行聚类分析;针对每个聚类分别进行垂直投影,查看页码块的列信息是否存在分栏现象;以及确定页码块在所在行的位置。其中,所述页码块的类型包括但不限于数字、数字-字符的组合、字符-数字的组合、字符-数字-字符的组合、以及数字-字符-数字的组合。 在上述提取版式文档目录的方法中,提取被判断为目录页的页面的目录条目的步骤包括将被判断为目录页的页面中的页码块所在行的文本串、以及所述文本串的折行中的文本串提取为目录条目。在上述提取版式文档目录的方法中,根据匹配成功率判断所述页面是否为目录页的步骤包括相对于页码块的数目,如果匹配成功率大于预定的第一比值,则判定所述页面为目录页。在上述提取版式文档目录的方法中,根据匹配成功率判断所述页面是否为目录页的步骤还包括将所述预定的第一比值设置为不小于二分之一。在上述提取版式文档目录的方法中,根据匹配成功率判断所述页面是否为目录页包括相对于页码块的数目,如果匹配成功率大于预定的第二比值,并且页码块的数目大于页面所包含的行数的预定的第三比值,则判定所述页面为目录页。在上述提取版式文档目录的方法中,根据匹配成功率判断所述页面是否为目录页的步骤还包括将所述预定的第二比值设置为0. 15,将预定的第三比值设置为0. 6。根据本专利技术的第二方面,提供了一种提取版式文档目录的方法,包括搜索步骤, 用于根据关键字从版式文档的第一页开始搜索文档;首页判定步骤,用于在搜索到关键字时将当前页面判定为目录页的首页;以及目录页识别步骤,用于根据本专利技术的第一方面所述的方法从判定出的所述首页开始依次判断版式文档的后续页面是否为目录页。在上述提取版式文档目录的方法中,所述搜索步骤包括将关键字设置为与目录有关的文字。在上述提取版式文档目录的方法中,在判断出存在目录页后,若目录页识别步骤中判定出页面不是目录页时,则将当前页面的上一页面判定为目录页的尾页。也就是说,根据本专利技术的第一方面和第二方面,目录页的识别确定方法分为2种情况①先在候选页中搜索预定义关键字,如果搜索到预定义关键字,则此页是目录页, 再提取此页中的页码块,根据页码块提取目录条目。预定义关键字包括目录、Contents寸。②若未搜索到预定义关键字,则查找页面中的页码块;提取页码块所在行的目录条目;将所提取的目录条目中所包含的文本串与正文章节标题匹配;根据匹配成功率判断所述页面是否为目录页。在本说明书中,目录条目仅包含文本串而不包含页码。根据本专利技术的第三方面,提供了一种版式文档目录提取装置,用于执行根据本专利技术的第一方面或第二方面所述的方法。具体地说,实际上这些模块可用于分别执行上述步骤和/或下文中所描述的各个流程中的各个步骤。附图说明图1是根据本专利技术实施例的根据预定义关键字确定目录页开始页的流程图2是根据本专利技术实施例的分析目录页开始页的流程图;图3是根据本专利技术实施例的确定页码块的流程图;图4是根据本专利技术实施例的提取单栏及多栏目录页条目的流程图;图5是根据本专利技术实施例的提取页码块混排的目录页条目的流程图;图6是根据本专利技术实施例的分析目录页的结束页的流程图,图7是单栏目录的示意图;图8是多栏目录的示意图;图9是混排目录的示意图;图10示出了根据本专利技术实施例的目录提取装置的示意图;以及图11是具有双页码块的目录的示意图。注意,附图用于说明本专利技术,而非限制本专利技术。具体实施例方式为了使本专利技术的内容更加清楚和易懂,下面结合具体实施例和附图对本专利技术的内容进行详细描述。本专利技术针对数字版式文档中已经存在的目录进行目录页的定位,进而提取目录条目。版式文档是指由“word”、“写字板”之类编辑工具制作的符合版式文档格式规范的文档, 如PDF版式文档格式等。本专利技术利用数字文档的内在版面布局信息及页码和条目之间的关系提取目录页条目。并且,本专利技术利用数字块(具体地说是数字块中的页码块)在目录条目中的位置及条目与正文中的章节标题的匹配关系确定折行的归属情况。下面将对本专利技术做出详细说明。为了更清楚的解释本专利技术,首先对相关术语解释如下。在本专利技术中,术语“模式匹配”指的是对于给定的两个串T和P,在T中寻找等于P 的子串的过程。本专利技术是根据预置的页码块类型由提取的数字块的类型来确定该数字块是否是页码块。术语“聚类分析”的含义是根据一定规则将数据分为一系列有意义的子集,同一聚类中,个体之间的差距较小,不同聚类中,个体之间的距离偏大。也就是说,把特征相同或近似的数据聚集成类。在本专利技术中,根据每一分类中的数字块的非数字内容是否相同或非数字内容和数字的间距是否一致进行聚类。“投影分析”,其中投影分为水平投影和垂直投影,本专利技术采用的是垂直投影,也就是将页码块向水平方向做投影,这样可以获取投影区域,用于判断此页的排版方式为单栏或多栏。分栏的确定方法为①对聚类中的数字块进行垂直投影,即统计各数字块在列方向上的区间范围;②过滤过小的区间间距,即若两数字块在列方向上的距离小于数字块字号的3. 2倍,则将两数字块的间距过本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种提取版式文档目录的方法,其特征在于包括 查找页面中的页码块;提取页码块所在行的文本串; 将所提取的文本串与正文章节标题匹配; 根据匹配成功率判断所述页面是否为目录页;以及提取被判断为目录页的页面的目录条目。2.根据权利要求1所述的提取版式文档目录的方法,其特征在于,其中查找页面中的页码块的步骤包括提取页面中的数字块; 查找数字块中的页码块;按照页码块的非数字内容的一致性、或数字和字符的间距的一致性,进行聚类分析; 针对每个聚类分别进行垂直投影,查看页码块的列信息是否存在分栏现象;以及确定页码块在所在行的位置。3.根据权利要求1或2所述的提取版式文档目录的方法,其特征在于,其中根据匹配成功率判断所述页面是否为目录页的步骤包括相对于页码块的数目,如果匹配成功率大于预定的第一比值,则判定所述页面为目录页。4.根据权利要求3所述的提取版式文档目录的方法,其特征在于,其中根据匹配成功率判断所述页面是否为目录页的步骤还包括将所述预定的第一比值设置为不小于0. 5。5.根据权利要求1或2所述的提取版式文档目录的方法,其特征在于,其中根据匹配成功率判断所述页面是否为目录页包括相对于页码块的数目,如果匹配成功率大于预定的...

【专利技术属性】
技术研发人员:董宁徐剑波黄文娟
申请(专利权)人:北大方正集团有限公司北京方正阿帕比技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术