一种文档标题提取方法和装置制造方法及图纸

技术编号:7267811 阅读:188 留言:0更新日期:2012-04-15 06:54
本发明专利技术提供一种文档标题提取方法,包括:预置待处理文档中的标题的关键符和最大长度值;根据预置的关键符和最大长度值提取文档文字流中的标题文字流。相应地,本发明专利技术提供一种文档标题提取装置。本发明专利技术只需事先设置文档标题的关键符和最大长度值,就可提取各种数字文档中的标题,尤其是对于纯文本文档的标题提取,打破了其无属性设置的局限性,给需要提取标题的应用带来了极大的便利性。

【技术实现步骤摘要】

本专利技术涉及文本数据处理
,尤其涉及一种文档标题提取方法和装置
技术介绍
目前,随着计算机技术的发展,许多信息资源都以电子文档数据的形式保存,如何有效地从电子文档数据中抽取其逻辑结构(例如,文档标题)及其结构信息,是目前许多数字文档结构分析与应用技术中的关键问题。比如,在目前逐渐被越来越多的人接受的电子书阅读中,从技术角度来讲,除了采用压缩图像方式的数据格式(比如,djvU/djv,pdf等)之外,一般就是采用文本方式(即, ASCII码方式)的数据格式(比如,pdf、doc、tXt等)。但是,目前,这两种方式的电子书一般在制作期间都没有设置目录,这给使用者的阅读和目录检索带来了很大的不便。因此,期望能从电子书的图像或文本文档中提取文档标题作为目录条目,从而形成目录。针对电子书阅读的这种问题,在“基于OCR的电子图书目录自动生成算法的实现”(《现代情报》对卷9期)中提出了一种能够自动生成电子图书目录的方法。在该方法中,首先使用0CR(光学字符识别)技术形成数字文献目录的逻辑状态,然后通过分离前导空格值、标题、页码等信息创建目录树。这种方法仅针对图像方式的电子书有效,并且OCR 技术的好坏直接影响着目录提取的结果,而对于无字体、字号、位置等属性设置的文本方式的电子书,却无法提取文档标题来创建目录。同样,目前广泛使用的办公软件WORD、WPS等虽然具有提取文档标题形成目录的功能,但是它们也要求文档标题要具有不同于正文的属性,比如,粗体、字号等,所以这些办公软件也无法适用于文本文档的标题提取。此外,在申请号为200710179938. 4的中国专利申请“一种基于PDF的复杂版面的标弓丨方法”中,提出了一种对PDF文件中的文档标题进行标弓I的方法。在该方法中,通过分析和获取PDF上文字信息以及位置、字体、字号等信息,根据相邻、相似的原则进行自动化的文字成块操作;进一步根据字体字号等信息确定文档标题。通过这种方法,可提取PDF文件中的其字体、字号等信息不同于正文的章节标题。但是,如果PDF文件中章节标题的字体、字号等信息与正文相同,并且与正文之间的相邻关系也相同,则很难提取到文档标题。 此外,由于文本文档中没有字体、字号等属性设置,所以该方法也无法提取文本文档中的标题。从以上描述可看出,目前,对于类似于电子书阅读这样需要提取数字文档中的标题的应用而言,尚不能有效地从缺乏字体、字号等属性的文本文档或者无法区分标题与正文的字体、字号等属性的文档中提取文档标题。
技术实现思路
为了解决以上问题,本专利技术提供一种文档标题提取方法和装置,以实现各种数字文档中的标题提取。为了实现以上目的,本专利技术提供的文档标题提取方法包括以下步骤预置待处理文档中的标题的关键符和最大长度值;根据预置的关键符和最大长度值提取所述文档的文字流中的标题文字流。优选地,对于中文文档,所述标题的关键符包括“第”、“回”、“章”、“卷”、“节”、“部分”、项目符号和编号中的至少一个;对于英文文档,所述标题的关键符包括“Chapter”、 “Section”、项目符号和编号中的至少一个。优选地,所述提取文档的文字流中的标题文字流的步骤包括以下步骤以回车换行为分隔符标记将所述文字流分成一个或多个段落文字流,并将所述段落文字流形成段落文字流集合;从段落文字流集合中提取长度小于预置的最大长度值的段落文字流,形成类似标题文字流集合;根据预置的关键符过滤类似标题文字流集合中的伪标题文字流,并提取类似标题文字流集合中的其余的类似标题文字流以形成标题文字流集合。优选地,对于标题包括多个段落的情况,除了预置标题的关键符和最大长度值之外,还预置标题所包括的段落数和各个关键符的段落位置,并且,在形成类似标题文字流集合之后,根据预置的段落数和段落位置从该类似标题文字流集合中提取由数量为所述段落数的段落文字流构成的类似标题文字流,形成进一步提取的类似标题文字流集合。优选地,所述过滤类似标题文字流集合中的伪标题文字流的步骤包括以下步骤 统计预置的关键符在类似标题文字流集合中的所有类似标题文字流中的位置排列方式,包括升序、降序和固定不变;遍历类似标题文字流集合执行以下分析步骤,直到找到第一个标题文字流为止统计预置的关键符在类似标题文字流集合中从当前类似标题文字流开始的类似标题文字流中的位置排列方式,如果统计的关键符在类似标题文字流集合中从当前类似标题文字流开始的类似标题文字流中的位置排列方式与统计的预置的关键符在类似标题文字流集合中的所有类似标题文字流中的位置排列方式一致,则将当前类似标题文字流确定为第一个标题文字流,否则将当前类似标题文字流确定为伪标题文字流;遍历类似标题文字流集合中位于找到的第一个标题文字流之后的所有类似标题文字流,将与统计的关键符在类似标题文字流集合中的所有类似标题文字流中的位置排列方式不一致的类似标题文字流确定为伪标题文字流。优选地,所述统计预置的关键符在类似标题文字流集合中的所有类似标题文字流中的位置排列方式的步骤包括以下步骤创建一个表示预置的关键符在每个类似标题文字流中的位置的大小为mXmaxLength的矩阵L,其中,m为类似标题文字流集合中的类似标题文字流的个数,maxLength为预置的标题的最大长度值,矩阵L中的元素I^j表示第i个类似标题文字流中的第j个字符所在的位置,i = 1,…,m,j = 1,…,maxLength,并将矩阵 L的每个元素Lm初始化为0 ;遍历类似标题文字流集合,执行以下步骤遍历预置的所有关键符,获取每个关键符在每个类似标题文字流中的位置,并将矩阵L中相应位置的元素Liij 设置为1 ;创建一个表示预置的关键符在类似标题文字流集合中的位置排列方式的大小为 IXn的矩阵A,并将所有元素A初始化为0,其中,η为预置的关键符个数,矩阵A中的元素 Ai表示第i个关键符在类似标题文字流集合中的位置排列方式,Ai = -1表示第i个关键符在类似标题文字流集合中的位置形成降序排列,i = 1,-,n, Ai = 0表示第i个关键符在类似标题文字流集合中的位置固定不变,Ai = 1表示第i个关键符在类似标题文字流集合中的位置形成升序排列;根据矩阵L,统计每个关键符在类似标题文字流集合中的位置排6列方式,并分别根据统计的位置排列方式是降序、固定不变还是升序将矩阵A中的相应元素设置为_1、0或1。优选地,所述分析步骤包括以下步骤统计类似标题文字流集合中从当前类似标题文字流开始的类似标题文字流中满足矩阵A所示的位置排列方式的类似标题文字流的个数nNum,并将nNum与类似标题文字流集合中满足矩阵A所示的位置排列方式的类似标题文字流的个数m进行比较,如果nNum < m/2,则确定当前类似标题文字流为伪标题文字流, 并将矩阵L中相应行的所有元素设置为0 ;如果nNum ^ m/2,则确定当前类似标题文字流为第一个标题文字流;优选地,在遍历类似标题文字流集合中位于找到的第一个标题文字流之后的所有类似标题文字流,将与统计的关键符在类似标题文字流集合中的所有类似标题文字流中的位置排列方式不一致的类似标题文字流确定为伪标题文字流之后,将矩阵L中的相应行的所有元素设置为0,并提取与矩阵L中具有元素1的行相应的类似标题文字流作为标题文本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:李松峰邓姿王长桥张军
申请(专利权)人:北大方正集团有限公司北京方正飞阅传媒技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术