用于提取文档结构的方法和装置制造方法及图纸

技术编号:7509563 阅读:121 留言:0更新日期:2012-07-11 08:19
本发明专利技术提供了一种用于提取文档结构的方法,包括:获取图书文档的图书目录和版式内容;根据图书目录从版式内容中识别篇章节;提取篇章节。本发明专利技术还提供了一种用于提取文档结构的装置,包括:获取模块,用于获取图书文档的图书目录和版式内容;识别模块,用于根据图书目录从版式内容中识别篇章节;提取模块,用于提取篇章节。本发明专利技术提高了提取文档结构的效率和正确率。

【技术实现步骤摘要】

本专利技术涉及数字排版领域,具体而言,涉及用于提取文档结构的方法和装置
技术介绍
目前的结构化内容处理领域中,章节结构化内容是通过分析图书的正文内容和版式来进行提取的。具体来说,是通过分析字体、字号、章节的版式符号定义等信息,识别出章节位置。这样的方法需要先分析图书的版式特点、归纳出章节内容排版规律,再通过手工定义章节映射规则才能进行提取。该方法的具体步骤如下步骤1、分析图书的正文内容和版式,确定要提取章节内容的层级映射规则。如章节的一级标题映射规则可以设置为章节级别一级、字体黑体、字号2号。步骤2、根据章节映射规则扫描图书正文内容和版式,识别出章节在正文中的起始位置和结束位置。提取出章节内容。如按照步骤1中列举的规则可以将字体为黑体2号的内容识别为章节起始位置。步骤3、对提取的章节内容进行编辑校对,如果发现章节位置识别不准确,再回到步骤1,调整章节映射规则,重新对正文进行扫描提取。基于上述方法的章节内容提取系统,必须首先浏览图书内容,分析章节标题的内容版式特征,归纳章节映射规则,这样的操作方式比较复杂,映射规则难以掌握。而且,这种方法虽然可以将内容版式有特定规律的章节内容提取出来,但是如果章节内容没有明显的版式特征,将无法归纳出映射规则。另外,带有图片或特定符号的章节标题也无法用规则描述出来。利用上述方法,如果提取结果有误,还需要重新分析章节内容版式、重新设定映射规则。综上所述,该章节结构化内容提取方法章节识别不准确、操作过程复杂、费时费力。
技术实现思路
本专利技术旨在提供一种用于提取文档结构的方法和装置,以解决相关技术提取文档结构费时费力容易出错的问题。在本专利技术的实施例中,提供了一种用于提取文档结构的方法,包括获取图书文档的图书目录和版式内容;根据图书目录从版式内容中识别篇章节;提取篇章节。在本专利技术的实施例中,提供了一种用于提取文档结构的装置,包括获取模块,用于获取图书文档的图书目录和版式内容;识别模块,用于根据图书目录从版式内容中识别篇章节;提取模块,用于提取篇章节。本专利技术上述实施例的用于提取文档结构的方法和装置,利用目录信息自动地识别和提取文档结构,所以解决了相关技术提取文档结构费时费力容易出错的问题,提高了提取文档结构的效率和正确率。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中图1示出了根据本专利技术实施例的用于提取文档结构的方法的流程图;图2示出了根据本专利技术实施例的用于提取文档结构的装置的示意图。具体实施例方式下面将参考附图并结合实施例,来详细说明本专利技术。图1示出了根据本专利技术实施例的用于提取文档结构的方法的流程图,包括步骤S10,获取图书文档的图书目录和版式内容;步骤S20,根据图书目录从版式内容中识别篇章节;步骤S30,提取篇章节。相关技术依靠人工方式分析图书文档来提取文档结构,容易出错,且费时费力。而本实施例的方法利用目录信息识别和提取文档结构,一般的图书文档都有图书目录,而计算机进行目录信息的自动识别很容易实现,所以本方法可以通过计算机自动地识别和提取大多数图书文档的文档结构,这解决了相关技术提取文档结构费时费力容易出错的问题, 提高了提取文档结构的效率和正确率。在本专利技术的实施例中还可以包括步骤对图书文档按照流式或版式方式进行内容提取,按页提取文本内容,对每一页的正文文本可以选择不同方式进行提取。进一步地,不同格式的图书文档,如PDF、Word、PS、EPub、CEB格式,可以转换成统一的格式,如CEBX格式, 然后打开和提取。优选地,步骤S20包括在版式内容中逐个段落地识别匹配图书目录中每个目录段落的内容;将匹配当前目录段落的内容的起始位置作为对应于当前目录段落的篇章节的起始位置;将匹配下一目录段落的内容的起始位置作为对应于当前目录段落的篇章节的结束位置。当章节标题包含图片或者特殊的排版符号时,相关技术提取的内容不准确。而且对于没有明显排版规律的章节内容无法进行提取。该优选实施例利用文字模糊匹配技术进行识别,很容易通过计算机编程来实现,而且可以解决上述问题。优选地,在版式内容中逐个段落地识别匹配图书目录中每个目录段落的内容包括如果识别到在版式内容中的当前段落匹配当前目录段落,则从下一段落开始尝试匹配下一目录段落。该优选实施例的流程结构很简单,很容易通过计算机编程来实现。优选地,提取篇章节包括对于每个目录段落,提取从其所对应的篇章节的起始位置到结束位置的版式内容,作为其所对应的篇章节的版式内容;设置每个篇章节的结构级别对应于其所对应的目录段落的目录级别。因为目录段落通常具有段落级别,所以本优选实施例利用该信息可以很容易地确定篇章节的结构级别。例如根据目录段落的段落级别是章,则可以确定其对应的篇章节的结构级别是章。图书文档的图书目录(如PDF、CEB、CEBX 等图书文档)通常提供了其目录段落的段落级别。如果图书目录没有提供段落级别,也可以手工添加目录级别。优选地,本方法还包括创建结构化文件,其包括顺序地与篇章节一一对应的多个条目,每个条目的内容属性为对应的篇章节的版式内容,每个条目的级别属性为对应的篇章节的结构级别。本优选实施例利用提取的篇章节,将普通的图书文档导出到结构化文件中。例如,该结构化文件是XML文件,这种格式中包含了章节层级结构和文本内容,如下所示 〈Root IevelD 〈Catalog level=”<Chapter level="2" name=’’章节名称 1" pageNum=’’页码’ > 〈Chapter level="3" name="章节名称 2" pageNum=”页码<!]> </Chapter> </Chapter> </Catalog> </Root>更进一步,导出的结构化内容可以入到数据库,为后端的数字出版、网站发布系统提供统一的数据格式,实现数字出版业的自动流程。优选地,采用模糊(近似)匹配的方式根据图书目录从版式内容中识别篇章节,如目录项的文字为“1. 1实现模式”,在章节起始页会匹配到最近似的文字“1. Ixx实现XX模式”,并将匹配位置作为章节起始位置。本方法还包括将目录段落修改为与其所对应的篇章节保持一致。这可以进一步提高图书文档的质量。例如,版式内容显示某个章节名为“第一章”,而目录段落显示为“第1章”,此时可将此目录段落的名称修改为“第一章”。另外,在本专利技术的实施例中还可以包括步骤对文本提取结果中的乱码、提取错误的文字或者像页眉、页脚这样多余的内容进行替换或删除,进行全半角转换。在本专利技术的实施例中还可以包括步骤对版式显示内容进行放大、缩小、旋转等操作,以方便对不同排版方式的内容进行校对。图2示出了根据本专利技术实施例的用于提取文档结构的装置的示意图,包括获取模块10,用于获取图书文档的图书目录和版式内容;识别模块20,用于根据图书目录从版式内容中识别篇章节;提取模块30,用于提取篇章节。本装置提高了提取文档结构的效率和正确率。优选地,识别模块20包括匹配模块,用于在版式内容中逐个段落地识别匹配图书目录中每个目录段落的内容;起始模块,用于将匹配当前目本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:黄冶田寄远陈长刚翟因为
申请(专利权)人:北大方正集团有限公司北京北大方正电子有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术