本发明专利技术提供了一种用于提取文档结构的方法,包括:获取文档的对象;将对象转换为预定义的标准格式;识别和标注标准格式的对象内的各个项;提取所匹配的各个项的内容,以组织成关于文档的结构化数据。本发明专利技术还提供了一种用于提取文档结构的装置,包括:获取模块,用于获取文档的对象;转换模块,用于将对象转换为预定义的标准格式;标引模块,用于识别和标注标准格式的对象内的各个项;提取模块,用于提取所匹配的各个项的内容,以组织成关于文档的结构化数据。本发明专利技术达到了提高提取文档结构的效率的效果。
【技术实现步骤摘要】
本专利技术涉及数字出版领域,具体而言,涉及用于提取文档结构的方法和装置。
技术介绍
在传统出版领域,书籍、报刊的文档格式只是为了满足传统印刷的需求,对于内容的描述局限于文字、图形、图像的轮廓、顔色、位置等视觉要素,没有构建文档的逻辑内容和内在关系。在数字出版领域,对文档的逻辑内容、关联关系、内容的颗粒度更为关注,对文档进行结构化加工是进行数字内容再利用的前提条件。目前,对文档内容结构化加工的方法主要采用手动加工,加工人员根据预先定义的规则,肉眼识别文档中符合规则的文档内容,手工填写到自定义的表单中。这种操作方式效率较低,工作量大,而且容易出错。 还有ー种解决方案是采用计算机执行预设的匹配规则识别文档结构。专利技术人发现,由于现存的常用文档格式较多,目前的解决方案是对多不同的文档格式采用不同的加エ方法和系统,操作比较繁琐。
技术实现思路
本专利技术g在提供一种用于提取文档结构的方法和装置,以解决相关技术操作比较繁琐的问题。在本专利技术的实施例中,提供了一种用于提取文档结构的方法,包括获取文档的对象;将对象转换为预定义的标准格式;识别和标注标准格式的对象内的各个项;提取所匹配的各个项的内容,以组织成关于文档的结构化数据。在本专利技术的实施例中,提供了一种用于提取文档结构的装置,包括获取模块,用于获取文档的对象;转换模块,用于将对象转换为预定义的标准格式;标引模块,用于识别和标注标准格式的对象内的各个项;提取模块,用于提取所匹配的各个项的内容,以组织成关于文档的结构化数据。本专利技术上述实施例的用于提取文档结构的方法和装置,因为预先统ー了对象的格式,所以可以执行数据项的自动识别,解决了相关技术操作比较繁琐的问题,达到了提高提取文档结构的效率的效果。附图说明此处所说明的附图用来提供对本专利技术的进ー步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中图I示出了根据本专利技术实施例的用于提取文档结构的方法的流程图;图2示出了根据本专利技术优选实施例的用于提取文档结构的方法的流程图;图3示出了根据本专利技术实施例的用于提取文档结构的装置的示意图。具体实施例方式下面将參考附图并结合实施例,来详细说明本专利技术。图I示出了根据本专利技术实施例的用于提取文档结构的方法的流程图,包括步骤S10,获取文档的对象;步骤S20,将对象转换为预定义的标准格式;步骤S30,识别和标注标准格式的对象内的各个项;步骤S40,提取所匹配的各个项的内容,以组织成关于文档的结构化数据。常用的电子文档有HF、WORD等各种格式,现有的文档结构识别技术不能同时识 别不同格式的文档中的对象,因此只能对多不同的文档格式采用不同的加工方法和系统,操作比较繁琐,工作量大,容易出错。而本实施例中,因为预先统ー了对象的格式,在定义统一的输出格式的基础上,将文档的加工过程规范化,经过多个环节的处理,达到使用同一种工具和系统即可对多种格式的文档进行结构化,提高了加工速度,规范了输出文档格式,而且减少了人为出错。优选地,步骤SlO包括获取文档内部嵌入的对象和文档外部链接的对象。现有的文档格式比较复杂,不仅将对象嵌入在文档中,还可以在文档中仅仅包含对象的链接地址。本优选实施例通过获取文档内部嵌入的对象和文档外部链接的对象,从而可以确保不遗漏对象。优选地,步骤S20包括使用预设的匹配规则匹配标准格式的对象,以识别符合匹配规则的各个项;按照预设的标引规则对各个项予以相应地标注。通过设置匹配规则和标弓I规则,从而可以很容易地通过计算机编程来执行这些规则,使得操作自动化。优选地,步骤S20还包括提供界面以接受对标注的修改。因为文档内容的高度复杂,所以计算机自动识别和标注的内容有可能不准确,本优选实施例通过提供人机交互的界面,可以人工地修正错误,予以补充。优选地,采用标签和/或内容控件进行标注。这是比较常用的标注方式,容易实现。优选地,采用XML格式定义匹配规则和标引规则。XML是标准的结构化语言,用于定义匹配规则和标引规则比较容易实现。优选地,本方法还包括预先将文档的版本转换为设置的版本。目前,即使是同一格式的文档,往往因为版本的不同也会导致不能处理。例如WORD 2003和WORD 2007就有较大的区別。通常各种软件的版本是向上兼容的,即高版本可以兼容低版本。因此可以预先将所有不同格式的文档的版本都统ー转换为该格式的最高版本。优选地,对象包括以下至少之ー字符、图形、图像、公式和表格。这些都是常用的对象,本优选实施例通过处理这些对象,可以应用于绝大多数场景。图2示出了根据本专利技术优选实施例的用于提取文档结构的方法的流程图,包括以下步骤(I)对待加工的文档进行预处理,包括收集文档中的字符、图形、图像、公式、表格等文档内部嵌入的对象数据和文档外部链接的对象数据,分类编号存储;还可以对文档的版本进行归一化处理,将同一类型文档的不同版本处理为同一版本,例如,常用的办公软件,由于软件版本不同,其生成的文档的版本也不相同,为了简化处理,将低版本的文档转换为高版本的文档。(2)对文档预处理后的数据进行规范化处理,包括将不同数据标准的文字、图形、公式、表格等对象数据转换为预定义的标准格式的数据;该标准格式、自动标引装置中的标弓I规则以及导出装置的结果文件的格式采用XML格式定义。(3)对预处理后的文档数据进行自动识别,包括识别文档的特有元素,如目录、版心、页眉、页脚、标题、脚注、尾注、页码等内容。(4)对自动识别后的文档数据进行自动标引,即按照预先制定的标引规则,对文档中符合规则的数据进行标记;对文档进行自动标引的装置可采用标签和内容控件进行标记。该标引规则可采用XML格式定义。 (5)对自动识别处理后的数据进行交互标引加工,即提供交互界面,修改自动标引中因规则的ニ义性造成的不符合要求的标引結果,以及给文档增加文档自身内容以外的附属数据。(6)对数据进行抽取导出,即抽取标引的数据和附属数据,导出生成预定义的结果文件。该结果文件的格式可采用XML格式定义。本优选实施例在定义统一的输出格式的基础上,将文档的加工过程规范化,经过多个环节的处理(包括预处理、规范化、自动识别、自动标引、交互标引、抽取导出等环节),达到使用同一种工具和系统即可对多种格式的文档进行结构化,提高了加工速度,规范了输出文档格式。图3示出了根据本专利技术实施例的用于提取文档结构的装置的示意图,包括获取模块10,用于获取文档的对象;转换模块20,用于将对象转换为预定义的标准格式;标引模块30,用于识别和标注标准格式的对象内的各个项;提取模块40,用于提取所匹配的各个项的内容,以组织成关于文档的结构化数据。本装置可对多种格式的文档进行结构化,提高了加工速度,规范了输出文档格式,而且减少了人为出错。优选地,获取模块10获取文档内部嵌入的对象和文档外部链接的对象。本优选实施例可以确保不遗漏对象。从以上的描述中可以看出,本专利技术上述的实施例达到使用同一种工具和系统即可对多种格式的文档进行结构化,提高了加工速度,规范了输出文档格式,减少了人为出错。显然,本领域的技术人员应该明白,上述的本专利技术的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用本文档来自技高网...
【技术保护点】
一种用于提取文档结构的方法,其特征在于,包括:获取文档的对象;将所述对象转换为预定义的标准格式;识别和标注所述标准格式的对象内的各个项;提取所匹配的各个项的内容,以组织成关于所述文档的结构化数据。
【技术特征摘要】
【专利技术属性】
技术研发人员:曲刚,
申请(专利权)人:北大方正集团有限公司,北京北大方正电子有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。