一种智能提取文档结构的方法及系统技术方案

技术编号:6994432 阅读:209 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种智能提取文档结构的方法,该方法包括:通过对文档小样进行分析,建立提取规则及其相对应的结构化关键字;对待提取结构的文档应用所建立的提取规则,提取文档内容形成按照结构化关键字表达的结构化内容。相应地,本发明专利技术提供一种智能提取文档结构的系统,该系统包括文档输入单元、分析单元、结构化单元、用户设置界面和文档输出单元。本发明专利技术依据文档中的样式(包括文字样式和段落样式)、文字属性、文字内容、标题级别等属性设置一些简单的提取规则,并根据这些规则智能提取文档中的结构化信息,从而实现任意文档格式的结构化自动加工。另一方面,用户仅通过简单的操作就可自行设置提取规则,灵活性强。

【技术实现步骤摘要】

本专利技术涉及电子文档数据处理领域,尤其涉及一种智能提取文档结构的方法及系统
技术介绍
随着IT应用的深入普及,各行各业都积累了大量的信息资源,这些信息资源都以 电子文档数据的形式保存。科学管理和合理开发这些内部和外部信息资源已经成为企业正 确决策、增强竞争力的关键。如何有效地从这些信息资源的电子文档数据内容中获取结构 化的内容,也是许多计算机应用开发所需要解决的关键问题。比如,现在各个出版社都有大 量的历史书籍资源,而且书籍的格式是多种多样的,出版社需要把历史资源结构化后入库, 然后对这些结构化的资源进行再加工和利用,可以发布到网页html格式,pdf格式等。目前,对信息资源的内容结构化方法主要是通过人工以储存、流程、元数据 (Metadata)为要件来制作系统。储存多以关联式数据库的方式,也有的以一般数据文件方 式储存,或者是根据需要两种方式并存。在储存方式中,通常使用专门软件对特定数据字段 进行录入,这种方法的缺点是进行录入的数据字段受软件限制,而且需要手工录入,不容易 实现自动化加工。另外还有一种使用类似XML编辑器的软件进行内容结构化加工的方法, 这种方法的缺点是只能对纯内容的数据进行结构化,无法带入原文档内容的版式信息和样 式fe息。因此,在申请号为200810238994. 4的中国专利申请“一种基于样式的内容结构化 方法及系统”中提出了一种内容结构化的自动加工方法。该方法根据需要结构化的文档建 立内容结构化体系,然后建立样式与结构化关键字的对应关系,最后解析该文档提取内容 形成结构化内容,从而完成内容结构化的加工。但是,由于这种方法完全依据段落样式进行 结构化,所以仅能针对设置了段落样式的文档进行提取,而对于非段落样式的文档片段无 法正确提取。也就是说,这种方法仅能对特定格式的文档进行结构化,而不能适用于任意文 档格式的结构化加工。
技术实现思路
为了解决现有技术中存在的以上问题,本专利技术提供一种智能提取文档结构的方法 及系统,以实现对任意文档格式内容的结构化自动加工方法。为了实现以上目的,本专利技术提供的智能提取文档结构的方法包括以下步骤小样 分析步骤,即,依据待提取结构的文档的小样中所包含的各部分内容及其关键属性建立各 部分的提取规则及其相对应的结构化关键字以及结构化关键字之间的层次关系;文档结构 化步骤,即,对待提取结构的文档应用所建立的提取规则,提取该文档的内容形成按照结构 化关键字表达的结构化内容。所述关键属性可包括字体样式、段落样式、文字属性和标题级别。所述结构化关 键字是可以任意指定的,可以是但不限于是表示所述关键属性和/或特殊文字内容的关键 字。提取规则和结构化关键字之间的关系也是可以任意指定的。此外,还可由用户自行设置提取规则和结构化关键字。具体地,向用户提供小样中 所包含的各部分内容及其关键属性,然后,用户根据所提供的信息建立各部分的提取规则 及其相对应的结构化关键字以及结构化关键字之间的层次关系。用户还可根据不同的需要 对所建立的提取规则及其相对应的结构化关键字以及结构化关键字之间的层次关系进行 添加、删除或更新等修改操作。优选地,在建立或修改提取规则和结构化关键字时,可执行以下步骤对小样应用 用户所设置的提取规则,提取该小样的内容形成按照用户所设置的结构化关键字表达的结 构化内容,并将该结构化内容显示给用户;用户根据显示的结构化内容对所设置的提取规 则和结构化关键字进行调整,直到所形成的结构化内容满足用户要求为止。此外,为了能够以统一的结构化方法处理任意格式的文档,将小样或文档转化为 作为中间结果的逻辑树,然后对该具有一致规范的逻辑树应用统一的方法进行结构化。在这种情况下,所述小样分析步骤包括以下步骤根据待提取结构的文档的小样 生成包含该小样的各部分内容及其关键属性的逻辑树,并依据该逻辑树中所包含的各部分 内容及其关键属性建立各部分的提取规则及其相对应的结构化关键字以及结构化关键字 之间的层次关系。所述文档结构化步骤包括以下步骤根据待提取结构的文档生成包含该 文档的各部分内容及其关键属性的逻辑树,并对该逻辑树应用所建立的提取规则,提取该 文档的内容形成按照结构化关键字表达的结构化内容。在用户设置提取规则和结构化关键字的过程中,向用户提供根据小样生成的逻辑 树中所包含的各部分内容及其关键属性,然后,用户根据所提供的信息建立或修改各部分 的提取规则及其相对应的结构化关键字以及结构化关键字之间的层次关系。相应地,本专利技术提供一种智能提取文档结构的系统,该系统包括文档输入单元, 输入文档小样和待处理文档,并将文档小样发送给分析单元,将待处理文档发送给结构化 单元;分析单元,依据从文档输入单元接收的文档小样中所包含的各部分内容及其关键属 性建立各部分的提取规则及其相对应的结构化关键字以及结构化关键字之间的层次关系, 并将建立的提取规则和结构化关键字作为系统默认的提取规则和结构化关键字发送给结 构化单元;结构化单元,对从文档输入单元接收的待处理文档应用从分析单元接收的提取 规则,提取该文档的内容形成按照从分析单元接收的结构化关键字表达的结构化内容,并 将所形成的结构化内容发送给文档输出单元;文档输出单元,输出从结构化单元接收的结 构化内容。。优选地,该系统还可包括用户设置界面,用户通过这个界面设置或修改提取规则 及其相对应的结构化关键字以及结构化关键字之间的层次关系,并将用户设置的提取规则 和结构化关键字发送给结构化单元。本专利技术依据文档中的样式(包括文字样式和段落样式)、文字属性、文字内容、标 题级别等属性设置一些简单的提取规则,并根据这些规则智能提取文档中的结构化信息, 从而实现任意文档格式的结构化自动加工。另一方面,用户仅通过简单的操作就可自行设 置提取规则,提取丰富的文档结构,灵活性强。附图说明图1是根据本专利技术的第一实施例的智能提取文档结构的方法的流程图2是一个文档小样的示例;图3是对图2所示的小样生成的结构化内容;图4是根据本专利技术的第二实施例的智能提取文档结构的方法的流程图;图5是对图2所示的小样生成的结构化内容;图6是根据本专利技术的智能提取文档结构的系统的框图;图7是根据本专利技术的智能提取文档结构的另一系统的框图。具体实施例方式下面,将结合实施例和附图对本专利技术进行详细描述。(第一实施例)图1是根据本专利技术的第一实施例的智能提取文档结构的方法的流程图。参照图1, 该方法包括以下步骤步骤Sl、小样分析步骤在该步骤中,依据待提取结构的文档的小样中所包含的各部分内容及其关键属性 建立各部分的提取规则及其相对应的结构化关键字以及结构化关键字之间的层次关系,也 就是说,所建立的各个部分的提取规则和结构化关键字应能体现出该部分的内容和/或关 键属性。其中,关键属性可以是,但不限于,字体样式、段落样式、文字属性和标题级别。提 取规则可以依据小样中各部分内容的文字内容设置,还可以,但不限于,依据各部分内容的 关键属性设置。结构化关键字可以是,但不限于是,表示关键属性和/或特殊文字内容的关 键字。并且,提取规则和结构化关键字之间的关系也是可以任意指定的。这样,本专利技术能够 依据各类文档的各种属性形成文档内容的结构化体系,而不仅适用于设置了段落样式的文 档格式。也即是说,本专利技术可应用于任意本文档来自技高网
...

【技术保护点】
1.一种智能提取文档结构的方法,包括以下步骤:小样分析步骤,即,依据待提取结构的文档的小样中所包含的各部分内容及其关键属性建立各部分的提取规则及其相对应的结构化关键字以及结构化关键字之间的层次关系;文档结构化步骤,即,对待提取结构的文档应用所建立的提取规则,提取该文档的内容形成按照结构化关键字表达的结构化内容。

【技术特征摘要】

【专利技术属性】
技术研发人员:余忠华闫国龙曹学军缪萍曾建英
申请(专利权)人:北大方正集团有限公司北京北大方正电子有限公司
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1