一种文档内容结构化的方法及装置制造方法及图纸

技术编号:10151931 阅读:114 留言:0更新日期:2014-06-30 18:56
本申请提供了一种文档内容结构化的方法及装置,所述方法包括:基于第一文档中样式为预设样式的第一schema文件以及一规则为第一结构化规则的第一XML文件,生成与所述第一文档对应的第一实例化规则;基于所述第一文档中的已结构化的第一内容的第一标签结构树,获得与所述第一内容对应的第一标签列表;从与所述第一标签列表对应的不连续内容中获得与所述第一实例化规则匹配的M个文本,其中,所述不连续内容为不包含在所述已结构化的第一内容中的未结构化内容;判断获得所述M个文本对应的M个标签中可以与所述已结构化的第一内容匹配的N个标签;基于所述N个标签,将所述N个标签对应的N个文本结构化,获得第二标签结构树。

【技术实现步骤摘要】
一种文档内容结构化的方法及装置
本专利技术涉及印刷领域,尤其涉及一种文档内容结构化的方法及装置。
技术介绍
出版社收到大量来稿,需要将大量的来稿制作成图书或者期刊等印制品时,需要投入大量的精力来整理来稿内容结构,对于文档中不连续的内容,例如,试题和答案的分离时,试卷中的答案部分为相对于该试卷的不连续内容,概况内容与具体内容的分离时,具体内容为相对于整个内容文档扥不连续内容,在对这些文档内容整理时,需要将这些分离的答案对应试题的结构化,以及具体信息对应于具体信息的结构化,其中,这些需要结构化的部分有很相似之处,也具有一定的规律性。现有技术中针对文档中的不连续内容的结构化,只能采用人工结构化的方式。但本申请专利技术人在实现本申请实施例中专利技术技术方案的过程中,发现上述技术至少存在如下技术问题:由于文档中的不连续内容有很多相似之处,而人工结构化需要对不连续内容结构化时会进行很多重复性的劳动,存在结构化效率低,错误率高,以及结构化率低的技术问题。
技术实现思路
本申请实施例通过提供一种文档内容结构化的方法及装置,用于解决现有技术中存在结构化效率低,错误率高的技术问题。一方面,本申请实施例提供了一种文档内容结构化的方法,所述方法包括:基于第一文档中样式为预设样式的第一schema文件以及一规则为第一结构化规则的第一XML文件,生成与所述第一文档对应的第一实例化规则;基于所述第一文档中的已结构化的第一内容的第一标签结构树,获得与所述第一内容对应的第一标签列表;从与所述第一标签列表对应的不连续内容中获得与所述第一实例化规则匹配的M个文本,其中,所述不连续内容为不包含在所述已结构化的第一内容中的未结构化内容,M为大于等于1的正整数;判断获得所述M个文本对应的M个标签中可以与所述已结构化的第一内容匹配的N个标签;基于所述N个标签,将所述N个标签对应的N个文本结构化,获得第二标签结构树。优选地,所述基于第一文档中样式为预设样式的第一schema文件以及一规则为第一结构化规则的第一XML文件,生成与所述第一文档对应的第一实例化规则,具体包括:获取所述样式为预设样式的第一schema文件以及所述一规则为第一结构化规则的第一XML文件;基于所述样式为预设样式的第一schema文件以及所述一规则为第一结构化规则的第一XML文件,从与所述第一标签列表对应的不连续内容中获得与所述第一结构化规则匹配的所述M个文本,以及从所述第一内容中获得与所述M个文本对应的多个匹配节点,其中,所述匹配节点的个数大于M个;从所述第一内容中获得与所述M个文本对应的至少一个不匹配节点,以生成第二结构化规则;基于所述多个匹配节点及所述第二结构化规则,组成所述第一实例化规则。优选地,所述第一结构化规则,具体为:格式匹配方式规则;和/或样式匹配方式规则;和/或大纲级别匹配方式规则;和/或自定义通配符匹配方式规则。优选地,所述从与所述第一标签列表对应的不连续内容中获得与所述第一实例化规则匹配的M个文本,具体包括:遍历所述第一标签列表;基于第一标签列表,在所述不连续内容中定位到与所述第一实例化规则匹配的M个文本。优选地,所述基于第一标签列表,在所述不连续内容中定位到与所述第一实例化规则匹配的M个文本之后,所述方法还包括:将与所述第一实例化规则匹配的所述M个文本存入堆栈中;将所述第一实例化规则匹配的所述M个文本的样式设置为所述第一内容中的节点的样式。优选地,所述基于所述N个标签,将所述N个标签对应的N个文本结构化,具体包括:获得所述N个文本中满足一预设规律的K个文本,基于与所述K个文本对应的K个标签,将所述K个文本自动结构化;在检测到用户的辅助操作时,响应所述辅助操作,选择不满足所述预设规律的(N-K)个文本对应的第一标签列表中的(N-K)个父标签,以对所述(N-K)个文本辅助结构化。优选地,所述获得所述N个文本中满足一预设规律的K个文本,基于与所述K个文本对应的K个标签,将所述K个文本自动结构化,具体包括:将所述K个标签及与所述K个标签对应匹配成功的K个所述节点添加到所述第一标签列表;在所述第一标签列表中生成与所述K个文本对应的K个子标签,以将所述K个标签对应的K个文本自动结构化。优选地,在所述基于所述N个标签,将所述N个标签对应的N个文本结构化,获得第二标签结构树之后,所述方法还包括:验证所述第二标签结构树是否正确,获得一验证结果;当所述验证结果表明所述第二标签结构树正确时,显示所述第二标签结构树。另一方面,本申请实施例提供了一种装置,所述装置包括:生成模块,用于基于第一文档中样式为预设样式的第一schema文件以及一规则为第一结构化规则的第一XML文件,生成与所述第一文档对应的第一实例化规则;第一获得模块,用于基于所述第一文档中的已结构化的第一内容的第一标签结构树,获得与所述第一内容对应的第一标签列表;第二获得模块,用于从与所述第一标签列表对应的不连续内容中获得与所述第一实例化规则匹配的M个文本,其中,所述不连续内容为不包含在所述已结构化的第一内容中的未结构化内容,M为大于等于1的正整数;第三获得模块,用于判断获得所述M个文本对应的M个标签中可以与所述已结构化的第一内容匹配的N个标签;结构化模块,用于基于所述N个标签,将所述N个标签对应的N个文本结构化,获得第二标签结构树。优选地,所述生成模块,具体包括:获取子模块,用于获取所述样式为预设样式的第一schema文件以及所述一规则为第一结构化规则的第一XML文件;第一获得子模块,用于基于所述样式为预设样式的第一schema文件以及所述一规则为第一结构化规则的第一XML文件,从与所述第一标签列表对应的不连续内容中获得与所述第一结构化规则匹配的所述M个文本,以及从所述第一内容中获得与所述M个文本对应的多个匹配节点,其中,所述匹配节点的个数大于M个;第二获得子模块,用于从所述第一内容中获得与所述M个文本对应的至少一个不匹配节点,以生成第二结构化规则;组成子模块,用于基于所述多个匹配节点及所述第二结构化规则,组成所述第一实例化规则。优选地,所述第二获得模块,具体包括:遍历子模块,用于遍历所述第一标签列表;定位子模块,用于基于第一标签列表,在所述不连续内容中定位到与所述第一实例化规则匹配的M个文本。优选地,所述第二获得模块,还包括:存入子模块,用于将与所述第一实例化规则匹配的所述M个文本存入堆栈中;设置子模块,用于将所述第一实例化规则匹配的所述M个文本的样式设置为所述第一内容中的节点的样式。优选地,所述结构化模块,具体包括:自动结构化子模块,用于获得所述N个文本中满足一预设规律的K个文本,基于与所述K个文本对应的K个标签,将所述K个文本自动结构化;辅助结构化子模块,用于在检测到用户的辅助操作时,响应所述辅助操作,选择不满足所述预设规律的(N-K)个文本对应的第一标签列表中的(N-K)个父标签,以对所述(N-K)个文本辅助结构化。优选地,所述自动结构化子模块,具体包括:添加单元,用于将所述K个标签及与所述K个标签对应匹配成功的K个所述节点添加到所述第一标签列表;生成单元,用于在所述第一标签列表中生成与所述K个文本对应的K个子标签,以将所述K个标签对应的K个文本自动结构化。优选地,所述装置还包括:验证模块,用于验证所述第二标签结本文档来自技高网...
一种文档内容结构化的方法及装置

【技术保护点】
一种文档内容结构化的方法,其特征在于,所述方法包括:基于第一文档中样式为预设样式的第一schema文件以及一规则为第一结构化规则的第一XML文件,生成与所述第一文档对应的第一实例化规则;基于所述第一文档中的已结构化的第一内容的第一标签结构树,获得与所述第一内容对应的第一标签列表;从与所述第一标签列表对应的不连续内容中获得与所述第一实例化规则匹配的M个文本,其中,所述不连续内容为不包含在所述已结构化的第一内容中的未结构化内容,M为大于等于1的正整数;判断获得所述M个文本对应的M个标签中可以与所述已结构化的第一内容匹配的N个标签;基于所述N个标签,将所述N个标签对应的N个文本结构化,获得第二标签结构树。

【技术特征摘要】
1.一种文档内容结构化的方法,其特征在于,所述方法包括:基于第一文档中样式为预设样式的第一schema文件以及一规则为第一结构化规则的第一XML文件,生成与所述第一文档对应的第一实例化规则;基于所述第一文档中的已结构化的第一内容的第一标签结构树,获得与所述第一内容对应的第一标签列表;从与所述第一标签列表对应的不连续内容中获得与所述第一实例化规则匹配的M个文本,其中,所述不连续内容为不包含在所述已结构化的第一内容中的未结构化内容,M为大于等于1的正整数;判断获得所述M个文本对应的M个标签中可以与所述已结构化的第一内容匹配的N个标签;基于所述N个标签,将所述N个标签对应的N个文本结构化,获得第二标签结构树。2.如权利要求1所述的方法,其特征在于,所述基于第一文档中样式为预设样式的第一schema文件以及一规则为结构化规则的第一XML文件,生成与所述第一文档对应的第一实例化规则,具体包括:获取所述样式为预设样式的第一schema文件以及所述一规则为第一结构化规则的第一XML文件;基于所述样式为预设样式的第一schema文件以及所述一规则为第一结构化规则的第一XML文件,从与所述第一标签列表对应的不连续内容中获得与所述第一结构化规则匹配的所述M个文本,以及从所述第一内容中获得与所述M个文本对应的多个匹配节点,其中,所述匹配节点的个数大于M个;从所述第一内容中获得与所述M个文本对应的至少一个不匹配节点,以生成第二结构化规则;基于所述多个匹配节点及所述第二结构化规则,组成所述第一实例化规则。3.如权利要求2所述的方法,其特征在于,所述第一结构化规则,具体为:格式匹配方式规则;和/或样式匹配方式规则;和/或大纲级别匹配方式规则;和/或自定义通配符匹配方式规则。4.如权利要求1所述的方法,其特征在于,所述从与所述第一标签列表对应的不连续内容中获得与所述第一实例化规则匹配的M个文本,具体包括:遍历所述第一标签列表;基于第一标签列表,在所述不连续内容中定位到与所述第一实例化规则匹配的M个文本。5.如权利要求4所述的方法,其特征在于,所述基于第一标签列表,在所述不连续内容中定位到与所述第一实例化规则匹配的M个文本之后,所述方法还包括:将与所述第一实例化规则匹配的所述M个文本存入堆栈中;将所述第一实例化规则匹配的所述M个文本的样式设置为所述第一内容中的节点的样式。6.如权利要求1所述的方法,其特征在于,所述基于所述N个标签,将所述N个标签对应的N个文本结构化,具体包括:获得所述N个文本中满足一预设规律的K个文本,基于与所述K个文本对应的K个标签,将所述K个文本自动结构化;在检测到用户的辅助操作时,响应所述辅助操作,选择不满足所述预设规律的(N-K)个文本对应的第一标签列表中的(N-K)个父标签,以对所述(N-K)个文本辅助结构化。7.如权利要求4所述的方法,其特征在于,所述获得所述N个文本中满足一预设规律的K个文本,基于与所述K个文本对应的K个标签,将所述K个文本自动结构化,具体包括:将所述K个标签及与所述K个标签对应匹配成功的K个节点添加到所述第一标签列表;在所述第一标签列表中生成与所述K个文本对应的K个子标签,以将所述K个标签对应的K个文本自动结构化。8.如权利要求1-7中任一权项所述的方法,其特征在于,在所述基于所述N个标签,将所述N个标签对应的N个文本结构...

【专利技术属性】
技术研发人员:孙明明
申请(专利权)人:北大方正集团有限公司北京北大方正电子有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1