用于提取文档结构的方法和装置制造方法及图纸

技术编号:8452984 阅读:224 留言:0更新日期:2013-03-21 15:52
本发明专利技术提供了一种用于提取文档结构的方法,包括:以预设的内容样式规则识别文档的内容的颗粒;以条目标签标注颗粒;从预设的映射规则组中选择与文档的类型相对应的映射规则;使用选择的映射规则将条目标签映射到结构标签;使用结构标签标注颗粒。本发明专利技术还提供了一种用于提取文档结构的装置。本发明专利技术达到了提高提取文档结构效率的效果。

【技术实现步骤摘要】

本专利技术涉及数字出版领域,具体而言,涉及用于提取文档结构的方法和装置
技术介绍
在传统出版领域,书籍、报刊的文档格式只是为了满足传统印刷的需求,对于内容的描述局限于文字、图形、图像的轮廓、颜色、位置等视觉要素,没有构建文档的逻辑内容和内在关系。在数字出版领域,对文档的逻辑内容、关联关系、内容的颗粒度更为关注,对文档进行结构化加工是进行数字内容再利用的前提条件。一篇标准完整的文档的内容通常可以划分为多个级别的颗粒,例如第一级为篇、第二级为章、第三级为节、第四级为段、第五级为句等。通过预先以篇章节段句为内容样式设置匹配规则,对文档进行匹配,可以识别出对应于篇章节段句的内容,并以结构标签予以标注。专利技术人发现,篇章节段句这些都是一个比较抽象和空泛的概念。对于不同的文档类型,它们的内容样式可能各不相同,比如试卷这样的文档,它的内容可以划分的颗粒度可能为大题、题干、选项或者答案等。因此相关技术为了对不同类型的文档提取文档结构,必须分别规定对应于不同内容样式的匹配规则,以生成不同的结构标签。这导致操作比较繁琐,容易出错。
技术实现思路
本专利技术旨在提供用于提取文档结构的方法和装置,以解决相本文档来自技高网...

【技术保护点】
一种用于提取文档结构的方法,其特征在于,包括:以预设的内容样式规则识别文档的内容的颗粒;以条目标签标注所述颗粒;从预设的映射规则组中选择与所述文档的类型相对应的映射规则;使用所述选择的映射规则将所述条目标签映射到结构标签;使用所述结构标签标注所述颗粒。

【技术特征摘要】

【专利技术属性】
技术研发人员:曾建英
申请(专利权)人:北大方正集团有限公司北京北大方正电子有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1