【技术实现步骤摘要】
本专利技术涉及数字出版领域,具体而言,涉及用于提取文档结构的方法和装置。
技术介绍
在传统出版领域,书籍、报刊的文档格式只是为了满足传统印刷的需求,对于内容的描述局限于文字、图形、图像的轮廓、颜色、位置等视觉要素,没有构建文档的逻辑内容和内在关系。在数字出版领域,对文档的逻辑内容、关联关系、内容的颗粒度更为关注,对文档进行结构化加工是进行数字内容再利用的前提条件。一篇标准完整的文档的内容通常可以划分为多个级别的颗粒,例如第一级为篇、第二级为章、第三级为节、第四级为段、第五级为句等。通过预先以篇章节段句为内容样式设置匹配规则,对文档进行匹配,可以识别出对应于篇章节段句的内容,并以结构标签予以标注。专利技术人发现,篇章节段句这些都是一个比较抽象和空泛的概念。对于不同的文档类型,它们的内容样式可能各不相同,比如试卷这样的文档,它的内容可以划分的颗粒度可能为大题、题干、选项或者答案等。因此相关技术为了对不同类型的文档提取文档结构,必须分别规定对应于不同内容样式的匹配规则,以生成不同的结构标签。这导致操作比较繁琐,容易出错。
技术实现思路
本专利技术旨在提供用于提取文档结构的 ...
【技术保护点】
一种用于提取文档结构的方法,其特征在于,包括:以预设的内容样式规则识别文档的内容的颗粒;以条目标签标注所述颗粒;从预设的映射规则组中选择与所述文档的类型相对应的映射规则;使用所述选择的映射规则将所述条目标签映射到结构标签;使用所述结构标签标注所述颗粒。
【技术特征摘要】
【专利技术属性】
技术研发人员:曾建英,
申请(专利权)人:北大方正集团有限公司,北京北大方正电子有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。