用于提取文档结构的方法和装置制造方法及图纸

技术编号：8161536 阅读：193 留言：0更新日期：2013-01-07 19:32

本发明专利技术提供了一种用于提取文档结构的方法，包括：获取文档的对象；将对象转换为预定义的标准格式；识别和标注标准格式的对象内的各个项；提取所匹配的各个项的内容，以组织成关于文档的结构化数据。本发明专利技术还提供了一种用于提取文档结构的装置，包括：获取模块，用于获取文档的对象；转换模块，用于将对象转换为预定义的标准格式；标引模块，用于识别和标注标准格式的对象内的各个项；提取模块，用于提取所匹配的各个项的内容，以组织成关于文档的结构化数据。本发明专利技术达到了提高提取文档结构的效率的效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数字出版领域，具体而言，涉及用于提取文档结构的方法和装置。
技术介绍
在传统出版领域，书籍、报刊的文档格式只是为了满足传统印刷的需求，对于内容的描述局限于文字、图形、图像的轮廓、顔色、位置等视觉要素，没有构建文档的逻辑内容和内在关系。在数字出版领域，对文档的逻辑内容、关联关系、内容的颗粒度更为关注，对文档进行结构化加工是进行数字内容再利用的前提条件。目前，对文档内容结构化加工的方法主要采用手动加工，加工人员根据预先定义的规则，肉眼识别文档中符合规则的文档内容，手工填写到自定义的表单中。这种操作方式效率较低，工作量大，而且容易出错。还有ー种解决方案是采用计算机执行预设的匹配规则识别文档结构。专利技术人发现，由于现存的常用文档格式较多，目前的解决方案是对多不同的文档格式采用不同的加エ方法和系统，操作比较繁琐。
技术实现思路
本专利技术g在提供一种用于提取文档结构的方法和装置，以解决相关技术操作比较繁琐的问题。在本专利技术的实施例中，提供了一种用于提取文档结构的方法，包括获取文档的对象；将对象转换为预定义的标准格式；识别和标注标准格式的对象内的各个项；提取...

【技术保护点】
一种用于提取文档结构的方法，其特征在于，包括：获取文档的对象；将所述对象转换为预定义的标准格式；识别和标注所述标准格式的对象内的各个项；提取所匹配的各个项的内容，以组织成关于所述文档的结构化数据。

【技术特征摘要】

【专利技术属性】
技术研发人员：曲刚，
申请(专利权)人：北大方正集团有限公司，北京北大方正电子有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人