【技术实现步骤摘要】
本专利技术涉及数字出版领域,具体而言,涉及用于提取文档结构的方法和装置。
技术介绍
在传统出版领域,书籍、报刊的文档格式只是为了满足传统印刷的需求,对于内容的描述局限于文字、图形、图像的轮廓、顔色、位置等视觉要素,没有构建文档的逻辑内容和内在关系。在数字出版领域,对文档的逻辑内容、关联关系、内容的颗粒度更为关注,对文档进行结构化加工是进行数字内容再利用的前提条件。目前,对文档内容结构化加工的方法主要采用手动加工,加工人员根据预先定义的规则,肉眼识别文档中符合规则的文档内容,手工填写到自定义的表单中。这种操作方式效率较低,工作量大,而且容易出错。 还有ー种解决方案是采用计算机执行预设的匹配规则识别文档结构。专利技术人发现,由于现存的常用文档格式较多,目前的解决方案是对多不同的文档格式采用不同的加エ方法和系统,操作比较繁琐。
技术实现思路
本专利技术g在提供一种用于提取文档结构的方法和装置,以解决相关技术操作比较繁琐的问题。在本专利技术的实施例中,提供了一种用于提取文档结构的方法,包括获取文档的对象;将对象转换为预定义的标准格式;识别和标注标准格式的对象内的各个项;提取 ...
【技术保护点】
一种用于提取文档结构的方法,其特征在于,包括:获取文档的对象;将所述对象转换为预定义的标准格式;识别和标注所述标准格式的对象内的各个项;提取所匹配的各个项的内容,以组织成关于所述文档的结构化数据。
【技术特征摘要】
【专利技术属性】
技术研发人员:曲刚,
申请(专利权)人:北大方正集团有限公司,北京北大方正电子有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。