版式文档中复合图的提取装置和提取方法制造方法及图纸

技术编号:11036001 阅读:104 留言:0更新日期:2015-02-11 20:31
本发明专利技术提供了一种版式文档中复合图的提取装置,包括:文档解析单元,对版式文档进行解析,确定构成所述版式文档的图元及所述图元的类型;图层生成单元,提取文字图元以构成文字图层,并利用其余的非文字图元构成非文字图层;版面分析单元,分别对文字图层和非文字图层进行版面分析处理;区块生成单元,生成文字图层中的文字区块和非文字图层中的图像区块;关联区块确定单元,确定与每个图像区块相关联的文字区块,以合并为复合图区块;标识存储单元,存储复合图区块包含的所有图元的标识。本发明专利技术还提出了一种版式文档中复合图的提取方法。通过本发明专利技术的技术方案,可以在复杂的文档版面布局中,尤其是图文混排版面中,实现对复合图的准确提取。

【技术实现步骤摘要】

本专利技术涉及电子文档格式转换
,具体而言,涉及一种版式文档中复合图 的提取装置和一种版式文档中复合图的提取方法。
技术介绍
将纸张文档转换为电子文档,大多采用扫描仪扫描或者相机拍摄的方式,获 取文档的数字图像,对其进行一系列图像处理后,将字符切分出来,输入OCR (Optical Character Recognition,光学字符识别)系统。而由文档处理软件,如排版软件,直接生成 的版式文档,正在取代从纸质文档转化而来的图像文档成为数字出版物的主要文档来源。 结构信息的自动提取,主要包括版面分析和版面理解,其研究皆停留在图像文档 版面的物理结构的提取,而针对通过OCR转化或者直接生成的版式文档的研究才刚刚起 步。文档版面布局的复杂性和多样性导致插图的准确分割成为公开性难题,尤其是文字环 绕型的插图。另外,版式文档中,复合图都由多个子图像、大量路径操作、文字图元等子对象 构成,不能在逆向工程的版面结构分析中作为复合图的完整体被正确的提取出来。因而版 式文档不仅在描述上要大量路径来描述,造成很大程度的冗余,更不利于版式文档流式重 排时复合图的正常显示,难以满足日益增长数字化阅读的现实需求。 因此,需要一种新的版式文档中复合图的提取技术,可以在复杂的文档版面布局 中,尤其是图文混排版面中,实现对复合图的准确提取。
技术实现思路
本专利技术正是基于上述问题,提出了一种新的版式文档中复合图的提取技术,可以 在复杂的文档版面布局中,尤其是图文混排版面中,实现对复合图的准确提取。 有鉴于此,本专利技术提出了一种版式文档中复合图的提取装置,包括:文档解析单 元,用于对所述版式文档进行解析,确定构成所述版式文档的图元及所述图元的类型;图层 生成单元,用于提取文字图元以构成文字图层,并利用其余的非文字图元构成非文字图层; 版面分析单元,用于分别对所述文字图层和所述非文字图层进行版面分析处理;区块生成 单元,用于根据所述版面分析单元的版面分析处理结果,生成所述文字图层中的文字区块 和所述非文字图层中的图像区块;关联区块确定单元,用于确定与每个所述图像区块相关 联的文字区块,以合并为复合图区块;标识存储单元,用于存储所述复合图区块包含的所有 图元的标识。 在该技术方案中,通过对版式文档进行解析后,将得到的图元分别构成文字图层 (包含文字图元)和非文字图层(包含图像图元等),然后分别对每个图层进行区块分类,最终 利用区块之间的关系判定复合图区块,以实现对复合图区块的分割,并确保对文字图元和 非文字图元的妥善处理。在生成多个图层时,具体地,可以先提取所有的文字图元以形成文 字图层,然后将文字图元过滤以利用剩余的元素构成非文字图元。本方案可以对图文混排、 包含图像和图注信息等复杂情况进行有效地分析,从而准确地分割出其中的复合图区块。 复合图区块中可以包含一个或多个复合图,还可以包含复合图中或周围的图注等文字。通 过记录所有构成该复合图区块的图元的标识,如图元ID,从而能够利用这些图元ID来对应 出该复合图区块,实现了将该区块与整个版面的分离,方便进行流式重排等处理。 在上述技术方案中,优选地,所述版面分析单元包括:聚类处理子单元,用于对所 述文字图层中的文字图元进行聚类处理,以对所述文字图元进行分类;文字区块生成子单 元,对于同类别的多个文字图元,在对应的最小外接矩形相交或间隔距离小于预设距离的 情况下,用于将所述多个文字图元作为文字图元集合,并将所述文字图元集合的最小外接 矩形作为一个所述文字区块。 在该技术方案中,通过基于页面内文字图元邻域特征相似性的聚类算法处理,可 以有效地对文字图元进行分类,从而确定每个文字图元应该属于正文部分还是复合图部 分。通过对距离的判断及相应的处理,从而确定多个文字图元的构成关系,比如用于构成一 个文字区块,该文字区块对应于一个完整的字符。 在上述技术方案中,优选地,所述版面分析单元包括:纹理特征获取子单元,用于 获取所述非文字图层中的非文字图元的纹理特征;连通区域检测子单元,用于根据所述纹 理特征以及预设的特征阈值,检测出所述非文字图层中连通的非文字对象区域;图像区块 生成子单元,对于多个所述连通的非文字对象区域,在对应的最小外接矩形相交或间隔距 离小于预设距离的情况下,用于将多个所述连通的非文字对象区域作为区域集合,并将所 述区域集合的最小外接矩形作为所述图像区块。 在该技术方案中,利用基于纹理分析和形态学处理的页面非文字对象的连通域检 测,从而识别出版面中的连通的非文字对象区域,该区域实际上对应于版面中的一幅图像 或该图像中的一部分;再通过对距离的判断及相应的处理,即可将构成同一幅图像的多个 连通区域进行合并,从而实现对某一幅图像的完整的识别。 在上述技术方案中,优选地,所述版面分析单元还包括:孔洞填补子单元,用于对 所述连通的非文字对象区域中存在的孔洞进行填补。 在该技术方案中,通过对连通的非文字对象区域中存在的孔洞进行填补,从而能 够以整体为对象来处理对应的区域,避免了孔洞为处理过程带来的难度和可能造成的意 外。 在上述技术方案中,优选地,所述关联区块确定单元包括:位置关系检测子单元, 用于检测所述图像区块与所述文字区块之间的位置关系,其中,若指定图像区块与至少一 个文字区块相交,或所述指定图像区块与所述至少一个文字区块的间隔距离小于预设距 离,则判定所述至少一个文字区块与所述指定图像区块相关联。 在该技术方案中,由于图像往往存在一些文字描述,比如图标题、图中的标注文字 等等,这些文字与图像之间是相关联的,应该划分至相同的区块。通过上述处理,使得分割 出来的复合图区块更加准确。 在上述技术方案中,优选地,还包括:图像生成单元,用于将所述复合图区块生成 为图像文件;图像保存单元,用于保存所述图像文件。 在该技术方案中,直接将分割出来的复合图区块以图像文件的形式进行保存,从 而不必对图元ID进行管理,尤其是当这些复合图区块中包含有数量很多的图元时,以图像 文件进行处理的方式,显然有利于提升处理效率。 根据本专利技术的又一方面,还提出了一种版式文档中复合图的提取方法,包括:步 骤202,对所述版式文档进行解析,确定构成所述版式文档的图元及所述图元的类型;步骤 204,提取文字图元以构成文字图层,并利用其余的非文字图元构成非文字图层;步骤206, 分别对所述文字图层和所述非文字图层进行版面分析处理,以生成所述文字图层中的文字 区块和所述非文字图层中的图像区块;步骤208,确定与每个所述图像区块相关联的文字 区块,以合并为复合图区块;步骤210,存储所述复合图区块包含的所有图元的标识。 在该技术方案中,通过对版式文档进行解析后,将得到的图元分别构成文字图层 (包含文字图元)和非文字图层(包含图像图元等),然后分别对每个图层进行区块分类,最终 利用区块之间的关系判定复合图区块,以实现对复合图区块的分割,并确保对文字图元和 非文字图元的妥善处理。在生成多个图层时,具体地,可以先提取所有的文字图元以形成文 字图层,然后将文字图元过滤以利用剩余的元素构成非文字图元。本方案可以对图文混排、 包本文档来自技高网...

【技术保护点】
一种版式文档中复合图的提取装置,其特征在于,包括:文档解析单元,用于对所述版式文档进行解析,确定构成所述版式文档的图元及所述图元的类型;图层生成单元,用于提取文字图元以构成文字图层,并利用其余的非文字图元构成非文字图层;版面分析单元,用于分别对所述文字图层和所述非文字图层进行版面分析处理;区块生成单元,用于根据所述版面分析单元的版面分析处理结果,生成所述文字图层中的文字区块和所述非文字图层中的图像区块;关联区块确定单元,用于确定与每个所述图像区块相关联的文字区块,以合并为复合图区块;标识存储单元,用于存储所述复合图区块包含的所有图元的标识。

【技术特征摘要】
1. 一种版式文档中复合图的提取装置,其特征在于,包括: 文档解析单元,用于对所述版式文档进行解析,确定构成所述版式文档的图元及所述 图元的类型; 图层生成单元,用于提取文字图元W构成文字图层,并利用其余的非文字图元构成非 文字图层; 版面分析单元,用于分别对所述文字图层和所述非文字图层进行版面分析处理; 区块生成单元,用于根据所述版面分析单元的版面分析处理结果,生成所述文字图层 中的文字区块和所述非文字图层中的图像区块; 关联区块确定单元,用于确定与每个所述图像区块相关联的文字区块,W合并为复合 图区块; 标识存储单元,用于存储所述复合图区块包含的所有图元的标识。2. 根据权利要求1所述的版式文档中复合图的提取装置,其特征在于,所述版面分析 单元包括: 聚类处理子单元,用于对所述文字图层中的文字图元进行聚类处理,W对所述文字图 元进行分类; 文字区块生成子单元,对于同类别的多个文字图元,在对应的最小外接矩形相交或间 隔距离小于预设距离的情况下,用于将所述多个文字图元作为文字图元集合,并将所述文 字图元集合的最小外接矩形作为一个所述文字区块。3. 根据权利要求1所述的版式文档中复合图的提取装置,其特征在于,所述版面分析 单元包括: 纹理特征获取子单元,用于获取所述非文字图层中的非文字图元的纹理特征; 连通区域检测子单元,用于根据所述纹理特征W及预设的特征阔值,检测出所述非文 字图层中连通的非文字对象区域; 图像区块生成子单元,对于多个所述连通的非文字对象区域,在对应的最小外接矩形 相交或间隔距离小于预设距离的情况下,用于将多个所述连通的非文字对象区域作为区域 集合,并将所述区域集合的最小外接矩形作为所述图像区块。4. 根据权利要求3所述的版式文档中复合图的提取装置,其特征在于,所述版面分析 单元还包括: 孔洞填补子单元,用于对所述连通的非文字对象区域中存在的孔洞进行填补。5. 根据权利要求1所述的版式文档中复合图的提取装置,其特征在于,所述关联区块 确定单元包括: 位置关系检测子单元,用于检测所述图像区块与所述文字区块之间的位置关系,其中, 若指定图像区块与至少一个文字区块相交,或所述指定图像区块与所述至少一个文字区块 的间隔距离小于预设距离,则判定所述至少一个文字区块与所述指定图像区块相关联。6. ...

【专利技术属性】
技术研发人员:许灿辉汤帜陶欣史操
申请(专利权)人:北大方正集团有限公司北京方正阿帕比技术有限公司北京大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1