一种基于PDF的复杂版面的标引方法技术

技术编号:2828832 阅读:289 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种基于PDF的复杂版面的标引方法,属于信息技术领域。现有技术中,对于复杂版面的文章重构往往需要大量的手工操作和调整,费时费力。本发明专利技术所述的方法:通过分析和获取PDF上文字信息以及位置、字体、字号等信息,根据相邻、相似的原则进行自动化的文字成块操作;进一步根据字体字号等信息确定文章标题与正文,根据位置信息,并结合少量的人工干预进行正文拼接、正文与标题关联等成文操作,从而使得整个版面上的文章能较快重新构建,同时可以自动获取到该文章所在的版面区域、文章和标题的字体和字号等标引信息,解决了现有技术中文章重新构建费时费力或者效果不理想的问题。

【技术实现步骤摘要】

本专利技术属于信息
,具体涉及一种基于PDF的复杂版面的标引 方法。
技术介绍
在报业、出版社等行业中,使用排版软件排版完成后,需要从己经生 产的版面中提取文章以及相关的元数据信息,以便进一步利用,就是文章 信息的重构和标引。为了更真实还原版面的内容,除了需要文章本身的内 容信息(如标题、引题、副题、作者、正文等多项信息)以外,在标引时 还提取需要文字块的位置、字体字号等信息。目前,从版面中提取文章信息的方法(也称反解和标引)有以下几种(1) 通过排版软件本身的能力导出xml文件, 一般都包含文章的内容信息,但不同排版软件输出的内容不同,如有些不提供 标题信息,多数的排版软件并不导出文字块的位置信息,使 得文章的信息不完整,往往需要通过手工的方式进行补充,效率非常低;另外,应用本方法还必须能够获得原始排版文件,而一些需要反解和标引的场合下,是无法获得原始排版文件的;(2) 通过软插件技术对排版软件进行扩充,允许进行一些半自动 化的信息提取和人工标引。专利CN200610112710. 9公布了一 种提取见报资料数据信息的方法可以基于版面文件结合人 工干预来提取和表演文章。这种方法的优点是可以提取比较 完备和准确的信息,其缺点是a)不同的排版软件需要开发 不同的软插件,开发难度和工作量大;b)必须能够提供原始 的排版文件,才能进行标引。c)随着排版软件本身的发展和 升级, 一些老的数据格式不再支持,因此大量的历史数据无法进行标引和重新利用;(3) 对排版软件输出的结果文件格式(PS格式)进行标引,其中 的代表性的技术是方正全真软件,用来反解和表演方正 飞腾排版输出的PS文件。由于目前对PS的反解技术,主要 是利用PS中的注释进行的,不同排版软件输出的注释不同, 导致反解和标引软件不同通用。随着印刷技术的发展,基于 PDF的RIP技术慢慢取代PS,因此有些排版软件和流程中直 接得到的就是PDF而不再是PS 了。另外,大量的历史数据是 PDF格式的而不存在PS文件,导致PS反解和标引无法应用;(4) 多数排版软件可以生成PDF格式的文件,大量的历史数据是 基于PDF的,因此基于PDF的反解和标引的应用面很广。专 利CN200510039015. x公布了 一种基于xml的PDF文档信息 抽取系统的方法,主要是把PDF文件的物理结构转换为逻 辑结构,但并没有进行文字成块和成文的处理。专利 CN200510122890. 4公布了 一种从PDF文档到XML文档转换 的方法,通过第三方的工具把PDF转为平级的xml文档, 再通过xslt结合规则提取xml中信息,其应用的前提是PDF 版面本身较为简单,结构较为一致,使用简单的xpath的规 则就可以提取xml信息,并不适用报刊这样的复杂版面。专 利CN200410091432. 4公布的一种对报纸版面进行标题与 正文逻辑关联的方法以及专利专利200410091434. 3公布的一种对报纸版面进行文字阅读顺序恢复的方法,均是后 续的成文的方法,并没有涉及文字块的生成和合并规则和整 个提取内容和位置等信息的流程。专利200610007221.7 — 种在报纸版面上检査标引稿件的方法及系统和专利 200610065665.6 —种报刊版面网络标引的方法及系统均 在组版软件以及组版环境可用的情形下进行复杂版面的反解 和标引,不能应用到PDF的反解和标引中。 可见,在现有技术中,对于缺少原始组版文件、或缺少软插件可用的 场合,尚没有一种能对复杂版面数据源进行通用反解和标引的高效的方法。
技术实现思路
针对现有技术中存在的缺陷,本专利技术的目的是提供一种省时、省力的统一的PDF复杂版面的标引方法,该方法只需要PDF数据、最大限度减少 了对数据源的要求,具有广泛的适应性,同时该方法可以自动化处理复杂 版面的文字信息提取、原始文字块合并以及文章内容和样式信息的提取, 结合少量的人工操作可以完成标引工作,并可以自动确定排版类型,极大 地提高了反解和标引的效率。为达到以上目的,本专利技术采用的技术方案是 一种基于PDF的复杂版面的标引方法,包括以下步骤(1) 导入报刊版面的PDF文件,对PDF进行分析,获取版面上的全部 的文字内容、文字的位置、字体、字号和序号信息,得到一个原始文字块 的列表L;(2) 按原始文字块的信息,对原始文字块进行聚类,得到多个集合(3) 对每个集合中的原始文字块进行排序,并合并该集合的所有原始 文字块,得到合并文字块;(4) 按合并文字块的字号标定合并文字块的属性为标题或正文;(5) 对多个合并文字块进行再合并,构建文章。在如上所述的一种基于PDF的复杂版面的标引方法中,步骤(2)中, 在对原始文字块进行聚类时包括以下步骤(2.1)创建一个新的集合(Sh并选取列表L中第一个原始文字块Ti 作为新集合{S}的第一个原始文字块,并从列表L中去除该原始文字块Ti;(2. 2)对列表L中的剩下的全部原始文字块进行遍历,对每个原始文 字块,需要检査集合}中是否至少存在一个近邻,如果存在近邻,则把该 原始文字块加入集合(S)中,并从列表L中删除该原始文字块;(2. 3)遍历完成后,如果列表L不为空,则重复上述步骤(1)和(2),生成一个新的集合。进一步,步骤(2.2)中检査两个原始文字块是否近邻的方法是 设两个待判定的原始文字块分别为T,和T2,对应的字号为L和f2,对应的位置左上角坐标分别为(x,,yi)和(X2,y》,右下角坐标分别为 (Xl, ,yi,)和(X2, ,y2,),包括以下步骤(2.2.1) 计算字号差别系数,定义为c 二 2*(f\-f2)/(frff2);(2.2.2) 计算平均字符高度为h = (yi' -yi +y2, -y2)/2;(2.2.3) 计算在水平方向的距离系数d,:dx=(max(Xl, x2)-min(x, , x2, ))/h,其中max (a, b)表示取两者的较大 值,min(a,b)表示取两者的较小值;(2.2.4) 计算在垂直方向的距离系数dy: d尸(max(yi, y2) -min(yi, , y2, ))/h;(2. 2. 5)根据经验,设定最大容忍字号差别系数c皿一0. 1,最大容忍水 平方向距离系数为cLax=0. 9,最大容忍垂直方向距离系数为dyraax 二O. 9; (2.2.6)则判定两原始文字块为近邻的充分必要条件是c〈c,且dx〈d環x dy〈 dymaxo进一步,步骤(3)中,对每个集合中的原始文字块进行排序时根据不同版面类型,确定不同的排序类型后,再根据原始文字块的位置进行排序,具体来说对于普通的横排版面使用先从上到下、再从左到右的排序方法,对于竖 排版面,使用先从右到左,再从上到下的排序方法。更进一步,步骤(3)中,对每个集合中的原始文字块进行排序时先根据原始文字块的位置和序号,自动确定排序类型后,再进行排序操作,具体的步骤是(3.1) 计算待处理的集合{S}中的原始文字块的平均高度h;(3.2) 对集合中的原始文字块按序号进行排序;(3.3) 顺序遍历集合中的全部原始文字块,依次计算相邻两个原始文字块的水平位置差异值i[i]和垂直位置差异d,[i];(3.4) 设置和计算4个统计本文档来自技高网
...

【技术保护点】
一种基于PDF的复杂版面的标引方法,包括以下步骤:    (1)导入报刊版面的PDF文件,对PDF进行分析,获取版面上的全部的文字内容、文字的位置、字体、字号和序号信息,得到一个原始文字块的列表L;    (2)按原始文字块的信息,对原始文字块进行聚类,得到多个集合{S↓[i]};    (3)对每个集合中的原始文字块进行排序,并合并该集合的所有原始文字块,得到合并文字块;    (4)按合并文字块的字号标定合并文字块的属性为标题或正文;    (5)对多个合并文字块进行再合并,构建文章。

【技术特征摘要】
1.一种基于PDF的复杂版面的标引方法,包括以下步骤(1)导入报刊版面的PDF文件,对PDF进行分析,获取版面上的全部的文字内容、文字的位置、字体、字号和序号信息,得到一个原始文字块的列表L;(2)按原始文字块的信息,对原始文字块进行聚类,得到多个集合{Si};(3)对每个集合中的原始文字块进行排序,并合并该集合的所有原始文字块,得到合并文字块;(4)按合并文字块的字号标定合并文字块的属性为标题或正文;(5)对多个合并文字块进行再合并,构建文章。2. 如权利要求1所述的一种基于PDF的复杂版面的标引方法,其特征 是步骤(2)中,在对原始文字块进行聚类时包括以下步骤(2.1)创建一个新的集合(S),并选取列表L中第一个原始文字块Ti作 为新集合{S}的第一个原始文字块,并从列表L中去除该原始文字块Ti;(2. 2)对列表L中的剩下的全部原始文字块进行遍历,对每个原始文字 块,需要检查集合(S)中是否至少存在一个近邻,如果存在近邻,则把该原始 文字块加入集合{S}中,并从列表L中删除该原始文字块;(2. 3)遍历完成后,如果列表L不为空,则重复上述步骤(2. 1)和(2. 2),生成一个新的集合。3. 如权利要求2所述的一种基于PDF的复杂版面的标引方法,其特征是 步骤(2.2)中检査两个原始文字块是否近邻的方法是设两个待判定的原始文字块分别为Ti和T2,对应的字号为t和f2,对应 的位置左上角坐标分别为Od,y,)和(x2,y2),右下角坐标分别为0d' ,y/ ) 和2' ,y2,),包括以下步骤(2.2.1) 计算字号差别系数,定义为c = 2*(&-f2)/(fi+f2);(2.2.2) 计算平均字符高度为h = (y,' -yi +y2, -y2)/2;(2.2.3) 计算在水平方向的距离系cL:dx=(maX(Xl,X2)—min(Xl, , x2, ) )/h,其中max (a, b)表示取两者的较大值,min(a, b)表示取两者的较小值;(2.2.4) 计算在垂直方向的距离系数dy: dy=(max(yi, y2)-min(y, , y2, ))/h;(2.2.5) 设定最大容忍字号差别系数(:_=0. 1,最大容忍水平方向距离 系数为d_=0.9,最大容忍垂直方向距离系数为d一 二0.9;(2.2.6) 则判定两原始文字块为近邻的充分必要条件是c〈cmax且 dx〈dXMX且dy 〈 dymax.4. 如权利要求1所述的一种基于PDF的复杂版面的标引方法,其特征 是步骤(3)中,对每个集合中的原始文字块进行排序时根据不同版面类型,确定不同的排序类型后,再根据原始文字块的位置进行排序,具体来说对于普通的横排版面使用先从上到下、再从左到右的排序方法,对...

【专利技术属性】
技术研发人员:徐剑波董宁
申请(专利权)人:北大方正集团有限公司北京方正阿帕比技术有限公司北京大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1