【技术实现步骤摘要】
本专利技术属于信息处理
,具体涉及。
技术介绍
中国专利申请(申请号200710179938. 4 ;公开日期2008. 06. 25)公开了一种 基于PDF的复杂版面的标引方法,该方法能够从版式文件中提取到文字块的集合。文字块 中包含了相应的文字内容,字号大小,字体名称以及该文字块的区域位置信息,并通过区域位置计算得到文字信息的排版类型。文字信息的排版类型一般有以下几种从左到右的竖排、从右到左的竖排、竖排无方向、从左到右的横排、从右到左的横排等。根据文字块的字号 大小标定文字块的属性为标题或正文,以及文字块的序号等。然而,该方法没有获取图片 块,以及图片块与对应的图片文字说明(即图说)之间的关联关系,需要人工进行关联操 作,工作量大,效率低。 中国专利申请(申请号200610112710. 9 ;公开日期2007. 02. 14)公开了一种 提取见报资料数据信息的方法,该方法能够根据版式文件的版面信息结构来提取版式文 件中的数据,并通过版式文件的版面信息和稿件区域信息自动提取出稿件间的关联关系。这种方法的缺点是版式文件必须存储稿件内部之间的关联关系,如果版式文件没有存储 稿件内部之间的关联关系,则这种方法就失去了效用。
技术实现思路
针对现有技术中存在的缺陷,本专利技术的目的是提供一种反解版式文件后得到的图 片和图说的自动关联方法,该方法能够实现将反解任何版式文件后获得的图片与该图片的 图说自动关联起来,减少人工操作工作量,提高效率。 为了实现上述目的,本专利技术采用的技术方案为一种反解版式文件后得到的图片 和图说的自动关联方法,包括以下步骤 ( ...
【技术保护点】
一种反解版式文件后得到的图片和图说的自动关联方法,包括以下步骤:(1)从反解版式文件后得到的文字块集合{S}中取出一个与已取文字块不同的属性为正文的文字块;(2)在反解版式文件后得到的图片块集合{P}中查找与步骤(1)中取出的文字块近邻的图片块,如果没有一个图片块与该文字块近邻,则转至步骤(3),如果仅有一个图片块与该文字块近邻,则将此文字块作为该图片块的候选图说,如果有两个或两个以上的图片块与该文字块近邻,则筛选出位置最好的图片块,将此文字块作为该图片块的候选图说;(3)重复以上步骤,直到文字块集合{S}中的所有文字块被取出一次;(4)确定图片块集合{P}中每一个图片块的图说;如果一个图片块的候选图说仅有一个,则将该候选图说作为该图片块的图说;如果一个图片块的候选图说为多个,则筛选出最合适的候选图说作为该图片块的图说。
【技术特征摘要】
一种反解版式文件后得到的图片和图说的自动关联方法,包括以下步骤(1)从反解版式文件后得到的文字块集合{S}中取出一个与已取文字块不同的属性为正文的文字块;(2)在反解版式文件后得到的图片块集合{P}中查找与步骤(1)中取出的文字块近邻的图片块,如果没有一个图片块与该文字块近邻,则转至步骤(3),如果仅有一个图片块与该文字块近邻,则将此文字块作为该图片块的候选图说,如果有两个或两个以上的图片块与该文字块近邻,则筛选出位置最好的图片块,将此文字块作为该图片块的候选图说;(3)重复以上步骤,直到文字块集合{S}中的所有文字块被取出一次;(4)确定图片块集合{P}中每一个图片块的图说;如果一个图片块的候选图说仅有一个,则将该候选图说作为该图片块的图说;如果一个图片块的候选图说为多个,则筛选出最合适的候选图说作为该图片块的图说。2. 如权利要求1所述的一种反解版式文件后得到的图片和图说的自动关联方法,其特征在于,步骤(2)中在图片块集合{P}中查找与文字块近邻的图片块的方法为判断图片块与文字块是否在水平方向上或者在竖直方向上近邻,如果在水平方向上或者在竖直方向上近邻,则图片块与文字块近邻。3. 如权利要求2所述的一种反解版式文件后得到的图片和图说的自动关联方法,其特征在于,所述的判断图片块与文字块是否在水平方向上或者在竖直方向上近邻的方法包括以下步骤假设文字块左上角点坐标为(XpY》、右下角点坐标为(X/ ,Y/ ),图片块左上角点坐标为(&,Y》,右下角点坐标为(X2' ,Y2');文字块的宽度W二X/ -A,图片块的宽度W'=X2' -^;文字块的高度11 = 1' -l,图片块的高度H' =Y2' _Y2 ;所有文字块的字号的平均值为AvgFontSize ;图说与图片i央之间的有效距离DistThreshold = C^AvgFontSize,其中Q为文字块与图片块之间的间距系数,l < Q < 5 ;下述min函数表示取两者的较小值,max函数表示取两者的较大值,D为延伸距离,O《D《10,单位为磅;① 计算图片块与文字块的重叠度在水平方向上的重叠度OverlapX的计算公示为<formula>formula see original document page 2</formula>在竖直方向上的重叠度OverlapY的计算公示为Overl即<formula>formula see original document page 2</formula>② 判断> Y厂D且Y/《Y2'十D且Xi > X厂D且X/《X2' +0是否成立;如果成立,则继续判断0verl即Y是否大于0verl即X,若大于,则图片块与文字块在水平方向上近邻,否则图片块与文字块在竖直方向上近邻;如果不成立,则计算图片块与文字块在水平方向上的重叠距离DistX,<formula>formula see original document page 2</formula>③ 判断Yi^Y2-D且Y/《Y2' +DiW<W'且DistX < DistThreshold是否成立,如果成立,则图片块与文字块在水平方向上近邻;否则计算图片块与文字块的最大距离DistXMax,如果X! < X2,则<formula>formula see original document page 2</formula>否则<formula>formula see original document page 2</formula> 判断Y: > Y2-D且Y/《Y2' +DiW<W'且DistMax〈W' /2是否成立,如果成立,则图片块与文字块在水平方向上近邻;否则,计算图片块与文字块在竖直方向上的重叠距离DistY,<formula>formula see original document page 2</formula>⑤判断&^X2-D且X/《X2' +DiH<H'且文字块的排版类型为从左到右的横排 或者从右到左的横排且...
【专利技术属性】
技术研发人员:徐剑波,董宁,王辉,
申请(专利权)人:北大方正集团有限公司,北京方正阿帕比技术有限公司,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。