一种反解版式文件后得到的图片和图说的自动关联方法技术

技术编号:4329960 阅读:311 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种反解版式文件后得到的图片和图说的自动关联方法,属于信息处理技术领域。现有技术中,建立反解版式文件后获得的图片和图说的关联关系需要人工进行关联操作,或者需要版式文件中存储数据之间的关联关系,工作量大,效率低。本发明专利技术所述方法:将文字块集合中每一个属性为正文的文字块与图片块集合中所有图片块比较,筛选出位置最好的图片块,将文字块作为该图片块的候选图说;然后确定图片块集合中每一个图片块的图说;如果一个图片块的候选图说为多个,则筛选出最合适的候选图说作为该图片块的图说。采用本发明专利技术所述方法能够自动在反解任何一种版式文件后获得的图片与图说之间建立关联,减少了人工关联的工作量,提高了效率。

【技术实现步骤摘要】

本专利技术属于信息处理
,具体涉及。
技术介绍
中国专利申请(申请号200710179938. 4 ;公开日期2008. 06. 25)公开了一种 基于PDF的复杂版面的标引方法,该方法能够从版式文件中提取到文字块的集合。文字块 中包含了相应的文字内容,字号大小,字体名称以及该文字块的区域位置信息,并通过区域位置计算得到文字信息的排版类型。文字信息的排版类型一般有以下几种从左到右的竖排、从右到左的竖排、竖排无方向、从左到右的横排、从右到左的横排等。根据文字块的字号 大小标定文字块的属性为标题或正文,以及文字块的序号等。然而,该方法没有获取图片 块,以及图片块与对应的图片文字说明(即图说)之间的关联关系,需要人工进行关联操 作,工作量大,效率低。 中国专利申请(申请号200610112710. 9 ;公开日期2007. 02. 14)公开了一种 提取见报资料数据信息的方法,该方法能够根据版式文件的版面信息结构来提取版式文 件中的数据,并通过版式文件的版面信息和稿件区域信息自动提取出稿件间的关联关系。这种方法的缺点是版式文件必须存储稿件内部之间的关联关系,如果版式文件没有存储 稿件内部之间的关联关系,则这种方法就失去了效用。
技术实现思路
针对现有技术中存在的缺陷,本专利技术的目的是提供一种反解版式文件后得到的图 片和图说的自动关联方法,该方法能够实现将反解任何版式文件后获得的图片与该图片的 图说自动关联起来,减少人工操作工作量,提高效率。 为了实现上述目的,本专利技术采用的技术方案为一种反解版式文件后得到的图片 和图说的自动关联方法,包括以下步骤 (1)从反解版式文件后得到的文字块集合{S}中取出一个与已取文字块不同的属 性为正文的文字块; (2)在反解版式文件后得到的图片块集合{P}中查找与步骤(1)中取出的文字 块近邻的图片块,如果没有一个图片块与该文字块近邻,则转至步骤(3),如果仅有一个图 片块与该文字块近邻,则将此文字块作为该图片块的候选图说,如果有两个或两个以上的 图片块与该文字块近邻,则筛选出位置最好的图片块,将此文字块作为该图片块的候选图 说; (3)重复以上步骤,直到文字块集合{S}中的所有文字块被取出一次; (4)确定图片块集合{P}中每一个图片块的图说;如果一个图片块的候选图说仅有一个,则将该候选图说作为该图片块的图说;如果一个图片块的候选图说为多个,则筛选出最合适的候选图说作为该图片块的图说。 如上所述的,步骤(2)中 在图片块集合{P}中查找与文字块近邻的图片块的方法为判断图片块与文字块是否在水 平方向上或者在竖直方向上近邻,如果在水平方向上或者在竖直方向上近邻,则图片块与 文字块近邻。 如上所述的,其中,所述 的判断图片块与文字块是否在水平方向上或者在竖直方向上近邻的方法包括以下步骤 假设文字块左上角点坐标为(&, Y》、右下角点坐标为(X/ , Y/ ),图片块左上 角点坐标为(X2, Y》,右下角点坐标为(X2' , Y2');文字块的宽度W二X/ -A,图片块 的宽度W' =X2' -^;文字块的高度11 = Y/ -l,图片块的高度H' =Y2' -Y所有文 字块的字号的平均值为AvgFontSize ;图说与图片块之间的有效距离DistThreshold = C^AvgFontSize,其中Q为文字块与图片块之间的间距系数,1 < Q < 5 ;下述min函数表 示取两者的较小值,max函数表示取两者的较大值,D为延伸距离,O《D《10,单位为磅; ①计算图片块与文字块的重叠度 在水平方向上的重叠度0verlapX的计算公示为Overl即X = (min(X/ , X2' )-max(X丄,X2))/(max(X丄',X2' )-min(Xn X2)), 在竖直方向上的重叠度0verl即Y的计算公示为Overl即Y = (min(Y/ , Y2' )-max(Y丄,Y2))/(max(Y丄',Y2' )-min(Yn Y2)); ②判断Y! > Y厂D且Y/《Y2' +D且X! > X2_D且X!'《X2' +D是否成立;如果 成立,则继续判断0verl即Y是否大于0verl即X,若大于,则图片块与文字块在水平方向上 近邻,否则图片块与文字块在竖直方向上近邻;如果不成立,则计算图片块与文字块在水平 方向上的重叠距离DistX, DistX = max(X X2)-min(X/ ,X2'); ③判断Y! > Y2-D且Y/《Y2' +DiW<W'且DistX < DistThreshold是否成 立,如果成立,则图片块与文字块在水平方向上近邻;否则计算图片块与文字块的最大距离 DistXMax,如果X丄< 乂2,贝纟DistXMax = X厂X否则DistXMax = |X2' -X/ | ; ④判断> Y2_D且'《Y2 ' +D且W < W '且DistXMax < W ' /2是否成 立,如果成立,则图片块与文字块在水平方向上近邻;否则,计算DistY, DistY 二max(Yp Y2)-min(Y/ ,Y2'); ⑤判断^ ^X厂D且X/《X2' +DiH<H'且文字块的排版类型为从左到右的 横排或者从右到左的横排且DistY〈 DistThreshold是否成立,如果成立,则图片块与文字 块在竖直方向上近邻,否则图片块与文字块即不在水平方向上也不在竖直方向上近邻。 如上所述的,其中,所述 的Q的值为1.2,所述的D的值为3。 如上所述的,步骤(2)中 所述的筛选出位置最好的图片块的方法包括以下步骤 假设步骤(1)中取出的文字块为T,与T临近的图片块集合为(TPh位置最好的图 片块为PZ ; ①分别计算出{TP}中所有的图片块的图说类型PicType,以及T和{TP}中所有的 图片块之间的距离Dist ;所述的图片块的图说类型是指文字块相对于图片块的位置,包括 文字块在图片块的上侧、文字块在图片块的左侧、文字块在图片块的右侧和文字块在图片块的下侧; ②从{TP}中任意取出一个图片块P,并将取出的图片块从{TP}中删除;另PZ = P ; ③从{TP}中任意取出一个图片块PN,将PN从{TP}中删除;从PZ和PN中筛选出 一个位置较好的图片块,如果PN位置较好,则另PZ = PN ; 从PZ和PN中筛选出一个位置较好的图片块的方法为假设PZ的图说类型为 PicTypeZ, PN的图说类型为PicTypeN, T与PZ之间的距离为DistZ, T与PN之间的距离为 DistN ; 如果满足下列条件之一,则PN比PZ位置好 条件a. PicTypeN与PicTypeZ相同且DistN < DistZ, 条件b.PicTypeN为文字块在图片块的右侧且PicTypeZ为文字块在图片块的左侧 且DistN < DistZ, 条件c. PicTypeN的优先级高于PicTypeZ且PicTypeN为文字块在图片块的右侧 与PicTypeZ为文字块在图片块的左侧两者不同时成立;其中,文字块在图片块的下侧的优 先本文档来自技高网...

【技术保护点】
一种反解版式文件后得到的图片和图说的自动关联方法,包括以下步骤:(1)从反解版式文件后得到的文字块集合{S}中取出一个与已取文字块不同的属性为正文的文字块;(2)在反解版式文件后得到的图片块集合{P}中查找与步骤(1)中取出的文字块近邻的图片块,如果没有一个图片块与该文字块近邻,则转至步骤(3),如果仅有一个图片块与该文字块近邻,则将此文字块作为该图片块的候选图说,如果有两个或两个以上的图片块与该文字块近邻,则筛选出位置最好的图片块,将此文字块作为该图片块的候选图说;(3)重复以上步骤,直到文字块集合{S}中的所有文字块被取出一次;(4)确定图片块集合{P}中每一个图片块的图说;如果一个图片块的候选图说仅有一个,则将该候选图说作为该图片块的图说;如果一个图片块的候选图说为多个,则筛选出最合适的候选图说作为该图片块的图说。

【技术特征摘要】
一种反解版式文件后得到的图片和图说的自动关联方法,包括以下步骤(1)从反解版式文件后得到的文字块集合{S}中取出一个与已取文字块不同的属性为正文的文字块;(2)在反解版式文件后得到的图片块集合{P}中查找与步骤(1)中取出的文字块近邻的图片块,如果没有一个图片块与该文字块近邻,则转至步骤(3),如果仅有一个图片块与该文字块近邻,则将此文字块作为该图片块的候选图说,如果有两个或两个以上的图片块与该文字块近邻,则筛选出位置最好的图片块,将此文字块作为该图片块的候选图说;(3)重复以上步骤,直到文字块集合{S}中的所有文字块被取出一次;(4)确定图片块集合{P}中每一个图片块的图说;如果一个图片块的候选图说仅有一个,则将该候选图说作为该图片块的图说;如果一个图片块的候选图说为多个,则筛选出最合适的候选图说作为该图片块的图说。2. 如权利要求1所述的一种反解版式文件后得到的图片和图说的自动关联方法,其特征在于,步骤(2)中在图片块集合{P}中查找与文字块近邻的图片块的方法为判断图片块与文字块是否在水平方向上或者在竖直方向上近邻,如果在水平方向上或者在竖直方向上近邻,则图片块与文字块近邻。3. 如权利要求2所述的一种反解版式文件后得到的图片和图说的自动关联方法,其特征在于,所述的判断图片块与文字块是否在水平方向上或者在竖直方向上近邻的方法包括以下步骤假设文字块左上角点坐标为(XpY》、右下角点坐标为(X/ ,Y/ ),图片块左上角点坐标为(&,Y》,右下角点坐标为(X2' ,Y2');文字块的宽度W二X/ -A,图片块的宽度W'=X2' -^;文字块的高度11 = 1' -l,图片块的高度H' =Y2' _Y2 ;所有文字块的字号的平均值为AvgFontSize ;图说与图片i央之间的有效距离DistThreshold = C^AvgFontSize,其中Q为文字块与图片块之间的间距系数,l < Q < 5 ;下述min函数表示取两者的较小值,max函数表示取两者的较大值,D为延伸距离,O《D《10,单位为磅;① 计算图片块与文字块的重叠度在水平方向上的重叠度OverlapX的计算公示为<formula>formula see original document page 2</formula>在竖直方向上的重叠度OverlapY的计算公示为Overl即<formula>formula see original document page 2</formula>② 判断> Y厂D且Y/《Y2'十D且Xi > X厂D且X/《X2' +0是否成立;如果成立,则继续判断0verl即Y是否大于0verl即X,若大于,则图片块与文字块在水平方向上近邻,否则图片块与文字块在竖直方向上近邻;如果不成立,则计算图片块与文字块在水平方向上的重叠距离DistX,<formula>formula see original document page 2</formula>③ 判断Yi^Y2-D且Y/《Y2' +DiW<W'且DistX < DistThreshold是否成立,如果成立,则图片块与文字块在水平方向上近邻;否则计算图片块与文字块的最大距离DistXMax,如果X! < X2,则<formula>formula see original document page 2</formula>否则<formula>formula see original document page 2</formula> 判断Y: > Y2-D且Y/《Y2' +DiW<W'且DistMax〈W' /2是否成立,如果成立,则图片块与文字块在水平方向上近邻;否则,计算图片块与文字块在竖直方向上的重叠距离DistY,<formula>formula see original document page 2</formula>⑤判断&^X2-D且X/《X2' +DiH<H'且文字块的排版类型为从左到右的横排 或者从右到左的横排且...

【专利技术属性】
技术研发人员:徐剑波董宁王辉
申请(专利权)人:北大方正集团有限公司北京方正阿帕比技术有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1