一种版式文件图文自动关联的方法及系统技术方案

技术编号:2952104 阅读:303 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种版式文件中的图文自动关联方法及系统,进行图片块与文章的自动匹配,使文章中引用的图片块与文章或者正文合并在一起,还原成为文章或者正文的附图,主要方法为:从版式文件中获取图片块集合和文章集合;文章集合中的文章存在以下情况:只有正文的文章;或者包含标题,引题,副题等一项或者多项相关信息,而没有正文的文章;或者包含标题,引题,副题等一项或者多项相关信息而又有正文的文章;从图片块集合中获取与文章集合中匹配的文章,将此图片块设置为该文章的附图,添加到文章对象中。采用本发明专利技术所述的方法,能够自动化的提取文章的附图,能够提高自动成文的准确性,减少人工标引文章的工作量。

【技术实现步骤摘要】

本专利技术涉及信息技术处理领域,尤其涉及一种版式文件中图文自动关联的 方法及系统。
技术介绍
现有技术中实现基于版式文件以及人工千预来提取和组合文章的方法。这 种方法的优点是根据版式文件的版面信息结构提取版面信息和所有的稿件信息;缺点是a)不同的版式文件都需要花时间理解其内部的信息存储格式, 导致了不同的版式文件需要开发不同的插件,开发难度大且易用性和扩展性不 是很好;b)版式文件的必须存储稿件内部之间的关联关系;通过分析PS文件 以及Fit等文件,发现版式文件中记录的稿件关系并不能够有效的还原版式文 件中文章中上下文的关系,造成了后端标引的时候工作量很大。根据目前可以基于版式文件记录的信息来提取稿件的方法;这种方法的优 点是高效的利用了版式文件提供的公共的信息,实现了自动化成块操作;缺点 是该方法没有实现自动成文,需要在结合人工标引的方式来实现文章上下文的 正确的组合。综上,从版式文件中获取的文字块、图片块等数据信息并没有有效的组织 在一起,而是分散开来的,比如一篇文章的引题,标题,副题是分离开的,标 题和文章的正文之间也是分离开的;这样就需要人工进行相应的关联操作,还 原文章的引题,标题,副题以及正文,以保证数据信息的正确性和完备性,存在 着一定的工作量
技术实现思路
一篇文章可能包含引题,标题,副题,正文,附图等相关内容。本专利技术的 目的是通过图文自动关联的方法,进行图片块与文章的自动匹配,使文章中引 用的图片块与文章或者正文合并在一起,还原成为文章或者正文的附图。本专利技术的具体实现方法是A:从版式文件中获取图片块集合(P〉和文章集合(A〉;B:从图片块集合(P〉中获取与文章集合(A〉中匹配的文章,将此图片块设 置为该文章的附图,添加到文章对象中。进一步的,从图片块集合(P)中获取与文章集合(A〉中匹配的文章的操作具 体为Al:从反解版式文件后得到的图片块集合(P)中取出 一个与已取图片块不 同的图片块;A2:依次获取文章集合(A)中的文章,比较获取得到的文章是否与上述取 出的图片块近邻;如果没有一篇文章与图片块近邻,直接转至步骤A3;如果 仅有一篇文章与图片块近邻,则将此图片块设置为该文章的附图;如果有两个 或者两个以上的文章与图片块近邻,则筛选出图片块与文章重叠度最大的一篇 文章,将此图片块设置为该文章的附A3:重复以上步骤,直至图片块集合(P)中的所有图片块被取过一次。 进一步的,在文章集合(A〉中查找与图片块近邻的文章;判断文章与图片块是否近邻具体纟喿作为设置获取得到的图片块为Pl,获取得到的文章为A1;新建文字块集合(T〉, 从文章Al中获取文章的引题,标题,副题所对应的文字块,放置在集合(T〉 中;依次获取文字块集合rn中的文字块,设为ti,查看图片块pi是否与文字块T1近邻;如果近邻条件成立,记录图片块P与文章的重叠度;如近邻条 件不成立,继续从文字块集合{丁}中获取下一个文字块,继续同该图片块进行 比较是否近邻;如果图片块和文字块集合(T)中任何一个文字块都不存在近邻的关系,那么执行以下步骤;比较图片块P1是否与文章正文近邻新建文字块集合(L),如果文章正文 对应的文字块的子块个数大于1,则获取得到该正文块的所有子块,并放置在 集合{1^}中,依次获取集合0^中的文字块,设为Tl,查看图片块P1与文字块 Tl是否近邻;否则比较文章正文对应的文字块同图片块P1是否近邻;如果近 邻条件成立,表明图片块与文章近邻关系成立,记录图片块P1与文章的重叠 度。进一步的,还包括以下操作创建文章集合(N),筛选文章集合(A)中只存在正文的文章,添加到文章 集合(N)中,并从文章集合(A〉中删除;创建文章集合(Mh筛选文章集合(A〉中正文为空的文章,添加到文章集 合(M)中,并从文章集合(A〉中删除;将(N)中每篇文章正文对应的文字块与文章集合(M)比较,如果能找到匹配 的文章,将此文章正文对应的文字块设置为匹配文章的正文,并从文章集合(N〉 中删除该文章;如找不到匹配的文章,则将该文章重新添加到文章集合{八}中, 并从文章集合(N)中删除该文章;最后将文章集合{\1}重新添加到文章集合{八} 中。本专利技术还提供一种版式文件中图文自动关联系统,所述图文自动关联系统 包括图片块获取器,用于从版式文件中获取图片块,形成图片块集合;文章获取器,用于从从版式文件中获取文章,形成文章集合;匹配器;用于将图片块集合中的图片与文章集合进行聚类,找到图片块在文章集合中匹配的文章;闺文关联器,用于将图片块在文章集合中匹配的文章进行关联,将此图片块设置为该文章的附图,并添加到文章对象中。 所述匹配器具体包括图片块提取器,用于从反解版式文件后得到的图片块集合中取出一个与已取图片块不同的图片块,直至图片块集合中的所有图片块被取过一次;近邻比较器,用于比较文章集合中的文章是否与图片块提取器中取出的图 片块近邻,如果没有文章与图片块近邻,继续提取下一个图片;否则,则将此 图片块设置为该文章的附图;如果有两个或者两个以上的文章与图片块近邻, 则筛选出图片块与文章重叠度最大的 一篇文章,将此图片块设置为该文章的附 图。进一步的,还包括文章正文生成器;用于将只有正文的文章和没有正文 的文章进行匹配;如果匹配成功,将只有正文的文章的正文对应的文字块设置 为没有正文的文章的正文。进一步的,还包括图片块判断器,用于查看经匹配器匹配后图片块集合 中是否存在图片块,若存在,则所述图文关联器还包括以下功能依次获取该 图片块,并为之单独创建一篇文章,设置该图片块为文章的附图,添加到文章 对象中。通过本专利技术进行图片块与文章的自动匹配,使文章中引用的图片块与文章 或者正文合并在一起,还原成为文章或者正文的附图,提高了自动成文的准确 性。附图说明图l为本专利技术的流程图2是图片块与文章的标题,副题对应的文字块近邻关系得到满足示意图; 图3是筛选出的只有正文的文章找到了匹配的文章示意图; 图4是图片块单独创建了一篇文章示意图5是图片块与文章的标题,副题对应的文字块近邻关系得到满足示意图; 图6是图片块与文章的正文近邻关系得到满足示意图。下面结合实例图和附图,对本专利技术的技术方案做进一步的阐述,结合图1所述,本专利技术的主要方法如下第一步从版式文件获取图片块集合(P)和文章集合(A〉; 从版式文件中获取图片块和文章的技术方案可以在专利200610112710. 9 名为"一种提取见报资料数据信息的方法,,的公开专利方案中得到;取出的多 个图片稿件组合成图片块的集合。在专利200710179938. 4名为"一种基于PDF 的复杂版面的标引方法,,的公开专利方案中得到,在此不再详细描述。第二步从图片块集合(P)中依次获取图片块;图片块与文章的集合(A) 进行聚类,查看图片块是否能够在文章集合{八}中找到匹配的文章;能够找到 匹配的文章,设置为文章的附图,添加到文章对象中,并从图片块集合(P)中 删除图片块。具体为(1) 从反解版式文件后得到的图片块集合(P)中取出一个与已取图片块不 同的图片块;(2) 依次获取文章集合{八}中的文章,比较获取得到的文章是否与步骤(1) 中取出的图片块近邻,如果没有文章与图片块近邻,直接转至步骤(3);如 果有文章与图片块近邻,则将本文档来自技高网...

【技术保护点】
一种版式文件图文自动关联方法,其特征在于,该方法包括: A:从版式文件中获取图片块集合{P}和文章集合{A}; B:从图片块集合{P}中获取与文章集合{A}中匹配的文章,将此图片块设置为该文章的附图,添加到文章对象中。

【技术特征摘要】

【专利技术属性】
技术研发人员:徐剑波董宁王辉
申请(专利权)人:北大方正集团有限公司北京方正阿帕比技术有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1