【技术实现步骤摘要】
本专利技术属于信息
,具体涉及一种基于PDF的复杂版面的标引 方法。
技术介绍
在报业、出版社等行业中,使用排版软件排版完成后,需要从己经生 产的版面中提取文章以及相关的元数据信息,以便进一步利用,就是文章 信息的重构和标引。为了更真实还原版面的内容,除了需要文章本身的内 容信息(如标题、引题、副题、作者、正文等多项信息)以外,在标引时 还提取需要文字块的位置、字体字号等信息。目前,从版面中提取文章信息的方法(也称反解和标引)有以下几种(1) 通过排版软件本身的能力导出xml文件, 一般都包含文章的内容信息,但不同排版软件输出的内容不同,如有些不提供 标题信息,多数的排版软件并不导出文字块的位置信息,使 得文章的信息不完整,往往需要通过手工的方式进行补充,效率非常低;另外,应用本方法还必须能够获得原始排版文件,而一些需要反解和标引的场合下,是无法获得原始排版文件的;(2) 通过软插件技术对排版软件进行扩充,允许进行一些半自动 化的信息提取和人工标引。专利CN200610112710. 9公布了一 种提取见报资料数据信息的方法可以基于版面文件结合人 工干预来提取和表演文章。这种方法的优点是可以提取比较 完备和准确的信息,其缺点是a)不同的排版软件需要开发 不同的软插件,开发难度和工作量大;b)必须能够提供原始 的排版文件,才能进行标引。c)随着排版软件本身的发展和 升级, 一些老的数据格式不再支持,因此大量的历史数据无法进行标引和重新利用;(3) 对排版软件输出的结果文件格式(PS格式)进行标引,其中 的代表性的技术是方正全真软件,用来反解和表演方正 ...
【技术保护点】
一种基于PDF的复杂版面的标引方法,包括以下步骤: (1)导入报刊版面的PDF文件,对PDF进行分析,获取版面上的全部的文字内容、文字的位置、字体、字号和序号信息,得到一个原始文字块的列表L; (2)按原始文字块的信息,对原始文字块进行聚类,得到多个集合{S↓[i]}; (3)对每个集合中的原始文字块进行排序,并合并该集合的所有原始文字块,得到合并文字块; (4)按合并文字块的字号标定合并文字块的属性为标题或正文; (5)对多个合并文字块进行再合并,构建文章。
【技术特征摘要】
1.一种基于PDF的复杂版面的标引方法,包括以下步骤(1)导入报刊版面的PDF文件,对PDF进行分析,获取版面上的全部的文字内容、文字的位置、字体、字号和序号信息,得到一个原始文字块的列表L;(2)按原始文字块的信息,对原始文字块进行聚类,得到多个集合{Si};(3)对每个集合中的原始文字块进行排序,并合并该集合的所有原始文字块,得到合并文字块;(4)按合并文字块的字号标定合并文字块的属性为标题或正文;(5)对多个合并文字块进行再合并,构建文章。2. 如权利要求1所述的一种基于PDF的复杂版面的标引方法,其特征 是步骤(2)中,在对原始文字块进行聚类时包括以下步骤(2.1)创建一个新的集合(S),并选取列表L中第一个原始文字块Ti作 为新集合{S}的第一个原始文字块,并从列表L中去除该原始文字块Ti;(2. 2)对列表L中的剩下的全部原始文字块进行遍历,对每个原始文字 块,需要检查集合(S)中是否至少存在一个近邻,如果存在近邻,则把该原始 文字块加入集合{S}中,并从列表L中删除该原始文字块;(2. 3)遍历完成后,如果列表L不为空,则重复上述步骤(2. 1)和(2. 2),生成一个新的集合。3. 如权利要求2所述的一种基于PDF的复杂版面的标引方法,其特征是 步骤(2.2)中检査两个原始文字块是否近邻的方法是设两个待判定的原始文字块分别为Ti和T2,对应的字号为t和f2,对应 的位置左上角坐标分别为Od,y,)和(x2,y2),右下角坐标分别为0d' ,y/ ) 和2' ,y2,),包括以下步骤(2.2.1) 计算字号差别系数,定义为c = 2*(&-f2)/(fi+f2);(2.2.2) 计算平均字符高度为h = (y,' -yi +y2, -y2)/2;(2.2.3) 计算在水平方向的距离系cL:dx=(maX(Xl,X2)—min(Xl, , x2, ) )/h,其中max (a, b)表示取两者的较大值,min(a, b)表示取两者的较小值;(2.2.4) 计算在垂直方向的距离系数dy: dy=(max(yi, y2)-min(y, , y2, ))/h;(2.2.5) 设定最大容忍字号差别系数(:_=0. 1,最大容忍水平方向距离 系数为d_=0.9,最大容忍垂直方向距离系数为d一 二0.9;(2.2.6) 则判定两原始文字块为近邻的充分必要条件是c〈cmax且 dx〈dXMX且dy 〈 dymax.4. 如权利要求1所述的一种基于PDF的复杂版面的标引方法,其特征 是步骤(3)中,对每个集合中的原始文字块进行排序时根据不同版面类型,确定不同的排序类型后,再根据原始文字块的位置进行排序,具体来说对于普通的横排版面使用先从上到下、再从左到右的排序方法,对...
【专利技术属性】
技术研发人员:徐剑波,董宁,
申请(专利权)人:北大方正集团有限公司,北京方正阿帕比技术有限公司,北京大学,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。