一种基于跳转处理及双重校验的多篇电子文档分篇算法制造技术

技术编号:16455944 阅读:50 留言:0更新日期:2017-10-25 20:31
本发明专利技术公开了一种基于跳转处理及双重校验的多篇电子文档分篇算法,篇名标引特征提取及特征组合,根据多篇电子文档的文章字体字号、空间位置、语种属性等,提取篇名特征,并将这些特征不同权重组合,形成篇名判定函数、判定函数中,步骤二,根据特征组合提取文档的文章篇名(即文章的起始位置),对输入的电子文档的含字体信息位置信息的字符流进行合并行预处理,步骤三,基于印刷页码提示和基于分割线提示的跳转内容检索及处理,步骤四,文章终止位置的确定,获得文章篇名和处理完跳转内容后,判定文章终止位置及文章页码范围,步骤五,文章要素项数据提取,根据文章元素内容验证文章有效性及再标引。

A multi document segmentation algorithm based on jump processing and double check

The invention discloses a division algorithm more than electronic document processing and calibration based on double jump, indexing of feature extraction and feature combination, according to the articles of electronic documents, the font size of the spatial location, language attribute, extraction of characteristics, and these characteristics of different weight combination, form of decision function, decision function, step two, according to the combination of features extracted from the document title (i.e. the starting position of the article), containing the font information location information of the input character of electronic document flow and pretreatment, step three, retrieval and processing, printing tips and hints page segmentation based on line jump based on the contents of step four. The end position is determined, to obtain title and processed jump content, determine the end position and the page range, step five, elements of the article Item data extraction, according to the content of the article elements to verify the validity and re indexing.

【技术实现步骤摘要】
一种基于跳转处理及双重校验的多篇电子文档分篇算法
本专利技术新型涉及基于跳转处理及篇名双重校验的多篇电子文档分篇方法
,具体为一种基于跳转处理及篇名双重校验的多篇电子文档分篇方法。
技术介绍
伴随着计算机和互联网技术的发展,如何根据用户多元的需求制作出多元化的数字产品已经是当前行业面临的主要问题,实现产品的多元化加工,必然要求前期的数据加工的规范化,碎片化,多篇文章的电子文档是数字出版行业需要处理一大类数据,实现此种电子文档的分篇是实现这种数据碎片化的基础,因此,对于此类文章的准确分篇有着十分重要的意义,现有技术中,专利CN101673256A公布的“一种基于文字流的文章元数据自动抽取方法及系统”提出利用规则模板提取文章元数据方法,处理文章内部元数据,不能处理处理多篇文章电子文档,专利CN102375808A公布“一种文档篇名提取方法和装置”利用预先设置的关键词及长度限制提取文档篇名,不能实现自动提取文章篇名并且对于没有明显关键词的篇名不具有适用性,专利CN101206639A公布“一种基于PDF的复杂版面的标引方法”提出针对报刊的文字块的生成和合并规则和整个提取内容和位置等信本文档来自技高网...
一种基于跳转处理及双重校验的多篇电子文档分篇算法

【技术保护点】
一种基于跳转处理及双重校验的多篇电子文档分篇算法,其特征在于:包括以下步骤:步骤一:篇名标引特征提取及特征组合,根据多篇电子文档的文章字体字号、空间位置、语种属性等,提取篇名特征,并将这些特征不同权重组合,形成篇名判定函数、判定函数中,判定函数的表示如下,(Text.English=0)&&(height>=(TextHeight*1.5))&&(Text.Length>Th1)&&((X2‑X1)>Th2)&&(((LeftSpace>Th3)+(RightSpace>Th3)+(TopSpace&...

【技术特征摘要】
1.一种基于跳转处理及双重校验的多篇电子文档分篇算法,其特征在于:包括以下步骤:步骤一:篇名标引特征提取及特征组合,根据多篇电子文档的文章字体字号、空间位置、语种属性等,提取篇名特征,并将这些特征不同权重组合,形成篇名判定函数、判定函数中,判定函数的表示如下,(Text.English=0)&&(height>=(TextHeight*1.5))&&(Text.Length>Th1)&&((X2-X1)>Th2)&&(((LeftSpace>Th3)+(RightSpace>Th3)+(TopSpace>(TextRowSpace*1.5))+(BottomSpace>(TextRowSpace*1.5))+(Align&1)+(height>=(TextHeight*1.8))+(Y1<(PageHeight/3))+(font=maxfontofpage))>=Th4),判定函数中,使用了语种,字体高度,字符长度,文本宽度,行左间距,行右间距,上下行距,居中居左居右属性,文本位置属性等九种特征组合,上述伪代码中,Text表示输入行字符串内容,English表示文本的英文属性,height表示文本行的高度,TextHeight为统计文档获得的文档的平均行高,X1,X2,Y1,Y2分别表示文本行块的左右上下位置坐标,LeftSpace,RightSPace,TopSpace,BottomSpace分别表示文本行的左右上下间距,TextRowSpace表示文档的平均行间距,Align表示文本行的居中居左或居右属性,font表示文本行字体高度,maxfontofpage表示统计获得的文档最大字体高度,上述表达式中+表示属性的叠加,表示文本行满足上述表达式中Th4个即可判读为篇名,该种判别函数融合多种篇名特征,具有较大的适应性。步骤二:根据特征组合提取文档的文章篇名(即文章的起始位置),对输入的电子文档的含字体信息位置信息的字符流进行合并行预处理,获得以行为单位的文字块,并统计单位块的行特征(行高,行字体,语种属性等),根据特征组合形成的篇名判定函数搜索判定函数值为真的文本行串,提取文档的文章篇名(即文章的起始位置),对于输入的字符流进行行合并,根据字符流顺序,判断水平方向位置交叉且字体高度相差小于阈值的字符合并为一行,即(min(Bt1,Bt2)-max(Tp1,Tp2))>Th1&&(Lf1-Lf2)<Th2&&(Font1-Font2<Th3,其中Bt、Bt2、Tp1、Tp2、Lf1、Lf2、Font1和Font2分别为输入两个字符的下,上,左位置及字体高度,Th1、Th2和Th3分别为两个字水平交叉阈值,左右距离阈值,字体高度差距阈值,阈值根据统计获得文档平均行高,字体高度给出,获得合并行后,统计并记录行的高度、字体、语种和位置等特征,根据电子文档页眉页脚在多页上具有相似性的特征,在文档多个页面的页眉页脚候选区域搜索相似内容,确定页眉页脚与正文的分割位置,页眉(页脚)搜索方法的具体实现步骤为,Step1.搜索间隔步长t1=1,搜索起始页P为页码范围内某常数,Step2.设起始页增值i=0,Step3.后续搜索页间隔数n=1,Step4.设起始页pi=p+i,i=0、3、6......24,当前搜索页p2为p2=p1+n*t1,Step5在页p1,p2的页眉(页脚)候选区,搜索位置与内容相似的文本块,若未找到,则i=i+1,跳转至Step6,若找到,则令n=n+1,跳转至Step4,Step6.如果n<3,返回Step4继续执行,否则跳转至Step9,Step7.如果i<10,令i=i+1返回Step3,否则跳转至Step8,Step8.如果t1<4,令t1=t1+1,返回Step2,否则跳转至Step10,Step9.找到页眉(页脚)内容,将存储的文本块合并获得页眉底部位置(页脚顶部位置)为页眉(页脚)与正文的分割位置,设置有效的页眉(页脚)位置,Step10.未找到页眉(页脚)区,将页眉(页脚)位置设为无效值,此页眉页脚搜索方法通过变步长多页搜索,能兼容奇偶页页眉页脚排版不同,文章首页页眉页脚排版不同的情况,具有较大的稳定性及适应性,在获得文档行及行属性后,依据步骤一中给出判定函数,搜索符合判定函数的正文行(页眉页脚行除外),判定为文章的篇名。步骤三:基于印刷页码提示和基于分割线提示的跳转内容检索及处理,跳转是指为了排版的美观及版面的合理利用,将部分文章的尾部内容排版在其他文章后面,本发明中将有跳转内容文章的连续排版的末尾处称为跳转位置,将跳转内容起始处称为接续位置,根据文档跳转一般分为印刷页码提示跳转和基于分割线提示的跳转两种情况处理。步骤四:文章终止位置的确定,获得文章篇名和处理完跳转内容后,判定文章终止位置及文章页码范围,文章终止位置依据文章内容完结处有较大空白行或者空页或者跳转内容结束位置确定,本方法统计标引出篇名的居顶属性,对于文章居顶的文档,当前文章结束位置为下一文章篇名的前一页,非居顶文章则根据下一篇文章篇名及其前的空白位置...

【专利技术属性】
技术研发人员:王艳袁仁慧梁洵
申请(专利权)人:同方知网北京技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1