网页内容自动提取方法技术

技术编号:20329310 阅读:44 留言:0更新日期:2019-02-13 05:51
本发明专利技术属于网页内容提取技术领域,具体涉及一种网页内容自动提取方法,特别是适用于期刊文献摘要页面内容的提取,包括:S1、将HTML重新渲染;S2、对DOM树进行分割;S3、对侯选视觉块进行预标注;S4、对侯选视觉块进行标注。该方法采用快速傅里叶变换(FFT)和对数盖伯滤波器取代传统视觉算法,降低了时间、空间复杂度,提高了算法的时间、空间效率。

【技术实现步骤摘要】
网页内容自动提取方法
本专利技术属于网页内容提取
,具体涉及一种网页内容自动提取方法,特别是适用于期刊文献摘要页面内容的提取。
技术介绍
随着信息技术的发展,互联网在信息获取中的重要性正与日俱增。互联网也是科研工作者获取最新发表文献的有效途径。学术期刊出版商(Elsevier、Wiley、Taylor&Francis等)在主站提供期刊文献摘要页面。从这些摘要页面提取作者、发表时间、摘要等信息是建立整合数据库的要点,也是难题。网页内容提取技术是信息提取(InformationExtraction)领域一直以来的热点问题。现有的方法大致可以分为三类:一是基于模板的方法,这种方法根据网页元素的xpath、css表达式进行提取,具有准确性强的优点,但创建模板需要消耗大量人力,大量模板难于维护,且对网页结构的改变鲁棒性差;二是基于DOM树的方法,这类方法将网页解析为DOM树,通过监督或半监督的学习方法,将目标网页与标注页面进行树结构匹配(alignment)或部分匹配(partialalignment),对目标页面进行标注,进而提取网页内容,这类方法效率不高(Shing-Ling算法时间复杂度与树的深度成正比),并且需要多个由同一模板生成的页面作为输入;三是基于视觉信息的方法,比如微软亚洲研究院提出的VIPS页面分割算法。这类方法将页面按照背景颜色、文字密度、字体等线索(cue)分割成若干视觉块(visualblock),通过支持向量机(SVM)或神经网络模型学习得到各视觉块重要性指数,进而提取网页正文内容;这种方法时间、空间复杂度均较高,且依赖于人为制定的规则,对于新型网页模板鲁棒性差。
技术实现思路
针对上述技术问题,本专利技术的目的在于提供一种网页内容自动提取方法,该方法采用快速傅里叶变换(FFT)和对数盖伯滤波器取代传统视觉算法,降低了时间、空间复杂度,提高了算法的时间、空间效率。为实现上述目的,本专利技术所采取的技术方案是:一种网页内容自动提取方法,其特征在于,包括:S1、将HTML重新渲染首先建立HTML文档的DOM树与渲染树,再根据所述DOM树与渲染树对每个视觉块进行重新渲染,将img标签重新渲染成一个任意的几何图形,将p、div、a标签的每一行也重新渲染成一个任意的几何图形;S2、对DOM树进行分割首先、按照广度优先顺序从根结点开始遍历DOM树,直到找到子结点数大于1的结点;对该结点进行横向分割,然后选择该结点下的子结点中方向为纵向的结点;其次、对所述方向为纵向的结点进行一次以上的纵向分割,然后选择该结点下的子结点中视觉块面积最大的结点;最后、对所述视觉块面积最大的结点再进行横向分割,得到若干侯选视觉块;S3、对侯选视觉块进行预标注通过启发式算法或/和关键词频率算法给予每个侯选视觉块对应的预标注标签,所有的预标注标签组成一个预标注标签集合;S4、对侯选视觉块进行标注通过概率图模型对每个候选视觉块进行标注,得到对应的标注标签;将所有的标注标签一一与预标注标签集合匹配,筛选出落在预标注标签集合内的标注标签。作为优选,所述DOM树与渲染树只包含img、p、div、a标签。作为优选,所述几何图形为一组纵横相交线段。作为优选,所述几何图形为圆形或者椭圆形。作为优选,所述几何图形为正多边形。作为优选,所述结点的分割方法为:先通过快速傅里叶变换得到视觉块的频域表示,再采用一组正交的对数盖伯滤波分离视觉块频域表示的水平和垂直分量,最后对比视觉块的水平和垂直分量确定视觉块的方向。本专利技术的有益效果为:本专利技术的方法采用快速傅里叶变换(FFT)和对数盖伯滤波取代传统视觉算法,降低了时间、空间复杂度,提高了算法的时间、空间效率。另外,该方法采用概率图模型描述候选视觉块间的局部依赖关系,以适应不同站点与页面布局变化,对于页面布局的变化具有一定的鲁棒性。采用对数盖伯滤波判断页面元素方向性,结合条件向量场提高模型提取准确度,是网页内容自动提取的又一途径。所示几何图形为一组纵横相交线段,其中几何图形越简单计算就越简单,运算速度越快,一组纵横相交线段对应的运算速度就越快。附图说明图1是本专利技术的流程示意图。图2是本专利技术实施例的示意图一。图3是本专利技术实施例的示意图二。图4是本专利技术实施例的示意图三。图5是本专利技术实施例的示意图四。具体实施方式为了更好地理解本专利技术,下面结合实施例和附图对本专利技术的技术方案做进一步的说明(如图1、2、3、4、5所示)。如图1所示,一种网页内容自动提取方法,包括:S1、将HTML重新渲染首先建立HTML文档的DOM树与渲染树(rendertree),所述DOM树与渲染树只包含img、p、div、a标签,再根据所述DOM树与渲染树对每个视觉块(页面元素经由浏览器渲染引擎处理,表示为页面中面积不为零的矩形区域,称为视觉块。页面元素是由一组HTML标签包围的一段HTML代码,如<p>、<div>等。这里视觉块对应的是DOM树中的结点)进行重新渲染,将img标签重新渲染成一个任意的几何图形(如一组纵横相交线段或多边形、圆、椭圆等规则的几何图形或者任意不规则的几何图形),将p、div、a标签的每一行(文字)也重新渲染成一个任意的几何图形;如图2所示(图中每个十字形对应一个标签),下面以重新渲染成一组纵横相交线段(如十字形)为例:img标签,将img标签重新渲染成一组纵横相交线段;例如,img标签的视觉块对应页面中的一个矩形区域。矩形区域四个角点坐标从左上角点开始按逆时针方向排列分别为R1(x1,y1)、R2(x1,y2)、R3(x2,y2)、R4(x2,y1)。P(x1,(y1+y2)/2)、Q((x1+x2)/2,y2)、R(x2,(y1+y2)/2)、S((x1+x2)/2,y1)分别为线段R1R2、R2R3、R3R4、和R4R1的中点。那么,可以将相互垂直平分的一组线段PR、QS(以下简称“十字形”)作为img标签重新渲染的结果。p、div、a标签,将该类标签的每一行文字重新渲染成一组纵横相交线段;例如,p标签的视觉块对应页面中的一个矩形区域。矩形四个角点坐标从左上角点开始按逆时针方向排列分别为R1(x1,y1)、R2(x1,y2)、R3(x2,y2)、R4(x2,y1)。矩形宽度(width)是W像素。p标签中包含的文字长度为C字节,字体大小(fontsize)为F像素。那么,通过估计可以得到p标签视觉块中文字行数N是行(是向上取整符号)。取P1、P2…Pn为线段R1R2的N+1等分点;R1、R2…Rn为线段R3R4的N+1等分点;Q、S分别为线段R2R3、R1R4中点。那么,线段组P1R1、P2R2、…、PnRn、QS可以作为p标签重新渲染的结果。S2、对DOM树进行分割(横向-纵向-横向分割)如图3所示,首先、按照广度优先顺序从根结点开始遍历DOM树,直到找到子结点数大于1的结点;对该结点进行横向分割(如图3中的VB1、VB2、VB3分成纵向三块),然后选择该结点下的子结点中方向为纵向的结点(即图3中的VB3);如图4所示,其次、对所述方向为纵向的结点进行一次以上的纵向分割(如图4中的VB1、VB2、VB3分成横向三块),然后选择该结点下的子结本文档来自技高网
...

【技术保护点】
1.一种网页内容自动提取方法,其特征在于,包括:S1、将HTML重新渲染首先建立HTML文档的DOM树与渲染树,再根据所述DOM树与渲染树对每个视觉块进行重新渲染,将img标签重新渲染成一个任意的几何图形,将p、div、a标签的每一行也重新渲染成一个任意的几何图形;S2、对DOM树进行分割首先、按照广度优先顺序从根结点开始遍历DOM树,直到找到子结点数大于1的结点;对该结点进行横向分割,然后选择该结点下的子结点中方向为纵向的结点;其次、对所述方向为纵向的结点进行一次以上的纵向分割,然后选择该结点下的子结点中视觉块面积最大的结点;最后、对所述视觉块面积最大的结点再进行横向分割,得到若干侯选视觉块;S3、对侯选视觉块进行预标注通过启发式算法或/和关键词频率算法给予每个侯选视觉块对应的预标注标签,所有的预标注标签组成一个预标注标签集合;S4、对侯选视觉块进行标注通过概率图模型对每个候选视觉块进行标注,得到对应的标注标签;将所有的标注标签一一与预标注标签集合匹配,筛选出落在预标注标签集合内的标注标签。

【技术特征摘要】
1.一种网页内容自动提取方法,其特征在于,包括:S1、将HTML重新渲染首先建立HTML文档的DOM树与渲染树,再根据所述DOM树与渲染树对每个视觉块进行重新渲染,将img标签重新渲染成一个任意的几何图形,将p、div、a标签的每一行也重新渲染成一个任意的几何图形;S2、对DOM树进行分割首先、按照广度优先顺序从根结点开始遍历DOM树,直到找到子结点数大于1的结点;对该结点进行横向分割,然后选择该结点下的子结点中方向为纵向的结点;其次、对所述方向为纵向的结点进行一次以上的纵向分割,然后选择该结点下的子结点中视觉块面积最大的结点;最后、对所述视觉块面积最大的结点再进行横向分割,得到若干侯选视觉块;S3、对侯选视觉块进行预标注通过启发式算法或/和关键词频率算法给予每个侯选视觉块对应的预标注标签,所有的预标注标签组成一个预标注标签集合;S4、对侯选视觉...

【专利技术属性】
技术研发人员:王世阳李阳
申请(专利权)人:武汉伯远生物科技有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1