网页内容自动提取方法技术

技术编号：20329310 阅读：62 留言：0更新日期：2019-02-13 05:51

本发明专利技术属于网页内容提取技术领域，具体涉及一种网页内容自动提取方法，特别是适用于期刊文献摘要页面内容的提取，包括：S1、将HTML重新渲染；S2、对DOM树进行分割；S3、对侯选视觉块进行预标注；S4、对侯选视觉块进行标注。该方法采用快速傅里叶变换(FFT)和对数盖伯滤波器取代传统视觉算法，降低了时间、空间复杂度，提高了算法的时间、空间效率。

全部详细技术资料下载

【技术实现步骤摘要】
网页内容自动提取方法
本专利技术属于网页内容提取
，具体涉及一种网页内容自动提取方法，特别是适用于期刊文献摘要页面内容的提取。
技术介绍
随着信息技术的发展，互联网在信息获取中的重要性正与日俱增。互联网也是科研工作者获取最新发表文献的有效途径。学术期刊出版商(Elsevier、Wiley、Taylor&Francis等)在主站提供期刊文献摘要页面。从这些摘要页面提取作者、发表时间、摘要等信息是建立整合数据库的要点，也是难题。网页内容提取技术是信息提取(InformationExtraction)领域一直以来的热点问题。现有的方法大致可以分为三类：一是基于模板的方法，这种方法根据网页元素的xpath、css表达式进行提取，具有准确性强的优点，但创建模板需要消耗大量人力，大量模板难于维护，且对网页结构的改变鲁棒性差；二是基于DOM树的方法，这类方法将网页解析为DOM树，通过监督或半监督的学习方法，将目标网页与标注页面进行树结构匹配(alignment)或部分匹配(partialalignment)，对目标页面进行标注，进而提取网页内容，这类方法效率不高(Shing-Ling本文档来自技高网...

【技术保护点】
1.一种网页内容自动提取方法，其特征在于，包括：S1、将HTML重新渲染首先建立HTML文档的DOM树与渲染树，再根据所述DOM树与渲染树对每个视觉块进行重新渲染，将img标签重新渲染成一个任意的几何图形，将p、div、a标签的每一行也重新渲染成一个任意的几何图形；S2、对DOM树进行分割首先、按照广度优先顺序从根结点开始遍历DOM树，直到找到子结点数大于1的结点；对该结点进行横向分割，然后选择该结点下的子结点中方向为纵向的结点；其次、对所述方向为纵向的结点进行一次以上的纵向分割，然后选择该结点下的子结点中视觉块面积最大的结点；最后、对所述视觉块面积最大的结点再进行横向分割，得到若干侯选视觉块...

【技术特征摘要】
1.一种网页内容自动提取方法，其特征在于，包括：S1、将HTML重新渲染首先建立HTML文档的DOM树与渲染树，再根据所述DOM树与渲染树对每个视觉块进行重新渲染，将img标签重新渲染成一个任意的几何图形，将p、div、a标签的每一行也重新渲染成一个任意的几何图形；S2、对DOM树进行分割首先、按照广度优先顺序从根结点开始遍历DOM树，直到找到子结点数大于1的结点；对该结点进行横向分割，然后选择该结点下的子结点中方向为纵向的结点；其次、对所述方向为纵向的结点进行一次以上的纵向分割，然后选择该结点下的子结点中视觉块面积最大的结点；最后、对所述视觉块面积最大的结点再进行横向分割，得到若干侯选视觉块；S3、对侯选视觉块进行预标注通过启发式算法或/和关键词频率算法给予每个侯选视觉块对应的预标注标签，所有的预标注标签组成一个预标注标签集合；S4、对侯选视觉...

【专利技术属性】
技术研发人员：王世阳，李阳，
申请(专利权)人：武汉伯远生物科技有限公司，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人