一种基于分块的网页正文信息提取方法技术

技术编号:18894607 阅读:307 留言:0更新日期:2018-09-08 11:00
本发明专利技术提出了一种基于分块的网页正文信息提取方法,包括以下步骤:(1)网页标准化;(2)构造标签树;(3)将网页分割成块;(4)提取含有正文的块。本发明专利技术通过对网页进行分块和对内容块的取舍进行信息提取,网页分块采用自底向上分析标签树的自动分块算法,该方法比现有技术更准确,对复杂结构的页面分块效果更好,同时通过块的重要度和块特征分析每个内容块,来提取用户所需信息,准确性高,效果好。

A method of extracting webpage text information based on chunking

The invention proposes a method for extracting text information of web pages based on block, which comprises the following steps: (1) standardization of web pages; (2) construction of tag tree; (3) segmentation of web pages into blocks; (4) extraction of blocks containing text. The invention divides the web pages into blocks and extracts information about the selection and rejection of the content blocks. The bottom-up analysis tag tree automatic segmentation algorithm is adopted for the web page segmentation. The method is more accurate than the existing technology and has better effect on the page segmentation of complex structure. At the same time, each content block is analyzed by the importance and block characteristics of the blocks. Extracting user's required information is of high accuracy and good effect.

【技术实现步骤摘要】
一种基于分块的网页正文信息提取方法
本专利技术涉及数据采集
,具体涉及一种基于分块的网页正文信息提取方法。
技术介绍
随着网络资源的不断丰富和网络信息量的不断膨胀,人们对网络的依赖性越来越强,却也给服务对象从浩如烟海的互联网资源中快速找到自己所需的特定资源带来了不便;信息自古就有无限的价值,随着时代的不断发展,人类不知不觉已经来到了信息时代,各行各业都充斥了无数的信息,而信息的价值就在于数据的流通,如果数据能够及时的流通和传递起来,才能发挥信息真正的不可比拟的价值;在市场经济条件下,采集数据已经成为重要的工具和手段。随着Web的迅速发展,Web的信息越来越丰富。为了更好的使用Web上的信息,人们不断追求能够有效组强和利用网上信息的技术和系统。然页,Web文档不像传统的文本那样整齐、干净,其中包含大量的噪音内容,例如为了增强用户交互性而加入的脚本,为了便于用户浏览而加入的导航链接,以及出于商业因素加入的广告链接等。这些噪音内容不仅影响Web信息检索的效率,而且还导致了检索准确性的下降。因此,针对上述问题,本专利技术提出了一种新的技术方案。
技术实现思路
本专利技术的目的是提供一种有效地去除噪音干扰,快速提取所需信息内容的基于分块的网页正文信息提取方法。本专利技术是通过以下技术方案来实现的:一种基于分块的网页正文信息提取方法,包括以下步骤:网页标准化:首先对HTML代码进行预处理,将其标准化;构造标签树:将整理好的规范网页构造标签树,将网页中的标签按照嵌套关系整理成一棵树状结构,在构造的过程中保留每个节点的视觉属性,同时,对标签树做裁剪,将无关节点删除;将网页分割成块,依据网页中内容块标签作为容器标签对网页进行划分;a、通过统计标签树上的各种容器标签的数量进行统计,判断网页是采用哪种容器标签来做布局;b、考察最底层容器标签节点,将标签树最底层的节点下的所有文本节点合并,并统计该块的信息含量,同时考察视觉特征;c、考察每个底层节点的上一层节点,并计算该节点的信息含量,判断该节点能否成为分块节点;提取含有正文的块分块结束后,对内容块根据用户的不同需要进行取舍,取出含有正文信息的内容块。进一步地,所述步骤中构造标签树的方法采用DOM标签树构造工具。进一步地,所述步骤中依据网页中内容块标签作为容器标签对网页进行划分,其它类型的标签信息作为所在内容块的属性。进一步地,所述视觉特征包括表格的大小、位置、字体的大小和颜色、以及段落的长短。进一步地,所述步骤中,依据内容块的重要度以及块特征对内容块进行取舍。进一步地,所述块特征包括空间特征和内容特征,所述空间特征包括内容块的位置和大小,内容特征包括文字长度、链接数量和图片数量。本专利技术的有益效果是:本专利技术通过对网页进行分块和对内容块的取舍进行信息提取,网页分块采用自底向上分析标签树的自动分块算法,该方法比现有技术更准确,对复杂结构的页面分块效果更好,同时通过块的重要度和块特征分析每个内容块,来提取用户所需信息,准确性高,效果好。具体实施方式下面结合实施例对本专利技术做进一步地说明。实施例1一种基于分块的网页正文信息提取方法,包括以下步骤:网页标准化:首先对HTML代码进行预处理,将其标准化;构造标签树:将整理好的规范网页构造标签树,将网页中的标签按照嵌套关系整理成一棵树状结构,在构造的过程中保留每个节点的视觉属性,同时,对标签树做裁剪,将无关节点删除;将网页分割成块,依据网页中内容块标签作为容器标签对网页进行划分;a、通过统计标签树上的各种容器标签的数量进行统计,判断网页是采用哪种容器标签来做布局;b、考察最底层容器标签节点,将标签树最底层的节点下的所有文本节点合并,并统计该块的信息含量,同时考察视觉特征;c、考察每个底层节点的上一层节点,并计算该节点的信息含量,判断该节点能否成为分块节点;提取含有正文的块分块结束后,对内容块根据用户的不同需要进行取舍,取出含有正文信息的内容块。在本实施例中,步骤中构造标签树的方法采用DOM标签树构造工具。在本实施例中,步骤中依据网页中内容块标签作为容器标签对网页进行划分,其它类型的标签信息作为所在内容块的属性。在本实施例中,视觉特征包括表格的大小、位置、字体的大小和颜色、以及段落的长短。在本实施例中,步骤中,依据内容块的重要度以及块特征对内容块进行取舍。在本实施例中,块特征包括空间特征和内容特征,空间特征包括内容块的位置和大小,内容特征包括文字长度、链接数量和图片数量。本专利技术通过对网页进行分块和对内容块的取舍进行信息提取,网页分块采用自底向上分析标签树的自动分块算法,该方法比现有技术更准确,对复杂结构的页面分块效果更好,同时通过块的重要度和块特征分析每个内容块,来提取用户所需信息,准确性高,效果好。本文档来自技高网...

【技术保护点】
1.一种基于分块的网页正文信息提取方法,其特征在于:包括以下步骤:

【技术特征摘要】
1.一种基于分块的网页正文信息提取方法,其特征在于:包括以下步骤:网页标准化:首先对HTML代码进行预处理,将其标准化;构造标签树:将整理好的规范网页构造标签树,将网页中的标签按照嵌套关系整理成一棵树状结构,在构造的过程中保留每个节点的视觉属性,同时,对标签树做裁剪,将无关节点删除;将网页分割成块,依据网页中内容块标签作为容器标签对网页进行划分;a、通过统计标签树上的各种容器标签的数量进行统计,判断网页是采用哪种容器标签来做布局;b、考察最底层容器标签节点,将标签树最底层的节点下的所有文本节点合并,并统计该块的信息含量,同时考察视觉特征;c、考察每个底层节点的上一层节点,并计算该节点的信息含量,判断该节点能否成为分块节点;提取含有正文的块分块结束后,对内容块根据用户的不同需要进行取舍,取出含有正文信息的内容块。2.根据...

【专利技术属性】
技术研发人员:姚国平
申请(专利权)人:苏州纯青智能科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1