一种网页核心内容提取方法技术

技术编号:12850275 阅读:41 留言:0更新日期:2016-02-11 15:21
本发明专利技术提供一种网页核心内容的提取方法,包括以下步骤:1)根据网页代码中的html标签,将网页内容分割为多个段落;2)统计每个段落的字符长度、相邻段落的间隔距离和段落内部密集程度作为特征值。3)根据所述特征值计算每个段落的核心特征值。根据网页中各个段落的核心特征值分布情况,得到核心特征值最为集中的范围,核心特征值在此阈值范围内的段落即为网页的核心段落,从而得到网页的核心内容。与现有技术相比具有以下优点:不单纯依赖于html标签,充分考虑到文本段落本身特征、段落布局之间的特征,因而准确率高。实施并不依赖于特定类型的网页,具有通用性,能处理互联网上各类常见的网页。实施简单,计算量小,处理效率高。

【技术实现步骤摘要】

本专利技术涉及信息
,尤其涉及互联网信息处理
,具体涉及。
技术介绍
随着互联网的发展,互联网站网页数目、互联网用户都不断增长,互联网网页内容成为了人们获取信息的一个不可或缺的渠道。而在商业运作的因素下,为用户提供原始信息的网站,会在其包含有价值数据的网页中提供一些额外的信息,如广告数据以及对其他站点相关内容的链接(这些广告、链接数据可能是文本,也可能是图片,甚至可能是插件);这些广告、链接等数据的不断加入也使得本来应该很精简的页面外观变得繁琐;各类的网页制作工具以及各种动态元素的加入也使得页面的内在结构变得复杂。网页内容与结构的日趋复杂影响用户阅读体验,耗费大量互联网带宽资源,这些数据不仅影响了网页信息浏览的效率,如果应用于检索的话,还会导致检索的准确性降低。如何准确快速分析获取网页核心内容成为众多Web内容处理应用(如搜索引擎、网络归档、信息收集系统等)迫切需要解决的一个难题。另外,移动互联网的蓬勃发展使得在移动端浏览网页成为大势所趋,而移动端所具有的屏幕小、流量受限等特点,无法显示常规网页中的所有内容,这也使得网页核心内容的有效提取变得更为迫切。现有技术中提取网页核心内容的方法一般有如下几种方法:1.根据网页中行与行的字符数进行确定1)针对网页,确定第i行和第(i+1)行内容的字符总数和中文字符数;2)计算第i行和第(i+1)行内容的文本密度,例如可以用中文字符数除以字符总数计算文本密度;3)将计算得到的文本密度与预设的阀值进行比较;4)若比较结果为文本密度不小于预设的阀值,则确定第i行和第(i+1)行为核心内容,若比较结果为文本密度小于预设的阀值,则确定第i行和第(i+1)行内容为非核心内容;5)若确定出第i行和第(i+1)行内容为核心内容,则按照上述方法确定第i行、第(i+1)行以及第(i+2)行内容是否为核心内容;6)若确定出第i行和第(i+1)行内容为非核心内容,则按照上述方法确定第(i+2)行和第(i+3)行内容是否为核心内容;7)执行上述步骤,直至遍历该网页的所有行。现有技术的上述方法,在提取网页核心内容时,若连续多行内容的文本密度不小于预设阀值,就认为该连续多行内容为正文内容,但是现在很多网页中,存在较多干扰度较高的非核心内容,例如个人信息、短文摘要、免责申明等,这些非核心内容同样具有文本密度较大的特点,很可能大于预设的阀值,从而配误认为核心内容;而调整阀值的话,有可能将核心内容误判为非核心内容,从而使得核心内容的提取准确性降低。另外,由于上述方法算法比较繁琐遇到网页加载了大量内容的情况时,可能需要较长的处理时长才能完成网页核心内容的提取,影响用户的体验感受,也无法满足现阶段对信息技术越来越倾向于高速高效的信息处理的要求。2.利用网页结构布局信息对网页进行区域分割,提取核心网页块的内容通过利用网页页面的布局进行分块,将一个网页分成多个部分,再根据这几个部分的特征进行分类。但是这种基于网页布局的方法并不适用于所有的网页,需要提前设定处理模板。江苏新瑞峰信息科技有限公司对上述方法进行了改进,提出基于html标签对网页进行区域分块然后提取文本内容(专利申请号为201210213554.0)。该方法只单纯依赖于html标签,并没有考虑到网页中文本内容本身的相关性,实际效果上只能对新闻网页进行有效处理(根据其描述对新闻网页的处理成功率为80%到85% )3.基于文档对象模型(DOM,Document Object Model)提取网页的核心内容通过抽取网页文档里中的文档对象模型,根据特定的对象模型节点提取网页内容。事实上各个网页的文档对象模型中内容节点都是网页设计者自行定义的,该方法无法适用于所有网页。
技术实现思路
为了解决上述问题,本专利技术的目的是提供一种网页核心内容的提取方法,该方法通过将网页内容分割为段落,通过段落的长度、段落之间的文本距离、段落内部的文本密集程度定位网页的核心内容。为了实现上述目的,本专利技术采取的方案是:一种网页核心内容的提取方法,包括以下步骤:1)根据网页代码中的html标签,将网页内容分割为多个段落;2)统计每个段落的字符长度、相邻段落的间隔距离和段落内部密集程度作为特征值。3)根据所述特征值计算每个段落的核心特征值。根据网页中各个段落的核心特征值分布情况,得到核心特征值最为集中的范围,核心特征值在此阈值范围内的段落即为网页的核心段落,从而得到网页的核心内容。进一步地,步骤1)根据 html 标签(包括〈pX/p>〈divX/div>〈span>〈/spanXdivX/div><br><br/>等)对网页进行段落划分。所述相邻段落的间隔距离包括的种类有一段落与其上一段落的距离及该段落与其下一段落的距离。进一步地,所述相邻段落的间隔距离定义为段落之间的字符数+M,其中Μ的值根据一段落的前一段落的结束标签与该段落的开始标签确定。进一步地,所述段落内部密集程度定义为段落中出现的中文和英文字符总和/Q,其中Q的值定义为段落中出现的中文和英文字符总和+段落中的标点符号数XQl+html标签1长度XQl+html标签2长度XQ2…+html标签P长度为根据html标签的类型确定。进一步地,一段落的核心特征值定义为段落的字符长度X段落内部密集程度/(该段落与其上一段落的距离+该段落与其下一段落的距离)。进一步地,步骤3)根据所述特征值计算得到段落的核心特征值,根据各个段落核心特征值的分布情况,选择得到核心特征值在一定阈值范围内核心段落,这些段落的组合为核心文本。进一步地,所述阀值范围选取的依据为:段落核心特征值代表了网页中核心内容的特征,同一网页中核心段落的特征值是相近的,而非核心内容如广告、免责申明、推送链接等不具备这样的集中性特征,因此选择段落核心特征值最为集中的部分作为选择核心段落的阈值范围。本专利技术通过采取上述技术方案,与现有技术相比具有以下优点:1.不单纯依赖于html标签,充分考虑到文本段落本身特征、段落布局之间的特征,因而准确率高。2.实施并不依赖于特定类型的网页,具有通用性,能处理互联网上各类常见的网页。3.实施简单,计算量小,处理效率高。【附图说明】图1为本专利技术网页核心内容获取流程示意图。图2为本专利技术实施例2中网页核心内容获取示意图。【具体实施方式】为使本专利技术的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图作详细说明如下。首先,对本专利技术的核心构思进行说明:1.利用html标签将网页代码进行段落划分。html 标签(Hyper Text Markup Language tag ;超文本标记语言标签)是 HTML 语言中最基本的单位,html标签是HTML标准通用标记语言下的一个应用最重要的组成部分。html标签通常具有以下特点,1)由尖括号包围的关键词,比如〈html〉。2)通常是成对出现的,比如<div>和</div>。3)标签对中的第一个标签是开始标签,第二个标签是结束标签。4)开始和结束标签也被称为开放标签和闭合标签。5)也有单独呈现的标签,如〈img src = 〃.jpg〃/>等。6) 一般成对出现的标签,其内容在两个标签中间。单独呈现的本文档来自技高网
...

【技术保护点】
一种网页核心内容的提取方法,包括以下步骤:1)根据网页代码中的html标签,将网页内容分割为多个段落;2)统计每个段落的字符长度、相邻段落的间隔距离和段落内部密集程度作为特征值;3)根据所述特征值计算每个段落的核心特征值;根据网页中各个段落的核心特征值分布情况,得到核心特征值最为集中的范围,核心特征值在此阈值范围内的段落即为网页的核心段落,从而得到网页的核心内容。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈勇耿光刚
申请(专利权)人:中国互联网络信息中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1