网页主体内容识别方法和装置制造方法及图纸

技术编号:8215727 阅读:477 留言:0更新日期:2013-01-17 13:41
本发明专利技术提供了一种网页主体内容识别方法和装置,其中的方法包括:解析待装载的网页,构建DOM树;对所述DOM树中的每个节点进行评分;根据DOM树中每个节点的分值确定所述网页中所有块元素的分值;查找出所述DOM树中最高分值的块元素,并以所述最高分值的块元素作为所述网页的主体内容。利用上述网页主体内容识别方法,可以很快的判断出网页的真正的主体内容,从而使用户以更快的速度和更加节省的流量阅读到所请求网页的主体内容。

【技术实现步骤摘要】

本专利技术涉及无线网络的网页浏览
,更为具体地,涉及一种网页主体内容识别方法和装置
技术介绍
当前互联网的网页内容越来越多,网页的排版越来越复杂,网页主体内容中包含的广告、视频、Flash动画、嵌入式对象等非主体内容也越来越多。从网页中一目了然地直接了解需要的信息变得越来越困难。特别是如手机、PDA等屏幕较小的终端设备,由于终端硬件的限制,屏幕较小,在通过手机等浏览器浏览WWW网页的时候,一次性只能展现少量的网页内容,网页中非主体内容对用户浏览体验的不良影响更加严重。通常的网页在手机上展现的时候都会经过一个缩放甚至重排版的过程。当前比较 流行的PC的屏幕的分辨率为480*800和240*320等,而通常一个网页的大小为1024*768,或者800*600,不同的网页的宽高是不一样的。当如此大分辨率的网页在分辨率相对很小的手机上显示时,通常是采用缩放的模式来进行缩放,将一个大网页进行缩小,然后以手机分辨率的方式进行显示。但由于网页中包含现有的单纯的缩放展现模式已经不适应目前用户的网页浏览需求,而且用户上网希望能够马上看到他所期望的内容,而非网页的无关内容的结构、广告等。另外一种网页在手机上展现时的重排版方式为适应屏幕的排版方式。这种适应屏幕的排版方式虽然可以以当前的手机屏幕为参照进行排版,但排版后展现的网页仍然包含了网页的相关结构、网页广告等信息,并非全部都是用户所期望的阅读内容,对用户的网页浏览体验应存在不良影响。
技术实现思路
鉴于上述问题,本专利技术的目的是提供一种能够方便地识别出网页主体内容的网页主体内容识别方法和装置,以便在手机等移动终端设备上浏览信息时直接获取网页的信息,而无需左右拉动。根据本专利技术的一个方面,提供了一种网页主体内容识别方法,包括解析待装载的网页,构建DOM树;对所述DOM树中的每个节点进行评分;根据所述DOM树中每个节点的分值确定所述网页中所有块元素的分值;查找出所述DOM树中最高分值的块元素,并以所述最高分值的块元素作为所述网页的主体内容。其中,在对DOM树中的每个节点进行评分的过程中,评分的依据是每个节点下面的孩子节点的评分的总和,不同类型的孩子节点的分值根据其节点类型而定,其中,文本节点的分值为所述文本节点的字符串的长度;对于元素节点,如果所述元素为行内元素,则所述元素节点的分值为O ;如果所述元素节点为块元素,则判断所述块元素所包含的文本的长度是否超过预设阈值,如果超过预设阈值,则根据所述块元素所包含的文本的长度和所述块元素的节点类型确定所述块元素的真正分值。其中,在根据所述块元素所包含的文本的长度和所述块元素的节点类型确定所述块元素的真正分值的过程中,如果根据所述块元素div下的innerText属性确定所述块元素所包含的文本的长度T, T=LengthQnnerText),其分值相应的为T,则对于节点类型属于网页主体内容的元素,在T的基础上增加分值;对于节点类型不属于网页主体内容的元素,在T的基础上减去分值。根据本专利技术的另一方面,提供了一种网页主体内容识别装置,包括网页解析单元,用于解析待装载的网页,构建DOM树; 节点评分单元,用于对所述网页解析单元构建的DOM树中的每个节点进行评分;块元素评分单元,用于根据所述DOM树中每个节点的分值确定所述网页中所有块元素的分值;网页主体内容确定单元,用于查找出DOM树中的最高分值的块元素,并以所述最高分值的块元素作为所述网页的主体内容。其中,所述节点评分单元进一步包括节点类型判断单元,用于判断节点的类型;节点分值计算单元,用于根据节点的类型计算所述节点的分值,其中,所述节点评分单元评分的依据是每个节点下面的孩子节点的评分的总和,不同类型的孩子节点的分值根据其节点类型而定;其中,文本节点的分值为所述文本节点的字符串的长度;对于元素节点,如果所述元素为行内元素,则所述元素节点的分值为O ;如果所述元素节点为块元素,则判断所述块元素所包含的文本的长度是否超过预设阈值,如果超过预设阈值,则根据所述块元素所包含的文本的长度和所述块元素的节点类型确定所述块元素的真正分值。利用上述根据本专利技术的网页主体内容识别方法及装置,可以很快的判断出网页的真正的主体内容,从而使用户以更快的速度和更加节省的流量阅读到所请求网页的主体内容。为了实现上述以及相关目的,本专利技术的一个或多个方面包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明了本专利技术的某些示例性方面。然而,这些方面指示的仅仅是可使用本专利技术的原理的各种方式中的一些方式。此外,本专利技术旨在包括所有这些方面以及它们的等同物。附图说明通过参考以下结合附图的说明及权利要求书的内容,并且随着对本专利技术的更全面理解,本专利技术的其它目的及结果将更加明白及易于理解。在附图中图I为一个HTML网页DOM树的结构示意图2为根据本专利技术的网页主体内容识别方法的流程图;图3为根据本专利技术的网页主体内容识别装置的方框示意图。在所有附图中相同的标号指示相似或相应的特征或功能。具体实施例方式在下面的描述中,出于说明的目的,为了提供对一个或多个实施例的全面理解,阐述了许多具体细节。然而,很明显,也可以在没有这些具体细节的情况下实现这些实施例。在其它例子中,为了便于描述一个或多个实施例,公知的结构和设备以方框图的形式示出。由于目前作为移动互联网载体的主要为手机,因此,在下面对比本专利技术具体实施 方式的表述中,“移动终端”、“手机”均是指用户访问移动互联网所使用的目标载体,同时可以将“手机”理解为“移动终端”的一种但不是唯一的一种具体表现形式。互联网网页结构可以用DOM (Document Object Model,文档对象模型)来进行描述,DOM可以以一种独立于平台和语言的方式访问和修改一个文档的内容和结构。DOM的设计是以对象管理组织(OMG)的规约为基础的,因此可以用于任何编程语言。DOM定义了表示和修改文档所需的对象、这些对象的行为和属性以及这些对象之间的关系,因此,可以把DOM认为是页面上数据和结构的一个树形表示。整个网页由页面元素、属性和文本构成,形成一个树状的结构,网页的每个元素称为一个节点(Node),每个标签对应一个元素(Element),标签之间的文本字符串对应一个文本(Text)。例如下面的HTML网页就可以用如图I所示的DOM树表示如下<html>〈head>〈title> 太阳云〈/title>〈/head>〈body>〈hl> 什么是太阳星云?〈/hl>〈p>太阳星云是形成太阳系内各天体的原始物质,主要由气体云和尘埃组成。</p>〈/body></html>整个网页的元素可以分为块元素(Block元素)和行内元素(Inline元素)。块元素之间可以嵌套层叠排版,也可以平铺排版,可以任意地进行排版。网页主体内容就是一种包含最多连续内容信息的块元素。通常文本节点处于叶子节点上。作为网页元素中最小的单元,节点包括文本节点,元素节点,属性节点,注释节点等;元素节点是元素所在的节点。基于上述分析,本专利技术提出一种基于节点评分的方式来进行网页主体内容识别的方法。该网页主体内容识别方法对表示HTML网页的D本文档来自技高网...

【技术保护点】
一种网页主体内容识别方法,包括:解析待装载的网页,构建DOM树;对所述DOM树中的每个节点进行评分;根据所述DOM树中每个节点的分值确定所述网页中所有块元素的分值;查找出所述DOM树中最高分值的块元素,并以所述最高分值的块元素作为所述网页的主体内容。

【技术特征摘要】

【专利技术属性】
技术研发人员:梁捷俞永福何小鹏朱顺炎陈德志
申请(专利权)人:广州市动景计算机科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1