一种网页中的块重要性计算方法及系统技术方案

技术编号:10301322 阅读:148 留言:0更新日期:2014-08-07 07:37
本发明专利技术公开了一种网页中的块重要性计算方法,包括以下步骤:提供第一网页,第一网页包括多个区域块;对第一网页进行解析以得到具有不同重要性等级的多个特定区域;分别对多个特定区域和多个区域块进行语义分析;根据每个区域块和每个特定区域之间的语义相似度将多个区域块进行分类;根据每个特定区域的重要性等级得到与之对应的分类结果中多个区域块的重要性等级。根据本发明专利技术的实施例,具有块重要性等级计算精度高、准确的优点。本发明专利技术还提出了一种网页中块重要性计算系统。

【技术实现步骤摘要】
一种网页中的块重要性计算方法及系统
本专利技术涉及互联网
,特别涉及一种网页中的块重要性计算方法及系统。
技术介绍
互联网网页,由阅读者视觉或者网页设计者的表达需要,可将网页分成若干区域,这些区域对表达页面主要内容的作用不同,阅读者的视觉关注程度也不同。比如,网页上部,通常是网站内部通用的,起引导用户了解网站整体结构的作用,对表达网页主要内容的贡献较小;又比如,网页中央部门,一般是网页表达主要内容之所在,也是阅读者主要阅读的区域。因此,搜索引擎检索,有必要计算出网页各个区域对表达网页主要内容的贡献程度,即块的重要性值,对指导网页分块,检索匹配具有重要作用。通常认为:表达页面主要内容的区域,其重要性最高;跟主要内容无关的区域,其重要性最低;表达与主要内容相关的内容的区域,其重要性居中。RuihuaSong等人专利技术了一种计算块重要性的方法。该方法假设页面中相同主题的区域可以组合成独立的块。计算流程是:先对网页分块,然后将各块的特征值输入到计算重要性的算法中,进而得到各块的重要性值。训练目标是使算法的结果和用户标注的块重要性值之间的差值平方最小。该方法主要使用单个页面的块的空间位置特征和内容特征。空间位置特征是指该块在整个网页中的绝对位置或者相对于整个页面的相对位置,内容特征是指单个页面块中包含的图片,链接,文本,用户评论提交区域等页面内容。Shian-Hua等人提出了基于table标签分类的新闻文章块的识别方法。该方法首先将table标签当成块的切分方式,得到块;然后计算每个块的特征,确认这些特征在站点内所有其他页面的情况,计算出每个特征的信息熵;以块内每个特征信息熵的平均值为块的信息熵,当块的信息熵小于阈值时,则判定该块是文章块,否则不是文章块。该方法计算多页面信息的页面,必须来自于同一个站点。LanYi等人认为页面copyright,广告等区域,与表达页面主要内容无关,是网页噪声。进而提出了基于同一个站点页面噪声区域含有相近内容和展现形式的假设,提出了一种消除网页噪声的方法。该方法同样假设同一个站点的页面来自于同一类网页模板。基于这种认识,该方法定义了一种称之为SiteStyleTree(SST)的数据结构,SST计算站点内页面相近的展现形式和内容。对SST上的每个节点,计算其子节点数目和在所有页面上的分布情况。如果节点的子节点数目越多,类别分布情况越多,该节点的得分越大。当得分小于阈值时,该节点被判为噪声节点,反之为有意义节点。综上,现有技术存在以下缺点:1:只用到了块在页面中的绝对位置关系,没有利用到块跟页面特定区域的关系。2:大多只使用了单一页面的信息。3:使用的多页面信息,假设多页面信息必须来自于同一站点多页面信息也不包含跟特定区域的关系信息。4:应用范围较窄,解决问题有限。
技术实现思路
本专利技术的目的旨在至少解决上述技术缺陷之一。为此,本专利技术的目的在于提出一种网页中的块重要性计算方法,该方法具有块重要性等级计算精度高、准确的优点。本专利技术的另一目的在于提出一种网页中的块重要性计算系统。为达到上述目的,本专利技术第一方面的实施例公开了一种网页中的块重要性计算方法,包括以下步骤:提供第一网页,所述第一网页包括多个区域块;对所述第一网页进行解析以得到具有不同重要性等级的多个特定区域;分别对所述多个特定区域和所述多个区域块进行语义分析;根据每个区域块和每个特定区域之间的语义相似度将所述多个区域块进行分类;以及根据每个特定区域的重要性等级得到与之对应的分类结果中所述多个区域块的重要性等级。根据本专利技术实施例的网页中的块重要性计算方法,对网页进行解析得到多个不同重要性等级的特定区域,并通过网页中多个区域块和特定区域之间的语义关系对多个区域块进行分类,并根据分类结果对应的特定区域的重要性得到网页中每个区域块的重要性,本专利技术的实施例通过特定区域和区域块之间的内容关系等得到区域块的重要性,能够显著地提高区域块分类的召回率和准确率,从而具有块重要性计算精度高、准确的优点。另外,根据本专利技术上述实施例的网页中的块重要性计算方法还可以具有如下附加的技术特征:在一些示例中,还包括:根据与第一网页相关的同簇网页对所述多个特定区域和所述多个区域块的重要性等级进行修正。在一些示例中,所述根据与第一网页相关的同簇网页对所述多个特定区域和所述多个区域块的重要性等级进行修正的步骤进一步包括:获取与第一网页相关的同簇网页;分别获取所述同簇网页中每个网页的多个特定区域和多个分类结果;计算所述同簇网页中每个网页的每个特定区域和每个分类结果中每个区域块在对应的网页中的分布信息以及每个分类结果中的区域块和对应的特定区域之间的关系信息;计算所有的所述分布信息的统计信息;根据所述分布信息的统计信息和所述关系信息对所述第一网页中对应的特定区域和每个分类结果中的区域块进行修正;以及根据修正后的所述第一网页的每个特定区域的重要性得到与之对应的分类结果中所述多个区域块的重要性。在一些示例中,其中,所述同簇网页为与所述第一网页具有相似的DOM树结构的网页。在一些示例中,所述分部信息包括:所在坐标、所占面积以及词语分布信息。在一些示例中,所述多个特定区域包括:网页路径引导区域、网页内容的标题区域和网页版权声明区域。在一些示例中,所述网页版权声明区域的重要性等级低于所述网页路径引导区域,所述网页路径引导区域的重要性等级低于所述网页内容的标题区域。在一些示例中,在得到所述多个区域块的重要性等级之后,还包括:根据所述多个区域块的重要性等级对所述多个区域块中的内容进行评判。在一些示例中,还包括:对重要性等级最高的区域块进行内容监测。本专利技术第二方面的实施例公开了一种网页中的块重要性计算系统,包括:获取模块,用于获取第一网页,所述第一网页包括多个区域块;解析模块,用于对所述第一网页进行解析以得到具有不同重要性等级的多个特定区域;分析模块,用于对所述多个特定区域和所述多个区域块进行语义分析;分类模块,用于根据每个区域块和每个特定区域之间的语义相似度将所述多个区域块进行分类;以及计算模块,用于根据每个特定区域的重要性等级得到与之对应的分类结果中所述多个区域块的重要性等级。根据本专利技术实施例的网页中的块重要性计算系统,对网页进行解析得到多个不同重要性等级的特定区域,并通过网页中多个区域块和特定区域之间的语义关系对多个区域块进行分类,并根据分类结果对应的特定区域的重要性得到网页中每个区域块的重要性,本专利技术的实施例通过特定区域和区域块之间的内容关系等得到区域块的重要性,能够显著地提高区域块分类的召回率和准确率,从而具有块重要性计算精度高、准确的优点另外,根据本专利技术上述实施例的网页中的块重要性计算系统还可以具有如下附加的技术特征:在一些示例中,所述获取模块还用于:获取与所述第一网页相关的同簇网页。在一些示例中,还包括:修正模块,用于根据与第一网页相关的同簇网页对所述多个特定区域和所述多个区域块的重要性等级进行修正。在一些示例中,所述修正模块用于在:获取所述同簇网页中每个网页的多个特定区域和多个分类结果之后,计算所述同簇网页中每个网页的每个特定区域和每个分类结果中每个区域块在对应的网页中的分布信息以及每个分类结果中的区域块和对应的特定区域之间的关系信息,且计算所有的所述分布信息的本文档来自技高网
...
一种网页中的块重要性计算方法及系统

【技术保护点】
一种网页中的块重要性计算方法,其特征在于,包括以下步骤:提供第一网页,所述第一网页包括多个区域块;对所述第一网页进行解析以得到具有不同重要性等级的多个特定区域;分别对所述多个特定区域和所述多个区域块进行语义分析;根据每个区域块和每个特定区域之间的语义相似度将所述多个区域块进行分类;以及根据每个特定区域的重要性等级得到与之对应的分类结果中所述多个区域块的重要性等级。

【技术特征摘要】
1.一种网页中的块重要性计算方法,其特征在于,包括以下步骤:提供第一网页,所述第一网页包括多个区域块;对所述第一网页进行解析以得到具有不同重要性等级的多个特定区域;分别对所述多个特定区域和所述多个区域块进行语义分析;根据每个区域块和每个特定区域之间的语义相似度将所述多个区域块进行分类;根据每个特定区域的重要性等级得到与之对应的分类结果中所述多个区域块的重要性等级;以及根据与第一网页相关的同簇网页对所述多个特定区域和所述多个区域块的重要性等级进行修正。2.根据权利要求1所述的方法,其特征在于,所述根据与第一网页相关的同簇网页对所述多个特定区域和所述多个区域块的重要性等级进行修正的步骤进一步包括:获取与第一网页相关的同簇网页;分别获取所述同簇网页中每个网页的多个特定区域和多个分类结果;计算所述同簇网页中每个网页的每个特定区域和每个分类结果中每个区域块在对应的网页中的分布信息以及每个分类结果中的区域块和对应的特定区域之间的关系信息;计算所有的所述分布信息的统计信息;根据所述分布信息的统计信息和所述关系信息对所述第一网页中对应的特定区域和每个分类结果中的区域块进行修正;以及根据修正后的所述第一网页的每个特定区域的重要性得到与之对应的分类结果中所述多个区域块的重要性。3.根据权利要求2所述的方法,其特征在于,其中,所述同簇网页为与所述第一网页具有相似的DOM树结构的网页。4.根据权利要求2或3所述的方法,其特征在于,所述分布信息包括:所在坐标、所占面积以及词语分布信息。5.根据权利要求1所述的方法,其特征在于,所述多个特定区域包括:网页路径引导区域、网页内容的标题区域和网页版权声明区域。6.根据权利要求5所述的方法,其特征在于,所述网页版权声明区域的重要性等级低于所述网页路径引导区域,所述网页路径引导区域的重要性等级低于所述网页内容的标题区域。7.根据权利要求1所述的方法,其特征在于,在得到所述多个区域块的重要性等级之后,还包括:根据所述多个区域块的重要性等级对所述多个区域块中的内容进行评判。8.根据权利要求1所述的方法,其特征在于,还包括:对重要性等级最高的区域块...

【专利技术属性】
技术研发人员:吴一璞王浩郭瑞李乐丁牛正雨
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1