【技术实现步骤摘要】
一种网页中的块重要性计算方法及系统
本专利技术涉及互联网
,特别涉及一种网页中的块重要性计算方法及系统。
技术介绍
互联网网页,由阅读者视觉或者网页设计者的表达需要,可将网页分成若干区域,这些区域对表达页面主要内容的作用不同,阅读者的视觉关注程度也不同。比如,网页上部,通常是网站内部通用的,起引导用户了解网站整体结构的作用,对表达网页主要内容的贡献较小;又比如,网页中央部门,一般是网页表达主要内容之所在,也是阅读者主要阅读的区域。因此,搜索引擎检索,有必要计算出网页各个区域对表达网页主要内容的贡献程度,即块的重要性值,对指导网页分块,检索匹配具有重要作用。通常认为:表达页面主要内容的区域,其重要性最高;跟主要内容无关的区域,其重要性最低;表达与主要内容相关的内容的区域,其重要性居中。RuihuaSong等人专利技术了一种计算块重要性的方法。该方法假设页面中相同主题的区域可以组合成独立的块。计算流程是:先对网页分块,然后将各块的特征值输入到计算重要性的算法中,进而得到各块的重要性值。训练目标是使算法的结果和用户标注的块重要性值之间的差值平方最小。该方法主要使用 ...
【技术保护点】
一种网页中的块重要性计算方法,其特征在于,包括以下步骤:提供第一网页,所述第一网页包括多个区域块;对所述第一网页进行解析以得到具有不同重要性等级的多个特定区域;分别对所述多个特定区域和所述多个区域块进行语义分析;根据每个区域块和每个特定区域之间的语义相似度将所述多个区域块进行分类;以及根据每个特定区域的重要性等级得到与之对应的分类结果中所述多个区域块的重要性等级。
【技术特征摘要】
1.一种网页中的块重要性计算方法,其特征在于,包括以下步骤:提供第一网页,所述第一网页包括多个区域块;对所述第一网页进行解析以得到具有不同重要性等级的多个特定区域;分别对所述多个特定区域和所述多个区域块进行语义分析;根据每个区域块和每个特定区域之间的语义相似度将所述多个区域块进行分类;根据每个特定区域的重要性等级得到与之对应的分类结果中所述多个区域块的重要性等级;以及根据与第一网页相关的同簇网页对所述多个特定区域和所述多个区域块的重要性等级进行修正。2.根据权利要求1所述的方法,其特征在于,所述根据与第一网页相关的同簇网页对所述多个特定区域和所述多个区域块的重要性等级进行修正的步骤进一步包括:获取与第一网页相关的同簇网页;分别获取所述同簇网页中每个网页的多个特定区域和多个分类结果;计算所述同簇网页中每个网页的每个特定区域和每个分类结果中每个区域块在对应的网页中的分布信息以及每个分类结果中的区域块和对应的特定区域之间的关系信息;计算所有的所述分布信息的统计信息;根据所述分布信息的统计信息和所述关系信息对所述第一网页中对应的特定区域和每个分类结果中的区域块进行修正;以及根据修正后的所述第一网页的每个特定区域的重要性得到与之对应的分类结果中所述多个区域块的重要性。3.根据权利要求2所述的方法,其特征在于,其中,所述同簇网页为与所述第一网页具有相似的DOM树结构的网页。4.根据权利要求2或3所述的方法,其特征在于,所述分布信息包括:所在坐标、所占面积以及词语分布信息。5.根据权利要求1所述的方法,其特征在于,所述多个特定区域包括:网页路径引导区域、网页内容的标题区域和网页版权声明区域。6.根据权利要求5所述的方法,其特征在于,所述网页版权声明区域的重要性等级低于所述网页路径引导区域,所述网页路径引导区域的重要性等级低于所述网页内容的标题区域。7.根据权利要求1所述的方法,其特征在于,在得到所述多个区域块的重要性等级之后,还包括:根据所述多个区域块的重要性等级对所述多个区域块中的内容进行评判。8.根据权利要求1所述的方法,其特征在于,还包括:对重要性等级最高的区域块...
【专利技术属性】
技术研发人员:吴一璞,王浩,郭瑞,李乐丁,牛正雨,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。