一种识别Hub页中有效链接的方法和装置制造方法及图纸

技术编号:8959504 阅读:325 留言:0更新日期:2013-07-25 19:03
本申请公开了一种识别Hub页中有效链接的方法和装置,以及一种更新Hub页中链接的方法和系统。识别Hub页中有效链接的方法包括:抽取Hub页中链接对应的内容页,并获取Hub页的信息及所述内容页的信息;从所述Hub页的信息中提取所述Hub页的面包屑路径,并从所述内容页的信息中提取所述内容页的面包屑路径;将内容页面包屑路径与Hub页面包屑路径相匹配的内容页识别为所述Hub页的有效内容页,并将所述有效内容页对应的链接识别为所述Hub页的有效链接。通过本申请的技术方案,在Hub页更新时可以识别出新产生的有效链接,从而可以根据新产生的有效链接来确定下一次抓取时间,去除了侧边栏链接的影响,从而使得Hub页抓取速度减小,节约了系统资源并提升系统的性能。

【技术实现步骤摘要】

本申请涉及互联网信息处理领域,特别是涉及一种识别Hub页中有效链接的方法和装置,以及一种更新Hub页中链接的抓取周期的方法和系统。
技术介绍
为了方便用户对网页的查找,目前互联网网站的各个网页中都具有连接到其他网页的超级链接。在一个网站中,通常存在两种网页,分别是Hub页和内容页。其中,Hub页是以链接为主的网页,其功能是为用户导航以便用户查找到所需要的内容页,该页面中链接的比例较高,其表现形式多是页面的主体部分存在着一组明显的重复链接列表;内容页是Hub页中链接指向的资源类网页,页面中以文字或图片等内容为主,存储着有价值的内容。由于当前数据和信息的更新速度很快,网站每时每刻都在不断地产生新的内容页。为了使用户能够查看到最新的内容页,需要不断地通过抓取Hub页上的链接,从而在Hub页上添加新产生的内容页的链接。在更新Hub页链接时,由于在不同的时刻Hub页中链接的更新速度不同,所以在不同的时刻需要根据产生新链接的速度来对Hub页的抓取时间进行调整。在Hub页中有两种链接,一种为该Hub页的有效链接,一种是该Hub页的无效链接。有效链接是指其内容页主题从属于其Hub页主题的链接,例如Hub页中间栏的链接;无效链接是指其内容页主题不从属于与其Hub页主题的链接,例如Hub页侧边栏的链接。由于一个Hub页的无效链 接往往是整个网站的热门链接或者最新链接,同一网站中多个其他Hub页主题的链接,Hub页上有效链接的更新速度通常比无效链接慢。因此,为了节约抓取资源,在对Hub页更新时间进行调整时需要根据新产生的有效链接来确定更新时间。但是,由于现有技术中不能区分Hub页链接中的有效链接和无效链接,所以,现有技术Hub页在抓取链接对应的内容页时,通常采用的方法是查找当前抓取所抽取的所有内容页链接与前一次抓取所抽取的所有内容页链接,并根据比较两次抓取内容页链接所有新链接来确定下一次抓取的抓取周期。这样,由于无效链接的更新速度比有效链接快,根据所有新链接所确定的Hub页抓取周期就会小于有效链接实际的抓取周期,Hub页抓取速度就会大于有效链接更新的需求。从而消耗过多的系统资源,降低了系统的性能。
技术实现思路
本申请所要解决的技术问题是,提供一种识别Hub页中有效链接的方法和装置,以及一种更新Hub页中链接的抓取周期的方法和系统,以解决由于现有技术不能从Hub页的链接中区分有效链接和无效链接而导致的Hub页抓取速度大于有效链接更新速度并消耗过多系统资源的技术问题。为解决上述技术问题,本申请提供了一种识别Hub页中有效链接的方法,该方法包括:抽取Hub页中链接对应的内容页,并获取Hub页的信息及所述内容页的信息;从所述Hub页的信息中提取所述Hub页的面包屑路径,并从所述内容页的信息中提取所述内容页的面包屑路径;将内容页面包屑路径与Hub页面包屑路径相匹配的内容页识别为所述Hub页的有效内容页,并将所述有效内容页对应的链接识别为所述Hub页的有效链接。可选的,所述将内容页面包屑路径信息与Hub页面包屑路径信息相匹配的内容页识别为所述Hub页的有效内容页,包括:删除所述内容页面包屑路径中所述内容页所在的层级;判断所述内容页面包屑路径中最后一个层级是否与所述Hub页最后一个层级相同,如果是,则将所述内容页面包屑路径的内容页识别为所述Hub页的有效内容页。可选的,所述将内容页面包屑路径信息与Hub页面包屑路径信息相匹配的内容页识别为所述Hub页的有效内容页,包括:判断所述内容页面包屑路径与所述Hub页面包屑路径是否满足第一匹配条件,如果是,则将所述内容页面包路径对应的内容页识别为所述Hub页的有效内容页; 其中,所述第一匹配条件为:所述内容页面包屑路径中除了所述内容页所在层级以外的所有层级在所述Hub页面包屑路径中都存在,或,所述Hub页面包屑路径中的所有层级在所述内容页面包屑路径中都存在。可选的,所述Hub页属于论坛类型,或,所述Hub页面包屑路径的层级数量与所述内容页面包屑路径的层级数量之中的最小值不大于第一最小阈值。可选的,所述将内容页面包屑路径信息与Hub页面包屑路径信息相匹配的内容页识别为所述Hub页的有效内容页,包括:判断所述内容页面包屑路径与所述Hub页面包屑路径是否满足第二匹配条件,如果是,则将所述内容页面包路径对应的内容页识别为所述Hub页的有效内容页;其中,所述第二匹配条件为:所述内容页面包屑路径中除所述内容页所在层级以外的所有层级在所述Hub页面包屑路径中不存在的层级数量不超过第一级数阈值,或,所述Hub页面包屑路径中的所有层级在所述内容页面包屑路径中不存在的层级数量不超过预设的第二级数阈值。可选的,所述Hub页不属于论坛类型且所述Hub页面包屑路径的层级数量与所述内容页面包屑路径的层级数量之中的最小值大于第二最小阈值。本申请还提供了一种更新Hub页中链接的抓取周期的方法。Hub页每次抓取链接时,采用前述方法从抽取的链接中识别所述Hub页的有效链接;所述方法包括:获取所述Hub页在当前更新时识别出的当前有效链接,并获取所述Hub页在前一次更新时识别出的前次有效链接;比较所述当前有效链接和所述前次有效链接,得到Hub页在当前更新时新产生的有效链接;根据所述新产生的有效链接数量,确定所述Hub页下一次抓取链接的抓取周期。本申请还提供了一种识别Hub页中有效链接的装置。所述装置包括:内容页抽取模块,用于抽取Hub页中链接对应的内容页;网页信息获取模块,用于获取Hub页的信息及所述内容页的信息;面包屑提取模块,用于从所述Hub页的信息中提取所述Hub页的面包屑路径,并从所述内容页的信息中提取所述内容页的面包屑路径;有效内容页识别模块,用于将内容页面包屑路径与Hub页面包屑路径相匹配的内容页识别为所述Hub页的有效内容页;链接识别模块,用于将所述有效内容页对应的链接识别为所述Hub页的有效链接。可选的,所述有效内容页识别模块具体包括:删除子模块,用于删除所述内容页面包屑路径中所述内容页所在的层级;第一判断子模块,用于判断所述内容页面包屑路径中最后一个层级是否与所述Hub页最后一个层级相同;第一识别子模块,用于在第一判断子模块的判断结果为是的情况下,将所述内容页面包屑路径的内容页识别为所述Hub页的有效内容页。可选的,所述Hub页属于论坛类型,或,所述Hub页面包屑路径的层级数量与所述内容页面包屑路径的层级数量之中的最小值不大于2 ;所述有效内容页识别模块具体包括:第二判断子模块,用于判断所述内容页面包屑路径与所述Hub页面包屑路径是否满足第一匹配条件;所述第一匹配条件为:所述内容页面包屑路径中除了所述内容页所在层级以外的所有层级在所述Hub页面 包屑路径中都存在,或,所述Hub页面包屑路径中的所有层级在所述内容页面包屑路径中都存在;第二识别子模块,用于在第二判断子模块的判断结果为是的情况下,将所述内容页面包屑路径的内容页识别为所述Hub页的有效内容页。可选的,所述Hub页不属于论坛类型且所述Hub页面包屑路径的层级数量与所述内容页面包屑路径的层级数量之中的最小值大于2 ;所述有效内容页识别模块具体包括:第三判断子模块,用于判断所述内容页面包屑路径与所述Hub页面包屑路径是否满足第二匹配条件;所述第二匹配条本文档来自技高网
...

【技术保护点】
一种识别Hub页中有效链接的方法,其特征在于,所述方法包括:抽取Hub页中链接对应的内容页,并获取Hub页的信息及所述内容页的信息;从所述Hub页的信息中提取所述Hub页的面包屑路径,并从所述内容页的信息中提取所述内容页的面包屑路径;将内容页面包屑路径与Hub页面包屑路径相匹配的内容页识别为所述Hub页的有效内容页,并将所述有效内容页对应的链接识别为所述Hub页的有效链接。

【技术特征摘要】
1.一种识别Hub页中有效链接的方法,其特征在于,所述方法包括: 抽取Hub页中链接对应的内容页,并获取Hub页的信息及所述内容页的信息; 从所述Hub页的信息中提取所述Hub页的面包屑路径,并从所述内容页的信息中提取所述内容页的面包屑路径; 将内容页面包屑路径与Hub页面包屑路径相匹配的内容页识别为所述Hub页的有效内容页,并将所述有效内容页对应的链接识别为所述Hub页的有效链接。2.根据权利要求1所述的方法,其特征在于,所述将内容页面包屑路径信息与Hub页面包屑路径信息相匹配的内容页识别为所述Hub页的有效内容页,包括: 删除所述内容页面包屑路径中所述内容页所在的层级; 判断所述内容页面包屑路径中最后一个层级是否与所述Hub页最后一个层级相同,如果是,则将所述内容页面包屑路径的内容页识别为所述Hub页的有效内容页。3.根据权利要求1所述的方法,其特征在于,所述将内容页面包屑路径信息与Hub页面包屑路径信息相匹配的内容页识别为所述Hub页的有效内容页,包括: 判断所述内容页面包屑路径与所述Hub页面包屑路径是否满足第一匹配条件,如果是,则将所述内容页面包路径对应的内容页识别为所述Hub页的有效内容页; 其中,所述第一匹配条件为:所述内容页面包屑路径中除了所述内容页所在层级以外的所有层级在所述Hub页面包屑路径中都存在,或,所述Hub页面包屑路径中的所有层级在所述内容页面包屑路径中都存在。4.根据权利要求3所述的方法,其特征在于,所述Hub页属于论坛类型,或,所述Hub页面包屑路径的层级数量与所述内容页面包屑路径的层级数量之中的最小值不大于第一最小阈值。5.根据权利要求1所述的方法,其特征在于,所述将内容页面包屑路径信息与Hub页面包屑路径信息相匹配的内容页识别为所述Hub页的有效内容页,包括: 判断所述内容页面包屑路径与所述Hub页面包屑路径是否满足第二匹配条件,如果是,则将所述内容页面包路径对应的内容页识别为所述Hub页的有效内容页; 其中,所述第二匹配条件为:所述内容页面包屑路径中除所述内容页所在层级以外的所有层级在所述Hub页面包屑路径中不存在的层级数量不超过第一级数阈值,或,所述Hub页面包屑路径中的所有层级在所述内容页面包屑路径中不存在的层级数量不超过预设的第二级数阈值。6.根据权利要求5所述的方法,其特征在于,所述Hub页不属于论坛类型且所述Hub页面包屑路径的层级数量与所述内容页面包屑路径的层级数量之中的最小值大于第二最小阈值。7.一种更新Hub页中链接的抓取周期的方法,其特征在于,Hub页每次抓取链接时,采用如权利要求1 6任意一项所述的方法从抽取的链接中识别所述Hub页的有效链接; 所述方法包括: 获取所述Hub页在当前更新时识别出的当前有效链接,并获取所述Hub页在前一次更新时识别出的前次有效链接; 比较所述当前有效链接和所述前次有效链接,得到Hub页在当前更新时新产生的有效链接;根据所述新产生的有效链接数量,确定所述Hub页下一次抓取链接的抓取周期。8.一种识别Hub页中有效链接的装置,其特征在...

【专利技术属性】
技术研发人员:孙键崔世起杨青
申请(专利权)人:人民搜索网络股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1