【技术实现步骤摘要】
本申请涉及互联网信息处理领域,特别是涉及一种识别Hub页中有效链接的方法和装置,以及一种更新Hub页中链接的抓取周期的方法和系统。
技术介绍
为了方便用户对网页的查找,目前互联网网站的各个网页中都具有连接到其他网页的超级链接。在一个网站中,通常存在两种网页,分别是Hub页和内容页。其中,Hub页是以链接为主的网页,其功能是为用户导航以便用户查找到所需要的内容页,该页面中链接的比例较高,其表现形式多是页面的主体部分存在着一组明显的重复链接列表;内容页是Hub页中链接指向的资源类网页,页面中以文字或图片等内容为主,存储着有价值的内容。由于当前数据和信息的更新速度很快,网站每时每刻都在不断地产生新的内容页。为了使用户能够查看到最新的内容页,需要不断地通过抓取Hub页上的链接,从而在Hub页上添加新产生的内容页的链接。在更新Hub页链接时,由于在不同的时刻Hub页中链接的更新速度不同,所以在不同的时刻需要根据产生新链接的速度来对Hub页的抓取时间进行调整。在Hub页中有两种链接,一种为该Hub页的有效链接,一种是该Hub页的无效链接。有效链接是指其内容页主题从属于其Hub页主题的链接,例如Hub页中间栏的链接;无效链接是指其内容页主题不从属于与其Hub页主题的链接,例如Hub页侧边栏的链接。由于一个Hub页的无效链 接往往是整个网站的热门链接或者最新链接,同一网站中多个其他Hub页主题的链接,Hub页上有效链接的更新速度通常比无效链接慢。因此,为了节约抓取资源,在对Hub页更新时间进行调整时需要根据新产生的有效链接来确定更新时间。但是,由于现有技术中不能区分Hu ...
【技术保护点】
一种识别Hub页中有效链接的方法,其特征在于,所述方法包括:抽取Hub页中链接对应的内容页,并获取Hub页的信息及所述内容页的信息;从所述Hub页的信息中提取所述Hub页的面包屑路径,并从所述内容页的信息中提取所述内容页的面包屑路径;将内容页面包屑路径与Hub页面包屑路径相匹配的内容页识别为所述Hub页的有效内容页,并将所述有效内容页对应的链接识别为所述Hub页的有效链接。
【技术特征摘要】
1.一种识别Hub页中有效链接的方法,其特征在于,所述方法包括: 抽取Hub页中链接对应的内容页,并获取Hub页的信息及所述内容页的信息; 从所述Hub页的信息中提取所述Hub页的面包屑路径,并从所述内容页的信息中提取所述内容页的面包屑路径; 将内容页面包屑路径与Hub页面包屑路径相匹配的内容页识别为所述Hub页的有效内容页,并将所述有效内容页对应的链接识别为所述Hub页的有效链接。2.根据权利要求1所述的方法,其特征在于,所述将内容页面包屑路径信息与Hub页面包屑路径信息相匹配的内容页识别为所述Hub页的有效内容页,包括: 删除所述内容页面包屑路径中所述内容页所在的层级; 判断所述内容页面包屑路径中最后一个层级是否与所述Hub页最后一个层级相同,如果是,则将所述内容页面包屑路径的内容页识别为所述Hub页的有效内容页。3.根据权利要求1所述的方法,其特征在于,所述将内容页面包屑路径信息与Hub页面包屑路径信息相匹配的内容页识别为所述Hub页的有效内容页,包括: 判断所述内容页面包屑路径与所述Hub页面包屑路径是否满足第一匹配条件,如果是,则将所述内容页面包路径对应的内容页识别为所述Hub页的有效内容页; 其中,所述第一匹配条件为:所述内容页面包屑路径中除了所述内容页所在层级以外的所有层级在所述Hub页面包屑路径中都存在,或,所述Hub页面包屑路径中的所有层级在所述内容页面包屑路径中都存在。4.根据权利要求3所述的方法,其特征在于,所述Hub页属于论坛类型,或,所述Hub页面包屑路径的层级数量与所述内容页面包屑路径的层级数量之中的最小值不大于第一最小阈值。5.根据权利要求1所述的方法,其特征在于,所述将内容页面包屑路径信息与Hub页面包屑路径信息相匹配的内容页识别为所述Hub页的有效内容页,包括: 判断所述内容页面包屑路径与所述Hub页面包屑路径是否满足第二匹配条件,如果是,则将所述内容页面包路径对应的内容页识别为所述Hub页的有效内容页; 其中,所述第二匹配条件为:所述内容页面包屑路径中除所述内容页所在层级以外的所有层级在所述Hub页面包屑路径中不存在的层级数量不超过第一级数阈值,或,所述Hub页面包屑路径中的所有层级在所述内容页面包屑路径中不存在的层级数量不超过预设的第二级数阈值。6.根据权利要求5所述的方法,其特征在于,所述Hub页不属于论坛类型且所述Hub页面包屑路径的层级数量与所述内容页面包屑路径的层级数量之中的最小值大于第二最小阈值。7.一种更新Hub页中链接的抓取周期的方法,其特征在于,Hub页每次抓取链接时,采用如权利要求1 6任意一项所述的方法从抽取的链接中识别所述Hub页的有效链接; 所述方法包括: 获取所述Hub页在当前更新时识别出的当前有效链接,并获取所述Hub页在前一次更新时识别出的前次有效链接; 比较所述当前有效链接和所述前次有效链接,得到Hub页在当前更新时新产生的有效链接;根据所述新产生的有效链接数量,确定所述Hub页下一次抓取链接的抓取周期。8.一种识别Hub页中有效链接的装置,其特征在...
【专利技术属性】
技术研发人员:孙键,崔世起,杨青,
申请(专利权)人:人民搜索网络股份公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。