一种网站内链的部署方法及装置制造方法及图纸

技术编号:12583329 阅读:77 留言:0更新日期:2015-12-23 23:36
本申请公开了一种网站内链的部署方法及装置,方法包括:首先根据爬虫日志记录,确定出网站内被爬虫访问的次数超过阈值的目标页面,目标页面属于爬虫比较青睐访问的页面,然后从预置的链接地址存储队列中抽取最新产生的目标数量条的链接地址,其中链接地址存储队列中按照新页面的链接地址产生时间的先后顺序,存储有多条链接地址,而目标数量为目标页面所能够展示的链接地址的条目数,最后将抽取出的目标数量条的链接地址展示在目标页面上。本申请通过确定出爬虫青睐访问的目标页面,进而将最新产生的链接地址展示在目标页面上,使得最新产生的链接地址更加容易被爬虫所抓取,提高了新页面的链接地址的曝光率。

【技术实现步骤摘要】

本申请涉及互联网
,更具体地说,涉及一种网站内链的部署方法及装置
技术介绍
作为一个互联网网站,需要借助搜索引擎来获取更多的流量及曝光率。网站内每天都会产生大量的新页面,为了提高新页面的曝光率,以及提高搜索引擎的爬虫对新页面的抓取效率,网站需要合理部署新页面的链接地址。现有技术在对新页面的链接地址进行部署时,一般是随机性的将各个新页面的链接地址部署在网站内的各个页面中。但是,由于搜索引擎会给网站内各个网页赋予一定的权威值,权威值代表了网页的重要度。爬虫在进行页面访问时,比较青睐于访问权威值较大的页面,也即爬虫对不同页面的访问频繁度不同。这就造成部署在权威值低的页面中的新页面的链接地址有可能一直不会被爬虫抓取,从而造成新页面无法进行曝光。
技术实现思路
有鉴于此,本申请提供了一种网站内链的部署方法及装置,用于解决现有网站内链部署方式所存在的部分新页面的链接地址被爬虫抓取率低,造成新页面无法曝光的问题。为了实现上述目的,现提出的方案如下:—种网站内链的部署方法,包括:根据爬虫日志记录,确定网站内被爬虫访问的次数超过阈值的目标页面;从预置的链接地址存储队列中抽取最新产生的目标数量条的链接地址,所述链接地址存储队列中按照链接地址产生时间的先后顺序,存储有多条链接地址,所述目标数量为所述目标页面所能够展示的链接地址的条目数;将抽取的目标数量条的链接地址展示在所述目标页面上。优选地,还包括:在检测到爬虫访问所述目标页面后,确定爬虫抓取的N条链接地址;从最新的链接地址存储队列中抽取最新产生的N条链接地址,所述最新的链接地址存储队列为上一次抽取链接地址后的链接地址存储队列;利用抽取的N条链接地址替换掉所述爬虫抓取的N条链接地址。优选地,还包括:确定所述目标页面上,预置时间段内未被爬虫抓取过的X条链接地址;从最新的链接地址存储队列中抽取最新产生的X条链接地址,所述最新的链接地址存储队列为上一次抽取链接地址后的链接地址存储队列;利用抽取的X条链接地址替换掉所述未被爬虫抓取过的X条链接地址。优选地,在所述检测到爬虫访问所述目标页面后,该方法还包括:记录爬虫的访问记录,该访问记录用于更新所述爬虫日志记录。优选地,所述目标页面的个数为多个,所述将抽取的目标数量条的链接地址展示在所述目标页面上,包括:将多个目标页面的集合确定为目标集合;从所述目标集合中抽取一个被爬虫访问次数最多的目标页面,作为待定目标页面;从抽取的目标数量条的链接地址中抽取最新产生的Y条链接地址,Y为所述待定目标页面所能够展示的链接地址的条目数;将抽取的Y条链接地址展示在所述待定目标页面上;将目标页面抽取后的目标集合确定为新的目标集合,返回执行所述从所述目标集合中抽取一个被爬虫访问次数最多的目标页面,作为待定目标页面的步骤,直至目标集合内不存在目标页面为止。—种网站内链的部署装置,包括:目标页面确定单元,用于根据爬虫日志记录,确定网站内被爬虫访问的次数超过阈值的目标页面;第一链接地址抽取单元,用于从预置的链接地址存储队列中抽取最新产生的目标数量条的链接地址,所述链接地址存储队列中按照链接地址产生时间的先后顺序,存储有多条链接地址,所述目标数量为所述目标页面所能够展示的链接地址的条目数;链接地址展示单元,用于将抽取的目标数量条的链接地址展示在所述目标页面上。优选地,还包括:爬虫访问响应单元,用于在检测到爬虫访问所述目标页面后,确定爬虫抓取的N条链接地址;第二链接地址抽取单元,用于从最新的链接地址存储队列中抽取最新产生的N条链接地址,所述最新的链接地址存储队列为上一次抽取链接地址后的链接地址存储队列;第一链接地址替换单元,用于利用抽取的N条链接地址替换掉所述爬虫抓取的N条链接地址。优选地,还包括:未访问链接地址确定单元,用于确定所述目标页面上,预置时间段内未被爬虫抓取过的X条链接地址;第三链接地址抽取单元,用于从最新的链接地址存储队列中抽取最新产生的X条链接地址,所述最新的链接地址存储队列为上一次抽取链接地址后的链接地址存储队列;第二链接地址替换单元,用于利用抽取的X条链接地址替换掉所述未被爬虫抓取过的X条链接地址。优选地,还包括:爬虫日志记录单元,用于在所述检测到爬虫访问所述目标页面后,记录爬虫的访问记录,该访问记录用于更新所述爬虫日志记录。优选地,所述目标页面的个数为多个,所述链接地址展示单元包括:第一链接地址展示子单元,用于将多个目标页面的集合确定为目标集合;第二链接地址展示子单元,用于从所述目标集合中抽取一个被爬虫访问次数最多的目标页面,作为待定目标页面;第三链接地址展示子单元,用于从抽取的目标数量条的链接地址中抽取最新产生的Y条链接地址,Y为所述待定目标页面所能够展示的链接地址的条目数;第四链接地址展示子单元,用于将抽取的Y条链接地址展示在所述待定目标页面上;第五链接地址展示子单元,用于将目标页面抽取后的目标集合确定为新的目标集合,返回执行所述第二链接地址展示子单元,直至目标集合内不存在目标页面为止。从上述的技术方案可以看出,本申请实施例提供的网站内链部署方法,首先根据爬虫日志记录,确定出网站内被爬虫访问的次数超过阈值的目标页面,目标页面属于爬虫比较青睐访问的页面,然后从预置的链接地址存储队列中抽取最新产生的目标数量条的链接地址,其中链接地址存储队列中按照新页面的链接地址产生时间的先后顺序,存储有多条链接地址,而目标数量为目标页面所能够展示的链接地址的条目数,最后将抽取出的目标数量条的链接地址展示在目标页面上。本申请通过确定出爬虫青睐访问的目标页面,进而将最新产生的链接地址展示在目标页面上,使得最新产生的链接地址更加容易被爬虫所抓取,提高了新页面的链接地址的曝光率。【附图说明】为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本申请实施例公开的一种网站内链的部署方法流程图;图2为本申请实施例公开的另一种网站内链的部署方法流程图;图3为本申请实施例公开的又一种网站内链的部署方法流程图;图4为本申请实施例公开的又一种网站内链的部署方法流程图;图5为本申请实施例公开的又一种网站内链的部署方法流程图;图6为本申请实施例公开的一种网站内链的部署装置结构示意图;图7为本申请实施例公开的另一种网站内链的部署装置结构示意图;图8为本申请实施例公开的又一种网站内链的部署装置结构示意图;图9为本申请实施例公开的又一种网站内链的部署装置结构示意图;图10为本申请实施例公开的一种链接地址当前第1页1 2 3 4 本文档来自技高网...
一种网站内链的部署方法及装置

【技术保护点】
一种网站内链的部署方法,其特征在于,包括:根据爬虫日志记录,确定网站内被爬虫访问的次数超过阈值的目标页面;从预置的链接地址存储队列中抽取最新产生的目标数量条的链接地址,所述链接地址存储队列中按照链接地址产生时间的先后顺序,存储有多条链接地址,所述目标数量为所述目标页面所能够展示的链接地址的条目数;将抽取的目标数量条的链接地址展示在所述目标页面上。

【技术特征摘要】

【专利技术属性】
技术研发人员:郭明阳王路陈拓陈敏锐骆超锋文帅营彭东江杨碧天
申请(专利权)人:郑州悉知信息科技股份有限公司
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1