【技术实现步骤摘要】
本专利技术涉及搜索引擎
,特别是一种用于链接精确抓取的网络机器人算法。
技术介绍
网络机器人(Spider)是一种功能很强的WEB扫描程序。它从一个简单的Web页 面上开始执行,在扫描Web页面时通过其内的超链接访问其他页面,因为Web页面中广泛使 用超链接,所以一个Spider程序理论上可以访问互联网上的所有Web页面。基于因特网的 搜索引擎是Spider程序的最早应用。例如搜索巨头Google公司,就利用Spider程序来遍 历Web站点,以创建并维护这些大型数据库。网络机器人还可以通过扫描Web站点的主页 来得到这个站点的文件清单和层次机构。还可以扫描出中断的超链接和拼写错误等。
技术实现思路
本专利技术的目的在于提供一种用于链接精确抓取的网络机器人算法,该算法不仅有 利于对所需的网页进行精确抓取,而且算法设计合理,运行效果好。本专利技术的技术方案是一种用于链接精确抓取的网络机器人算法,其特征在于 构造等待队列、处理队列和完成队列,然后按如下步骤进行步骤1:把待处理的URL加入所述等待队列;步骤2 :判断所述等待队列中是否存在URL且收集的链接数量小于等于设定数量,如果 是从所述等待队列取出一 URL送入处理队列,打开所述URL指向的网页并对所述网页进行 解析,然后转步骤3,否则程序结束;步骤3 :判断所述网页中是否包含超级链接,如果是转步骤4,否则将所述网页对应的 URL从所述处理队列取出并送入完成队列,然后返回步骤2 ;步骤4 :判断所述网页中包含的超级链接是否都已处理完,如果是将所述网页对应的 URL从所述处理队列取出并送入完成队列,然后返 ...
【技术保护点】
一种用于链接精确抓取的网络机器人算法,其特征在于:构造等待队列、处理队列和完成队列,然后按如下步骤进行:步骤1:把待处理的URL加入所述等待队列;步骤2:判断所述等待队列中是否存在URL且收集的链接数量小于等于设定数量,如果是从所述等待队列取出一URL送入处理队列,打开所述URL指向的网页并对所述网页进行解析,然后转步骤3,否则程序结束;步骤3:判断所述网页中是否包含超级链接,如果是转步骤4,否则将所述网页对应的URL从所述处理队列取出并送入完成队列,然后返回步骤2;步骤4:判断所述网页中包含的超级链接是否都已处理完,如果是将所述网页对应的URL从所述处理队列取出并送入完成队列,然后返回步骤2,否则查看所述网页中包含的下一个超级链接,并转步骤5;步骤5:判断所述超级链接是否指向网页,如果是转步骤6,否则报告所述超级链接为外部链接,并返回步骤4;步骤6:判断所述超级链接指向的网页是否为所需网页且未访问过且不存在所述等待队列中,如果是把所述超级链接加入等待队列并更新收集的链接数量,然后返回步骤4,否则直接返回步骤4。
【技术特征摘要】
1.一种用于链接精确抓取的网络机器人算法,其特征在于构造等待队列、处理队列和完成队列,然后按如下步骤进行 步骤1:把待处理的URL加入所述等待队列; 步骤2 :判断所述等待队列中是否存在URL且收集的链接数量小于等于设定数量,如果是从所述等待队列取出一 URL送入处理队列,打开所述URL指向的网页并对所述网页进行解析,然后转步骤3,否则程序结束; 步骤3 :判断所述网页中是否包含超级链接,如果是转步骤4,否则将所述网页对应的URL从所述处理队列取出并送入完成队列,然后返回步骤2 ; 步骤4 :判断所述网页中包含的超级链接是否都已处理完,如果是将所述网...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。