一种基于布谷鸟搜索的方法技术

技术编号:14875747 阅读:90 留言:0更新日期:2017-03-23 23:20
本发明专利技术公开了一种基于布谷鸟搜索的方法,利用通用搜索引擎获取待搜索的网页URL,根据网页间的链接关系获取初始种子群体URL;通过Levy飞行操作搜索主题相关性高的网页,运用向量空间模型算法计算网页主题相关性;设置被发现概率的临界值Pa通过被发现概率Pa操作引入目录型网页,扩大网页的搜索范围;通过适应度函数计算,选出适应度高的个体URL放入待爬取种子群体URL中。本发明专利技术提供了一种基于布谷鸟搜索算法的主题爬虫方法,使Web网页之间的链接结构关系不会被忽略,很好地发挥网页链接结构的作用;这种搜索策略能较好的克服主题爬虫出现的“主题漂移”问题以及在搜索相关网页时陷入局部最优值,获得尽可能高的查全率和查准率,从而提高爬虫的搜索效率。

【技术实现步骤摘要】

本专利技术涉及一种搜索的方法,具体为一种基于布谷鸟搜索的方法,属于搜索引擎应用

技术介绍
布谷鸟是一种巢寄生鸟类,它将卵产在其它鸟的鸟巢中,由宿主代为孵化和育雏。若被宿主发现,则可能将外来卵移走或直接放弃自己的鸟巢,寻找其他地方重新筑巢。布谷鸟为了增加繁殖成功率,在繁殖期会寻找与孵化期和育雏期相似、雏鸟食性基本相同、卵形与颜色易仿的宿主;它每飞到一个鸟巢,巢里只产一个卵,而且在产卵前,它会将宿主的一个卵移走或全部推出鸟巢。同时一旦布谷鸟的雏鸟孵出,它有将寄主的雏鸟推出巢外的习性,从而独享宿主抚育。布谷鸟搜索算法是将自然界中布谷鸟寄生孵育雏鸟的生物行为与一些鸟类和果蝇的莱维飞行行为相结合构造出的随机搜索算法。在自然界中,布谷鸟寻找宿主鸟巢位置是随机的或类似随机的方式。布谷鸟搜索(cuckoosearch,CS)算法由Yang等在2009年提出。该算法模拟了布谷鸟寻找巢穴产卵的行为,具有简单、参数少、易于实现、随机搜索的路径优、寻优的能力强的特点,CS算法是一种具有全局收敛性的随机算法,在工程优化上已经有了成功的应用。CS算法有4个重要的参数,即鸟巢数目n、发现概率Pa、步长α以及莱维飞行的参数λ,其中后面3个参数控制着算法进行全局以及局部的搜索平衡。参数λ和鸟巢数目n对于算法的影响比较小。在自然界中,布谷鸟寻找鸟窝位置是随机的方式或者是类似随机的方式,为了模拟布谷鸟寻窝的方式,首先,我们先设定以下三个理想的状态:(1)布谷鸟每次只产一个卵,并随机选择鸟窝位置来孵化这个卵;(2)在一组随机选择的鸟窝中,最好的鸟窝位置会被保留到下一代;(3)鸟窝群体规模n是固定的,设定一个鸟窝的主人能发现一个外来鸟蛋的概率为Pa∈[0,1].目前国内将布谷鸟搜索算法应用在主题爬虫技术中的研究还比较少,因此研究基于布谷鸟搜索算法的主题爬虫技术具有重要意义。通用搜索引擎,首先是尽可能多、尽可能全面地采集互联网上的信息和页面,有时甚至是整个Web上的资源,然后把搜集到的页面下载并存储到本地,再为数据库中的页面信息建立索引,根据用户提供的关键词跟索引数据库进行匹配,从而查找相关页面并返回给用户。但是随着Web上信息的急速增长,全部采集万维网上的信息并且保持与万维网上信息变化同步已经越来越困难,而且信息采集的速度也越来越不能满足人们实际应用的需要。为了解决这些问题,传统搜索引擎采用了并行机制,但并行技术带来的效果仍不能满足广大网民的需要。新的需求导致新一代的搜索引擎—主题搜索引擎应运而生,主题搜索引擎是为了满足某些特定用户的需要,专门查询某一学科或某一主题信息的查询工具,它可以在某个特定的范围内或者某个特定的主题上取得比传统搜索引擎更令人满意的结果。目前,国内对于主题爬虫搜索策略的研究主要有三类:基于内容评价的搜索策略,主要有Best-First算法、Fish-Search算法、Shark-Search、遗传算法;基于链接结构评价的搜索策略,主要有PageRank算法和HITS算法;基于未来回报的搜索策略,主要有基于巩固学习的搜索策略。这三类搜索策略的侧重点虽然不同,但是对于搜索引擎技术的发展都起到了重要的作用,而且目前主流的搜索引擎都是使用的这三类搜索策略。基于内容评价的搜索策略虽然有较好的理论基础并且计算简洁,但忽略了Web网页之间的链接结构关系,未能很好地发挥网页链接结构的作用;基于链接结构评价的搜索策略着重考虑网页间的链接结构,但忽略了网页本身与主题的相关性,易出现“主题漂移”问题;基于遗传算法的搜索策略虽然大大提高了爬取网页的相关度,但是随机搜索网页时容易陷入局部最优,使得爬取网页的主题相关度大打折扣,因此,针对上述问题提出一种基于布谷鸟搜索的方法。
技术实现思路
本专利技术的目的就在于为了解决上述问题而提供一种基于布谷鸟搜索的方法。本专利技术通过以下技术方案来实现上述目的,一种基于布谷鸟搜索的方法,包括主题、Google检索、结果集1、选择、Levy飞行、概率Pa、结果集2和统计相关性,搜索方法具体步骤如下:步骤A、将需要搜索的主题通过搜索引擎进行搜索,获取得到结果集1;步骤B、将步骤A得到的结果集1进行选择,然后通过Levy飞行操作搜索与主题相关性高的网页;步骤C、设置被发现概率的临界值Pa,将步骤B搜索到的网页通过被发现概率Pa操作引入目录型网页,扩大网页的搜索范围,形成结果集2;步骤D、将步骤C形成的结果集2通过适应度函数计算,选出适应度高的个体。优选的,步骤A中的搜索引擎进行搜索为主题待搜索的网页URL。优选的,步骤A中结果集1为根据网页间的链接关系获取的初始种子群体URL。优选的,步骤B中通过Levy飞行操作搜索与主题相关性高的网页运用的算法为向量空间模型。优选的,步骤D中通过适应度函数计算,选出适应度高的个体URL放入待爬取种子群体URL中,缩小了新种子数量。优选的,步骤A中的搜索引擎为Google检索。本专利技术的有益效果是:本专利技术提供了一种基于布谷鸟搜索算法的主题爬虫方法,使Web网页之间的链接结构关系不会被忽略,很好地发挥网页链接结构的作用;这种搜索策略能较好的克服主题爬虫出现的“主题漂移”问题以及在搜索相关网页时陷入局部最优值,获得尽可能高的查全率和查准率,在爬行过程中快速判断一个网页是否与主题相关以及快速预测并筛选主题相关的URL进入待爬行队列,使得爬取网页的主题相关度保持在相对较高的水准,从而提高爬虫的搜索效率。附图说明图1为本专利技术的流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例一:一种基于布谷鸟搜索的方法,包括主题、Google检索、结果集1、选择、Levy飞行、概率Pa、结果集2和统计相关性,搜索方法具体步骤如下:步骤A、将需要搜索的主题通过搜索引擎进行搜索,获取得到结果集1;其中,步骤A中的搜索引擎进行搜索为主题待搜索的网页URL;其中,步骤A中结果集1为根据网页间的链接关系获取的初始种子群体URL,其中搜索引擎为Google检索;步骤B、将步骤A得到的结果集1进行选择,然后通过Levy飞行操作搜索与主题相关性高的网页;其中,步骤B中通过Levy飞行操作搜索与主题相关性高的网页运用的算法为向量空间模型;步骤C、设置被发现概率的临界值Pa,Pa=0.8,将步骤B搜索到的网页通过被发现概率Pa操作引入目录型网页,扩大网页的搜索范围,形成结果集2;步骤D、将步骤C形成的结果集2通过适应度函数计算,选出适应度高的个体;其中,步骤D中通过适应度函数计算,选出适应度高的个体URL放入待爬取种子群体URL中,缩小了新种子数量。实施例二:一种基于布谷鸟搜索的方法,包括主题、Google检索、结果集1、选择、Levy飞行、概率Pa、结果集2和统计相关性,搜索方法具体步骤如下:步骤A、将需要搜索的主题通过搜索引擎进行搜索,获取得到结果集1;其中,步骤A中的搜索引擎进行搜索为主题待搜索的网页URL;其中,步骤A中结果集1为根据网页间的链接关系获取的初始种子群体URL,其中本文档来自技高网
...
一种基于布谷鸟搜索的方法

【技术保护点】
一种基于布谷鸟搜索的方法,包括主题、Google检索、结果集1、选择、Levy飞行、概率Pa、结果集2和统计相关性,其特征在于:搜索方法具体步骤如下:步骤A、将需要搜索的主题通过搜索引擎进行搜索,获取得到结果集1;步骤B、将步骤A得到的结果集1进行选择,然后通过Levy飞行操作搜索与主题相关性高的网页;步骤C、设置被发现概率的临界值Pa,将步骤B搜索到的网页通过被发现概率Pa操作引入目录型网页,扩大网页的搜索范围,形成结果集2;步骤D、将步骤C形成的结果集2通过适应度函数计算,选出适应度高的个体。

【技术特征摘要】
1.一种基于布谷鸟搜索的方法,包括主题、Google检索、结果集1、选择、Levy飞行、概率Pa、结果集2和统计相关性,其特征在于:搜索方法具体步骤如下:步骤A、将需要搜索的主题通过搜索引擎进行搜索,获取得到结果集1;步骤B、将步骤A得到的结果集1进行选择,然后通过Levy飞行操作搜索与主题相关性高的网页;步骤C、设置被发现概率的临界值Pa,将步骤B搜索到的网页通过被发现概率Pa操作引入目录型网页,扩大网页的搜索范围,形成结果集2;步骤D、将步骤C形成的结果集2通过适应度函数计算,选出适应度高的个体。2.根据权利要求1所述的一种基于布谷鸟搜索的方法,其特征在于:步骤...

【专利技术属性】
技术研发人员:范科峰姚相振钱竞远周睿康高林刘贤刚李琳
申请(专利权)人:中国电子技术标准化研究院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1