一种爬虫抓取的方法及其装置制造方法及图纸

技术编号:4332304 阅读:308 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种爬虫抓取的方法及其装置,用于解决现有爬虫抓取技术时效性差的问题。主要技术方案包括:根据网页在当前搜索结果中的排序或/和网页被用户点击的顺序,确定所述网页的当前权值;根据所述网页的当前权值以及历史权值,确定所述网页的结果权值;当所述结果权值达到设定阈值时,重新抓取所述网页中的信息。通过该技术方案,能够根据网页在当前搜索结果中的排序或/和网页被用户点击的顺序,影响爬虫抓取该网页中信息的周期,对用户关注度高的网页可以缩短爬虫抓取网页信息的周期,从而保证这类网页中的信息具有很好的时效性,提高用户的使用感受。

【技术实现步骤摘要】

本专利技术涉及互联网信息搜索领域,尤其涉及一种爬虫抓取的方法及其装置
技术介绍
搜索引擎是现今互联网上广为应用的一项技术,人们只需要输入自己所需要信息 的部分关键字就可以通过搜索引擎找到大量与该关键字相关的信息,例如百度、谷歌等搜 索引擎。 搜索引擎的信息来源多种多样,有些是通过竞价广告的形式由发起这项广告的广 告商向搜索引擎运营商支付广告费,搜索引擎运营商在自己的搜索引擎中刊登该广告的简 要信息以及链接,而更多的非广告信息,例如新闻、学术信息等是需要搜索引擎运营商自己 去寻找并抓取加入搜索引擎的,面对互联网上的海量信息,如何将大量搜索引擎运营商关 心的信息从其它的无用信息中区分出来,并分门别类地加入搜索引擎成为搜索引擎运营商 亟需解决的问题。 爬虫抓取技术的出现解决了上述问题,该技术能够按照设定的条件将符合该条件的信息从互联网的海量信息中抓取出来。将爬虫抓取技术应用于搜索引擎可以有效地解决各种有效信息的抓取问题。爬虫抓取技术在抓取信息时需要遍历网页,在面对互联网上的海量网页时,遍历所有网页几乎是很难办到的,即使办到了,也需要耗费大量的时间和资源,使得爬虫抓取到的信息时效性很差。针对此缺陷,目前普遍采用的解决方法是利用爬虫在一定数量、一定范围的网页中抓取信息,这些网页一般是事先通过统计得出的含有有用信息的概率和数量都比较高的网页。这样,可以将该一定数量、一定范围的网页形成一个搜索列表并记录入爬虫的搜索范围,使爬虫每隔固定的时间在该搜索列表上检索是否有新的信息页链接,如果有则根据链接下载该信息页,抽取该信息页中有用的信息。 上述根据固定时间间隔爬虫抓取网页信息的方式,在一定程度上縮短了每次爬虫抓取信息耗费的时间和资源,但在实际应用中,不同网页的用户关注度不同,如果使用相同的频率抓取用户关注度高的网页信息和用户关注度低的网页信息,显然对于用户关注度高的网页信息来说信息抓取频率相对较低,从而不能对用户关注度高的网页中的信息及时地抓取和更新,使得这类网页中信息的时效性差,即网页中会存在一定数量的过期信息或无效信息,进而影响用户对搜索引擎的满意度。
技术实现思路
本专利技术提供一种优化爬虫抓取的方法及其装置,用以解决现有爬虫抓取技术时效 性差的问题。 本专利技术实施例通过如下技术方案实现 本专利技术实施例提供了一种爬虫抓取的方法,包括 根据网页在当前搜索结果中的排序或/和所述网页被用户点击的顺序,确定所述 网页的当前权值; 根据所述网页的当前权值以及历史权值,确定所述网页的结果权值; 当所述结果权值达到设定阈值时,重新抓取所述网页中的信息。 本专利技术实施例还提供了一种爬虫抓取的装置,包括 当前权值确定单元,用于根据网页在当前搜索结果中的排序或/和所述网页被用 户点击的顺序,确定所述网页的当前权值; 结果权值确定单元,用于根据所述当前权值确定单元确定的当前权值以及所述网 页的历史权值,确定所述网页的结果权值; 信息抓取单元,用于当所述结果权值确定单元确定的结果权值达到设定阈值时, 重新抓取所述网页中的信息。 通过上述技术方案,本专利技术实施例能够根据网页在当前搜索结果中的排序或/和 该网页被用户点击的顺序,确定网页的当前权值,然后根据网页的当前权值以及历史权值, 确定该网页的结果权值,当结果权值达到设定阈值时,重新抓取该网页中的信息。 一般情况 下,网页在当前搜索结果中的排序或/和网页被用户点击的顺序能很好地体现该网页的用 户关注度,基于此,本专利技术实施例利用网页在当前搜索结果中的排序或/和网页被用户点 击的顺序,影响爬虫抓取该网页中信息的周期,根据该方案,对用户关注度高的网页可以縮 短爬虫抓取网页信息的周期,从而提高用户关注度高的网页中信息的抓取频率,保证这类 网页中的信息具有很好的时效性,提高用户的使用感受。附图说明 图1为本专利技术实施例中爬虫抓取的第一流程图; 图2为本专利技术实施例中爬虫抓取的第二流程图; 图3为本专利技术实施例中爬虫抓取的第三流程图; 图4为本专利技术实施例中爬虫抓取的装置示意图一 ; 图5为本专利技术实施例中爬虫抓取的装置示意图二 ; 图6为本专利技术实施例中爬虫抓取的装置示意图三。具体实施例方式为了提高爬虫抓取信息的时效性,以提高用户对搜索引擎的满意度,本专利技术实施 例提出了一种爬虫抓取的方法及其装置,下面结合说明书附图对本专利技术实施例的主要实现 原理、具体实施过程及其对应能够达到的有益效果进行详细的阐述。 基于计算机或者计算机网络的搜索引擎系统,对于用户查询所返回的搜索结果通 常是包含了网页链接的一个列表,该列表中的网页一般是按照网页中的信息与查询关键词 之间的相关程度由高到低排序的。针对搜索引擎返回的搜索结果的此特征,本专利技术一个实 施例中,提出了利用网页在搜索结果中的排序影响爬虫抓取网页中信息的周期的方法,具 体如图l所示,包括如下步骤 步骤101、根据网页在当前搜索结果中的排序,确定该网页的当前权值。 该步骤中,网页对应的当前权值用于标识该网页在搜索结果中的排序,具体地,网页对应的当前权值随着网页在搜索结果中的排序由前到后递减,具体地,可以按网页在搜索结果中的排序采用线性递减或指数递减等方式确定该网页的当前权值;进一步地,可以只选取搜索结果中排序靠前的n个网页,并只计算该n个网页的当前权值,对于排在第n个 以后的网页,可以默认为用户点击度不高的网页,默认其当前权值为O。 例如,采用线性递减方式确定网页当前权值时,对于在检索结果中排在第k位的 网页,其对应的当前权值a为 、-A: + l<formula>formula see original document page 6</formula> 其中,a。为排在第1位的网页对应的当前权值(该权值可为系统默认值)。 采用线性递减方式确定网页当前权值时,一个更简单的示例为默认搜索结果中 排在前10个的网页为用户点击度高的网页,针对该10个网页,可以为排在第1个的网页分 配当前权值10,排在第2个的网页分配当前权值9,依次类推,为排在第10个的网页分配当前权值l,对应排在第io个以后的网页,默认为用户点击度低的网页,对这些网页都分配当前权值O。 步骤102、根据网页对应的当前权值以及历史权值,确定该网页的结果权值。 该步骤中,较佳地可以通过如下两种方式确定网页的结果权值 方式一 、利用网页对应的历史权值加上该网页对应的当前权值,得到该网页的结方式二、利用网页对应的历史权值减去该网页对应的当前权值,得到该网页的结 果权值 果权值。 初始状态下,网页对应的历史权值可以根据采用的方式不同设置为不同的初始 值,例如,对于方式一,可以设置网页对应的历史权值为0,而对应方式二,可以设置网页对 应的历史权值为100。 进一步地,上述两种方式仅为本实施例确定网页的结果权值时的较佳方式,也可根据具体的策略采用不同的方式,具体地,可以设定网页对应的当前权值在结果权值中所占的比重,例如,结果权值=历史权值+当前权值Xq,其中,q大于O小于1。 步骤103、判断网页对应的结果权值是否达到设定阈值t,若达到,则执行步骤104,否则执行步骤105。 该步骤103中,阈值t的设定与步骤102中确定网页的结果权值时所采用的方式 有关,例如,当采用上述方式一得到网页本文档来自技高网
...

【技术保护点】
一种爬虫抓取的方法,其特征在于,包括:根据网页在当前搜索结果中的排序或/和所述网页被用户点击的顺序,确定所述网页的当前权值;根据所述网页的当前权值以及历史权值,确定所述网页的结果权值;当所述结果权值达到设定阈值时,重新抓取所述网页中的信息。

【技术特征摘要】
一种爬虫抓取的方法,其特征在于,包括根据网页在当前搜索结果中的排序或/和所述网页被用户点击的顺序,确定所述网页的当前权值;根据所述网页的当前权值以及历史权值,确定所述网页的结果权值;当所述结果权值达到设定阈值时,重新抓取所述网页中的信息。2. 如权利要求l所述的方法,其特征在于,当所述网页的当前权值根据所述网页在当前搜索结果中的排序确定时,所述网页的当 前权值根据所述网页在当前搜索结果中的排序由前到后递减;或当所述网页的当前权值根 据所述网页被用户点击的顺序确定时,所述网页的当前权值根据所述网页被用户点击的顺 序由前到后递减;根据所述网页的当前权值以及历史权值,确定所述网页的结果权值,包括 将所述网页的历史权值加上当前权值,得到所述网页对应的结果权值;或者,将所述网 页的历史权值减去当前权值,得到所述网页对应的结果权值。3. 如权利要求1所述的方法,其特征在于,所述根据网页在当前搜索结果中的排序和 所述网页被用户点击的顺序,确定所述网页的当前权值包括根据所述网页在当前搜索结果中的排序,确定所述网页的第一权值;所述第一权值根 据所述网页在当前搜索结果中的排序由前到后递减;以及,根据所述网页被用户点击的顺序,确定所述网页的第二权值;所述第二权值根据 所述网页被用户点击的顺序由前到后递减;根据所述第一权值和所述第二权值,确定所述网页的当前权值。4. 如权利要求1或2或3所述的方法,其特征在于,当所述结果权值达到设定阈值时, 还包括初始化所述网页的历史权值。5. 如权利要求1或2或3所述的方法,其特征在于,当所述结果权值未达到设定阈值 时,还包括利用所述网页的结果权值更新所述网页的历史权值。6. 如权利要求5所述的方法,其特征在于,更新所述网页的历史权值后,并且当所述网 页的当前权值根据所述网页在当前搜索结果中的排序确定时,所述方法还包括根据所述网页被用户点击的顺序,确定所述网页的当前权值; 根据所述网页的当前权值以及历史权值,确定所述网页的结果权值; 当所述结果权值达到设定阈值时,重新抓取所述网页中的信息。7. 如权利要求5所述的方法,其特征在于,更新所述网页的历史权值后,并且当所述网 页的当前权值根据所述网页被用户点击的顺序确定时,所述方法还包括根据所述网页在搜索结果中的排序,确定所述网页的当前权值; 根据所述网页的当前权值以及历史权值,确定所述网页的结果权值; 当所述结果权值达到设定阈值时,重新抓取所...

【专利技术属性】
技术研发人员:孙宏伟胡珉罗治国
申请(专利权)人:中国移动通信集团公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1