一种高效网络爬取方法及装置制造方法及图纸

技术编号:33349196 阅读:19 留言:0更新日期:2022-05-08 09:51
本发明专利技术公开了一种高效网络爬取方法及装置,本发明专利技术基于预设关键词和初检的种子URL来设置分布式爬虫框架,通过该分布式爬虫框架来对排名后的种子URL排名进行数据爬取,然后在对所爬取的URL重新进行URL排名,再基于该新URL排名再次进行数据爬取,重复执行这一步骤,直到重复执行爬取数据的次数达到预设的数据爬取次数阈值时候结束数据爬取,最后将所爬取到的所有URL中与预设关键词的匹配度超过预设匹配度阈值的URL作为最终爬取结果。也即本发明专利技术是不断对所爬取到的URL进行排名,然后按照排名来进行数据爬取,从而实现高效地对快速扩张的网络资源规模进行有效爬取。张的网络资源规模进行有效爬取。张的网络资源规模进行有效爬取。

【技术实现步骤摘要】
一种高效网络爬取方法及装置


[0001]本专利技术涉及计算机
,特别是涉及一种高效网络爬取方法及装置。

技术介绍

[0002]在互联网高速发展下,信息技术的完善与优化,使得人们能够了解各类信息,所以互联网成了海量信息的载体,因此互联网目前是分析行业趋势、监视竞争对手或者获取销售线索的最佳场所,数据采集以及分析能力已成为驱动业务决策的关键技能。网络爬虫技术是实现上述情况的最好手段。但常规的网络爬虫技术并不能很好地应对现在快速扩张的网络资源规模进行有效爬取。

技术实现思路

[0003]本专利技术提供了一种高效网络爬取方法及装置,以解决现有技术中不能高效对快速扩张的网络资源规模进行爬取的问题。
[0004]第一方面,本专利技术提供了一种高效网络爬取方法,该方法包括:步骤一、基于预设关键词和初步检索的网站得到种子URL来设置分布式爬虫框架,通过所述分布式爬虫框架来基于所述种子URL排名进行数据爬取,其中,所述初步检索的网站为基于所述预设关键词检索到的网站;步骤二、根据所爬取的URL重新进行URL排名,并基于该新URL排名再次进行数据爬取;步骤三、重复执行步骤二,直到重复执行爬取数据的次数达到预设的数据爬取次数阈值,则结束数据爬取;步骤四、将所爬取到的所有URL中与预设关键词的匹配度超过预设匹配度阈值的URL作为最终爬取结果。
[0005]可选地,所述基于预设关键词和初步检索的网站得到种子URL来设置分布式爬虫框架,包括:基于预设的网络爬虫时间要求、所述预设关键词数量、当前可利用资源规模以及预设的数据爬取次数阈值来综合设置分布式爬虫框架。
[0006]可选地,所述方法还包括:通过所设置的分布式爬虫框架进行多线程并行的数据爬取,并通过多向链接数据库的方式,将分布式并发爬取到的URL并发存储到资源库中。
[0007]可选地,所述数据爬取次数阈值是根据预设的网络爬虫时间要求以及当前所爬取到的URL进行设定的。
[0008]可选地,所述方法还包括:根据当前所爬取到的URL调整所述数据爬取次数阈值。
[0009]可选地,所述预设匹配度阈值为根据最终爬取的URL量以及预设关键词的爬取力度进行确定。
[0010]可选地,所述基于预设关键词和初步检索的网站得到种子URL来设置分布式爬虫框架,包括:基于预设关键词和初步检索到的出现频次超过预设次数的种子URL来设置分布式爬虫框架。
[0011]可选地,所述方法还包括:构建动态IP池,并在监测到当前爬取数据的IP受限时,则采用新IP的方式以规避反爬机制。
[0012]第二方面,本专利技术提供了一种用于实现上述任一种所述高效网络爬取方法的装
置,装置包括:
[0013]控制器,用于基于预设关键词和初步检索的网站得到种子URL来设置分布式爬虫框架,并根据所述分布式爬虫框架进行线程的合理分配,同时通过触发所述解析器来控制所有线程启动数据爬取;
[0014]解析器,用于通过所述控制器设置的分布式爬虫框架来基于所述种子URL排名进行数据爬取,其中,所述初步检索的网站为基于所述预设关键词检索到的网站,并根据所爬取的URL重新进行URL排名,并基于该新URL排名再次进行数据爬取,重复执行根据所爬取的URL重新进行URL排名,并基于该新URL排名再次进行数据爬取的步骤,直到重复执行爬取数据的次数达到预设的数据爬取次数阈值,则结束数据爬取,然后将所爬取到的所有URL中与预设关键词的匹配度超过预设匹配度阈值的URL作为最终爬取结果;
[0015]资源库,用于通过多向链接数据库的方式,将所述最终爬取结果存储到资源库中。
[0016]第三方面,本专利技术提供了一种计算机可读存储介质,所述计算机可读存储介质存储有信号映射的计算机程序,所述计算机程序被至少一个处理器执行时,以实现上述任一种所述的高效网络爬取方法。
[0017]本专利技术有益效果如下:
[0018]本专利技术基于预设关键词和初检的种子URL来设置分布式爬虫框架,通过该分布式爬虫框架来对排名后的种子URL排名进行数据爬取,然后在对所爬取的URL重新进行URL排名,再基于该新URL排名再次进行数据爬取,重复执行这一步骤,直到重复执行爬取数据的次数达到预设的数据爬取次数阈值时候结束数据爬取,最后将所爬取到的所有URL中与预设关键词的匹配度超过预设匹配度阈值的URL作为最终爬取结果。也即本专利技术是不断对所爬取到的URL进行排名,然后按照排名来进行数据爬取,从而实现高效地对快速扩张的网络资源规模进行有效爬取。
[0019]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。
附图说明
[0020]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0021]图1是本专利技术第一实施例提供的一种高效网络爬取方法的流程示意图;
[0022]图2是本专利技术第一实施例提供的分布式网页爬取示意图。
具体实施方式
[0023]以下结合附图以及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不限定本专利技术。
[0024]本专利技术第一实施例提供了一种高效网络爬取方法,参见图1,该方法包括:
[0025]S101、基于预设关键词和初步检索的网站得到种子URL来设置分布式爬虫框架,通过所述分布式爬虫框架来基于所述种子URL排名分布式并行数据爬取,其中,所述初步检索
的网站为基于所述预设关键词检索到的网站;
[0026]该预设关键词可以是技术人员根据需要进行设定的,给预设关键词的个数也可以根据需要进行设定,然后基于该预设关键词进行初步检索得到一定数量的网站,综合考虑该初步检索到的网站以及上述所设的关键词,来整体设置分布式爬虫框架,再通过分布式爬虫框架来基于种子URL排名并行进行数据爬取;
[0027]具体实施时,本专利技术实施例是基于预设关键词和初步检索到的出现频次超过预设次数的种子URL来设置分布式爬虫框架。
[0028]也即,在具体实施时,本专利技术可以根据实际情况来选择种子URL,可以是根据出现频次,当然也可以基于其他条件来筛选种子URL。
[0029]S102、根据所爬取的URL重新进行URL排名,并基于该新URL排名再次进行数据爬取;
[0030]S103、重复执行步骤二,直到重复执行爬取数据的次数达到预设的数据爬取次数阈值,则结束数据爬取;
[0031]S104、将所爬取到的所有URL中与预设关键词的匹配度超过预设匹配度阈值的URL作为最终爬取结果。
[0032]也即,本专利技术实施例是在进行数据爬取过程中,会不断根据所爬取的数据重新进行U本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种高效网络爬取方法,其特征在于,包括:步骤一、基于预设关键词和初步检索的网站得到种子URL来设置分布式爬虫框架,通过所述分布式爬虫框架来基于所述种子URL排名进行分布式并行数据爬取,其中,所述初步检索的网站为基于所述预设关键词检索到的网站;步骤二、根据所爬取的URL重新进行URL排名,并基于该新URL排名再次进行数据爬取;步骤三、重复执行步骤二,直到重复执行爬取数据的次数达到预设的数据爬取次数阈值,则结束数据爬取;步骤四、将所爬取到的所有URL中与预设关键词的匹配度超过预设匹配度阈值的URL作为最终爬取结果。2.根据权利要求1所述的方法,其特征在于,所述基于预设关键词和初步检索的网站得到种子URL来设置分布式爬虫框架,包括:基于预设的网络爬虫时间要求、所述预设关键词数量、当前可利用资源规模以及预设的数据爬取次数阈值来综合设置分布式爬虫框架。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:通过所设置的分布式爬虫框架进行多线程并行的数据爬取,并通过多向链接数据库的方式,将分布式并发爬取到的URL并发存储到资源库中。4.根据权利要求1

3中任意一项所述的方法,其特征在于,所述数据爬取次数阈值是根据预设的网络爬虫时间要求以及当前所爬取到的URL进行设定的。5.根据权利要求1

3中任意一项所述的方法,其特征在于,所述方法还包括:根据当前所爬取到的URL调整所述数据爬取次数阈值。6.根据权利要求1

3中任意一项所述的方法,其特征在于,所述预设匹配度阈值为根据最终爬取的URL量以及预设关键词的爬取力度进行确定。7.根据权利要求1

【专利技术属性】
技术研发人员:付圣峰楚立鹏成霄范强孙慧刘俊荣王亮亮张仁群张博王永皎尤晓艳
申请(专利权)人:青岛智汇泰鼎科技开发有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1