The invention discloses a data crawling method, device, device and medium. The method is executed by the slave server in the distributed crawler system, wherein, the method includes: obtaining the target to be crawled request information from the shared message queue of the master server; the shared message queue includes the information to be crawled obtained from the target website and the information to be crawled sent by the third party request; determining the target to be crawled request information from the candidate crawling module The target crawling module is used for crawling the target to be crawled request information to obtain the target data information of the target to be crawled request information. The technical scheme of the embodiment increases the comprehensiveness and readability of the source and target websites, and crawls the data of different target source websites through the general crawler program to meet the crawling requirements of the increasing different source websites.
【技术实现步骤摘要】
一种数据爬取方法、装置、设备和介质
本专利技术实施例涉及爬虫
,尤其涉及一种数据爬取方法、装置、设备和介质。
技术介绍
数据爬取技术是按照一定的规则,自动抓取目标网站信息的程序。利用网络传输协议向服务器发起请求,接收服务器响应数据(请求状态、网页内容),利用网页解析器将响应数据中所需的有效信息进行提取以及清洗,将信息以一种有效的方式进行存储。现有技术中,分布式爬虫系统中的源网站比较单一,针对不同源网站需要对应的启动不同的爬虫程序,不同爬虫程序启动过多不便于管理。
技术实现思路
本专利技术提供一种数据爬取方法、装置、设备和介质,以增加了源目标网站的全面性和可读性,通过通用爬虫程序对不同目标源网站数据的进行抓取,满足了逐渐增多的不同源网站的抓取需求。第一方面,本专利技术实施例提供了一种数据爬取方法,由分布式爬虫系统中的从服务器执行,该方法包括:从主服务器的共享消息队列中获取目标待爬取请求信息;所述共享消息队列包括定时爬取目标网站获取的待爬取信息,以及第三方请求发送的待爬取 ...
【技术保护点】
1.一种数据爬取方法,其特征在于,由分布式爬虫系统中的从服务器执行,所述方法包括:/n从主服务器的共享消息队列中获取目标待爬取请求信息;所述共享消息队列包括定时爬取目标网站获取的待爬取信息,以及第三方请求发送的待爬取信息;/n从候选爬取模块中确定目标待爬取请求信息的目标爬取模块,用于对所述目标待爬取请求信息进行爬取,得到目标待爬取请求信息的目标数据信息。/n
【技术特征摘要】
1.一种数据爬取方法,其特征在于,由分布式爬虫系统中的从服务器执行,所述方法包括:
从主服务器的共享消息队列中获取目标待爬取请求信息;所述共享消息队列包括定时爬取目标网站获取的待爬取信息,以及第三方请求发送的待爬取信息;
从候选爬取模块中确定目标待爬取请求信息的目标爬取模块,用于对所述目标待爬取请求信息进行爬取,得到目标待爬取请求信息的目标数据信息。
2.根据权利要求1所述的方法,其特征在于,从候选爬取模块中确定目标待爬取请求信息的目标爬取模块,包括:
将所述目标待爬取请求信息中统一资源定位符的属性信息与候选爬取模块的配置信息进行匹配,确定目标待爬取请求信息的目标爬取模块。
3.根据权利要求1所述的方法,其特征在于,在从候选爬取模块中确定目标待爬取请求信息的目标爬取模块,用于对所述目标待爬取请求信息进行爬取,得到目标待爬取请求信息的目标数据信息之后,还包括:
确定目标待爬取请求信息的目标数据信息的哈希值,将目标待爬取请求信息的目标数据信息的哈希值与目标数据库中任一目标数据信息的哈希值进行匹配,对目标数据库中的目标数据信息进行更新。
4.根据权利要求3所述的方法,其特征在于,确定目标待爬取请求信息的目标数据信息的哈希值,将目标待爬取请求信息的目标数据信息的哈希值与目标数据库中任一目标数据信息的哈希值进行匹配,对目标数据库中的目标数据信息进行更新,包括:
确定目标待爬取请求信息与目标数据库中任一目标待爬取请求信息是否相同;
若相同,则比较所述目标待爬取请求信息的目标数据信息与所述目标数据库中任一目标待爬取请求信息的目标数据信息的哈希值是否相同;
若不相同,则根据所述目标待爬取请求信息的目标数据信息对所述目标数据库中任一目标待爬取请求信息的目标数据信息进行更新。
5.一种数据爬取装置,其特征在于,配置于分布式爬虫系统中的从服务器中,...
【专利技术属性】
技术研发人员:王鸣鹿,郑羽,周雷皓,
申请(专利权)人:北京启迪区块链科技发展有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。