数据抓取方法及装置制造方法及图纸

技术编号:16456224 阅读:51 留言:0更新日期:2017-10-25 20:42
本发明专利技术实施例提供了一种数据抓取方法及装置,涉及网络应用技术领域。其中,在本发明专利技术实施例中,基于统一资源定位符URL模板对应的参数生成规则,确定更新内容;利用所述更新内容更新所述URL模板,生成待抓取URL;推送所述待抓取URL至抓取服务器;触发所述抓取服务器抓取所述待抓取URL对应的网络数据。本发明专利技术实施例提供的技术方案,提高数据抓取有效性及准确度。

Data grabbing method and device

The embodiment of the invention provides a data grabbing method and device, which relates to the field of network application technology. Among them, in the embodiment of the invention, the parameters of generating rules of uniform resource locator URL templates based on updating the content; using the update to update the URL template to generate crawl URL; push the URL to capture network data capture server; the server triggers the crawl crawl grab the corresponding URL. The technical scheme provided by the embodiment of the invention improves the efficiency and accuracy of data grabbing.

【技术实现步骤摘要】
数据抓取方法及装置
本专利技术实施例涉及网络应用
,尤其涉及一种数据抓取方法及装置。
技术介绍
数据抓取是目前从互联网中获取信息的一种基本方式。现有技术中的数据抓取方式,通常是利用网络爬虫进行爬取,网络爬虫可以基于种子URL(UniformResourceLocator,统一资源定位符)进行深入遍历抓取,但是抓取的URL和抓取内容均无法控制,因此会导致获得很多无效信息。
技术实现思路
本专利技术实施例提供一种数据抓取方法及装置,用以解决现有技术中数据抓取有效性及准确度低的技术问题。第一方面,本专利技术实施例中提供了一种数据抓取方法,包括:基于统一资源定位符URL模板对应的参数生成规则,确定更新内容;利用所述更新内容更新所述URL模板,生成待抓取URL;推送所述待抓取URL至抓取服务器;触发所述抓取服务器抓取所述待抓取URL对应的网络数据。可选地,所述推送所述待抓取URL至抓取服务器包括:推送一批第一数量的待抓取URL至所述抓取服务器;针对当前一批第一数量的待抓取URL,如果所述抓取服务器处理完成第二数量的待抓取URL,推送下一批第一数量的待抓取URL至所述抓取服务器。可选地,所述方本文档来自技高网...
数据抓取方法及装置

【技术保护点】
一种数据抓取方法,其特征在于,包括:基于统一资源定位符URL模板对应的参数生成规则,确定更新内容;利用所述更新内容更新所述URL模板,生成待抓取URL;推送所述待抓取URL至抓取服务器;触发所述抓取服务器抓取所述待抓取URL对应的网络数据。

【技术特征摘要】
1.一种数据抓取方法,其特征在于,包括:基于统一资源定位符URL模板对应的参数生成规则,确定更新内容;利用所述更新内容更新所述URL模板,生成待抓取URL;推送所述待抓取URL至抓取服务器;触发所述抓取服务器抓取所述待抓取URL对应的网络数据。2.根据权利要求1所述的方法,其特征在于,所述推送所述待抓取URL至抓取服务器包括:推送一批第一数量的待抓取URL至所述抓取服务器;针对当前一批第一数量的待抓取URL,如果所述抓取服务器处理完成第二数量的待抓取URL,推送下一批第一数量的待抓取URL至所述抓取服务器。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:针对所述当前一批第一数量的待抓取URL,如果所述抓取服务器的抓取等待时长超过预设时长,推送下一批第一数量的待抓取URL至所述抓取服务器。4.根据权利要求1所述的方法,其特征在于,所述触发所述抓取服务器抓取所述待抓取URL对应的网络数据包括:触发所述抓取服务器抓取所述待抓取URL对应的网络数据,并将所述网络数据存储至网络存储空间;所述方法还包括:从所述网络存储空间获取所述网络数据。5.根据权利要求4所述的方法,其特征在于,所述从所述网络存储空间获取所述网络数据包括:每间隔预设等待间隔,采用多进程方式从所述网络存储空间获取所述网络数据。6.一种数据抓取装置,其特征在于,包括:确...

【专利技术属性】
技术研发人员:龚廖安
申请(专利权)人:北京小度信息科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1