【技术实现步骤摘要】
一种数据获取方法、装置、电子设备和存储介质
[0001]本公开涉及数据采集领域,具体而言,涉及一种数据获取方法、装置、电子设备和存储介质。
技术介绍
[0002]目前,数据呈现爆炸增长的趋势,如何快速高效地采集并利用这些数据成为了新的挑战,实际操作中,可通过网络爬虫或网站公开API等方式从网站上获取数据信息。
[0003]网络爬虫中最常见的是分布式爬虫,可采集大规模的数据,分布式爬虫中,为提高效率,可拥有多个下载器,分布式运行,为避免不同下载器响应同一数据获取请求造成资源浪费,通常采用单一请求队列,且不同下载器不能同时处理同一请求队列中相同站点的爬虫请求,因此,当同一队列中存在相邻的相同站点的爬虫请求时,可能会导致队列中的请求不能及时出队,造成下载资源的浪费。
技术实现思路
[0004]本公开实施例至少提供一种数据获取方法、装置、电子设备和存储介质。
[0005]第一方面,本公开实施例提供了一种数据获取方法,包括:
[0006]响应于数据获取请求,基于所述数据获取请求指示的资源定位标识,确定请求队列描述信息;所述请求队列描述信息中包含域名指示信息;
[0007]将所述数据获取请求存储在与所述请求队列描述信息匹配的请求队列中;
[0008]响应于下载器发送的队列获取指令,将当前存储的各所述请求队列对应的请求队列描述信息发送给所述下载器,以使所述下载器基于当前响应的数据获取请求对应的请求队列描述信息,从各所述请求队列对应的请求队列描述信息中提取目标请求队列描述信息; ...
【技术保护点】
【技术特征摘要】
1.一种数据获取方法,其特征在于,包括:响应于数据获取请求,基于所述数据获取请求指示的资源定位标识,确定请求队列描述信息;所述请求队列描述信息中包含域名指示信息;将所述数据获取请求存储在与所述请求队列描述信息匹配的请求队列中;响应于下载器发送的队列获取指令,将当前存储的各所述请求队列对应的请求队列描述信息发送给所述下载器,以使所述下载器基于当前响应的数据获取请求对应的请求队列描述信息,从各所述请求队列对应的请求队列描述信息中提取目标请求队列描述信息;其中,所述目标请求队列描述信息与所述下载器当前响应中的数据获取请求对应的请求队列描述信息不同;响应于所述下载器发送的请求获取指令,从所述请求获取指令指示的目标请求队列描述信息对应的目标请求队列中,提取目标数据获取请求,并将所述目标数据获取请求发送至所述下载器。2.根据权利要求1所述的方法,其特征在于,所述基于所述数据获取请求指示的资源定位标识,确定请求队列描述信息,包括:从所述资源定位标识中,分别提取出所述数据获取请求对应的域名信息、传输协议信息以及端口信息;基于所述域名信息、所述传输协议信息以及所述端口信息,确定请求队列描述信息。3.根据权利要求1所述的方法,其特征在于,所述将所述数据获取请求存储在与所述请求队列描述信息匹配的请求队列中,包括:查询与所述请求队列描述信息匹配的请求队列,并将所述数据获取请求存储在查询到的请求队列中;在未能查询到与所述请求队列描述信息匹配的请求队列时,生成与所述请求队列描述信息匹配的请求队列,并将所述数据获取请求存储在生成的请求队列中。4.根据权利要求1所述的方法,其特征在于,所述从所述请求获取指令指示的目标请求队列描述信息对应的目标请求队列中,提取目标数据获取请求,包括:确定所述目标请求队列的队列类型;所述队列类型包括先进先出队列及优先级队列中的至少一种;基于所述队列类型对应的出队方式,从所述目标请求队列中确定出目标数据获取请求。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:通过请求代理模块,获取多个用户对应的请求队列参数;所述请求队列参数包括其对应用户的多个请求队列的请求队列描述信息,以及所述用户的请求队列的队列长度;基于获取的所述请求队列参数,更新所述请求代理模块的请求信息;所述请求信息包括多个信息分组,每个信息分组中包括该信息分组对应的请求队列描述信息,以及所述请求队列描述信息对应的请求队列的队列长度;所述将当前存储的各所述请求队列对应的请求队列描述信息发送给所述下载器,包括:在所述下载器为所述请求代理模块对应的下载器的情况下,将当前存储的各个信息分组对应的请求队列描述信息发送给所述下载器;
所述从所述请求获取指令指示的目标请求队列描述信息对应的目标请求队列中,提取目标数据获取请求,包括:在所述目标请求队列存在多个的情况下,确定所述目标请求队列中队列长度最高的目标请求队列;从所述队列长度最高的目标请求队列中确定目标数据获取请求。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:通过所述请求代理模块,获取所述请求代理模块对应的其他请求代理模块的请求信息;所述基于获取的所述请求队列参数,更新所述请求代理模块的请求信息,包括:基于获取的所述请求队列参数,以及,所述其他请求代理模块的请求信息,更新所述请求代理模块的请求信息。7.一种数据获取方法,其特征在于,包括:向请求管理系统发送队列获取指令,以使所述请求管理系统反馈当前存储的请求队列对应的请求队列描述信息;所述请求队列中存储有请求队列描述信息相同的数据获取请求;所述请求队列描述信息中包含域名指示信息;基于当前执行中的数据获取...
【专利技术属性】
技术研发人员:陈飞,
申请(专利权)人:抖音视界北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。