采集资源调度方法及系统技术方案

技术编号:35634092 阅读:9 留言:0更新日期:2022-11-19 16:22
本发明专利技术公开了采集资源调度方法,包括:接受采集任务系统的访问请求,根据所述访问请求查询缓存中的采集资源,所述访问请求包括请求的采集资源类型;若缓存中无所需采集资源,则在数据库中查询并获取采集资源,并将获取到的采集资源放入缓存,供所述采集任务系统使用。本发明专利技术还提供了采集资源调度系统。本发明专利技术能够较稳定地为采集任务系统提供有效的采集资源。较稳定地为采集任务系统提供有效的采集资源。较稳定地为采集任务系统提供有效的采集资源。

【技术实现步骤摘要】
采集资源调度方法及系统


[0001]本专利技术涉及计算机信息
更具体地说,本专利技术涉及一种采集资源调度方法及系统。

技术介绍

[0002]大数据、人工智能和数据分析等创新技术的不断发展,对于数据的需求量也在不断增加。人工智能和数据分析等技术依赖于不断积累的数据,用来分析训练实现更准确和精细的发展。各个互联网厂商越来越重视互联网数据,互联网厂商为了保护自己的数据,运用很多技术手段保护自己的数据。有些厂商通过用户设备参数对用户身份进行识别,如:Cookie,Token等设备参数信息,并且设置人机行为识别,参数过期等手段限制采集。当采集任务使用同一用户设备信息频繁请求或携带无效过期参数请求,该设备信息就会被标记识别造成采集任务获取不到数据。因此,继续设计一种能够一定程度克服上述缺陷的技术方案。

技术实现思路

[0003]本专利技术的目的是提供一种采集资源调度方法及系统,能够较稳定地为采集任务系统提供有效的采集资源。
[0004]为了实现根据本专利技术的这些目的和其它优点,根据本专利技术的一个方面,提供了采集资源调度方法,包括:接受采集任务系统的访问请求,根据所述访问请求查询缓存中的采集资源,所述访问请求包括请求的采集资源类型;若缓存中无所需采集资源,则在数据库中查询并获取采集资源,并将获取到的采集资源放入缓存,供所述采集任务系统使用。
[0005]进一步地,缓存中的采集资源预设有采集资源过期时间和调用清除方法间隔时间。
[0006]进一步地,对所述数据库执行查询操作,获取按照下次可用时间升序排列的采集资源队列;依次将采集资源队列中的采集资源的下次可用时间与当前时间比较,若当前时间大于下次可用时间,则将对应的采集资源放入缓存,供所述采集任务系统使用;若当前时间小于下次可用时间,则向所述采集任务系统反馈采集资源不可用状态信息和采集资源恢复所需最短时间;其中,下次可用时间和采集资源恢复所需最短时间根据预设的采集资源的单位时间可用次数和所需休眠时间确定。
[0007]进一步地,接受所述采集任务系统的响应信息,若所述响应信息为采集任务异常,则将对应的异常采集资源放入缓存。
[0008]进一步地,统计造成采集任务异常的次数,若达到设定异常次数阈值,则将对应的异常采集资源的不可用状态更新至数据库中。
[0009]进一步地,访问异常采集资源对应设备,对该设备的参数资源执行抓包操作,得到更新后的采集资源,并存入数据库中。
[0010]根据本专利技术的另一个方面,还提供了采集资源调度系统,包括:采集调度系统接口
模块,用于接受采集任务系统的访问请求,根据所述访问请求查询缓存中的采集资源,所述访问请求包括请求的采集资源类型;采集资源调度模块,用于若缓存中无所需采集资源,则在数据库中查询并获取采集资源,并将获取到的采集资源放入缓存,供所述采集任务系统使用。
[0011]进一步地,对所述数据库执行查询操作,获取按照下次可用时间升序排列的采集资源队列;依次将采集资源队列中的采集资源的下次可用时间与当前时间比较,若当前时间大于下次可用时间,则将对应的采集资源放入缓存,供所述采集任务系统使用;若当前时间小于下次可用时间,则向所述采集任务系统反馈采集资源不可用状态信息和采集资源恢复所需最短时间;其中,下次可用时间和采集资源恢复所需最短时间根据预设的采集资源的单位时间可用次数和所需休眠时间确定。
[0012]进一步地,采集资源调度模块还用于接受所述采集任务系统的响应信息,若所述响应信息为采集任务异常,则将对应的异常采集资源放入缓存;统计造成采集任务异常的次数,若达到设定异常次数阈值,则将对应的异常采集资源的不可用状态更新至数据库中。
[0013]进一步地,还包括:采集资源更新模块,用于访问异常采集资源对应设备,对该设备的参数资源执行抓包操作,得到更新后的采集资源,并存入数据库中;采集资源展示管理模块,用于获取采集资源的状态,并显示。
[0014]本专利技术至少包括以下有益效果:
[0015]本专利技术接受采集任务系统的访问请求,根据访问请求查询缓存中的采集资源,若缓存中无所需采集资源,则在数据库中查询并获取采集资源,并将获取到的采集资源放入缓存,供所述采集任务系统使用,能够合理分配采集资源使用,提高采集资源使用效率,保证采集任务系统稳定。
[0016]本专利技术的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本专利技术的研究和实践而为本领域的技术人员所理解。
附图说明
[0017]图1为本申请的框架图;
[0018]图2为本申请采集资源缓存结构流程图。
具体实施方式
[0019]下面结合附图对本专利技术做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
[0020]应当理解,本文所使用的诸如“具有”、“包含”以及“包括”术语并不排除一个或多个其它元件或其组合的存在或添加。
[0021]本申请的实施例提供了采集资源调度方法,包括:
[0022]S1:接受采集任务系统的访问请求,根据所述访问请求查询缓存中的采集资源,所述访问请求包括请求的采集资源类型;采集资源即爬虫任务系统所需设备信息;采集资源类型包括所需资源站点、对应列表或详情页采集、是否绑定资源位置等信息;可选地,缓存的采集资源存在于线程中,Tornado协程框架任务都能够访问;缓存保存形式为Python类对象的类属型字典,该类对象集成插入,获取和清除等方法;首先在缓存中查找采集资源,避
免直接使用新的采集资源,从而合理分配采集资源使用,提升采集资源的使用效率;
[0023]S2:若缓存中无所需采集资源,则在数据库中查询并获取采集资源,并将获取到的采集资源放入缓存,供所述采集任务系统使用;数据库可选为MongoDB数据库;将采集资源加载到缓存,尽可能延长资源的存活时间,保证采集任务系统稳定。
[0024]在另一些实施例中,缓存中的采集资源预设有采集资源过期时间和调用清除方法间隔时间,以合理使用缓存,采集资源过期时间和调用清除方法根据实际测试确定。
[0025]在另一些实施例中,若采集任务系统具有指定采集资源,则直接选用缓存中的指定采集资源,每次使用指定采集资源,延长此指定采集资源的过期时间。
[0026]在另一些实施例中,在S2中,对所述数据库执行查询操作,获取按照下次可用时间升序排列的采集资源队列;依次将采集资源队列中的采集资源的下次可用时间与当前时间比较,若当前时间大于下次可用时间,则将对应的采集资源放入缓存,供所述采集任务系统使用,放入缓存中的采集资源的数量根据访问请求确定;若当前时间小于下次可用时间,则向所述采集任务系统反馈采集资源不可用状态信息和采集资源恢复所需最短时间;其中,下次可用时间和采集资源恢复所需最短时间根据预设的采集资源的单位时间可用次数和所需休眠时间确定,具体而言,根据实际测试、稳定资源的使用频率,来设置单位时间可用次数和所需休眠时间,所需休眠时间为两次可用的时间间隔,本次使用周期最后一次使本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.采集资源调度方法,其特征在于,包括:接受采集任务系统的访问请求,根据所述访问请求查询缓存中的采集资源,所述访问请求包括请求的采集资源类型;若缓存中无所需采集资源,则在数据库中查询并获取采集资源,并将获取到的采集资源放入缓存,供所述采集任务系统使用。2.如权利要求1所述的采集资源调度方法,其特征在于,缓存中的采集资源预设有采集资源过期时间和调用清除方法间隔时间。3.如权利要求1所述的采集资源调度方法,其特征在于,对所述数据库执行查询操作,获取按照下次可用时间升序排列的采集资源队列;依次将采集资源队列中的采集资源的下次可用时间与当前时间比较,若当前时间大于下次可用时间,则将对应的采集资源放入缓存,供所述采集任务系统使用;若当前时间小于下次可用时间,则向所述采集任务系统反馈采集资源不可用状态信息和采集资源恢复所需最短时间;其中,下次可用时间和采集资源恢复所需最短时间根据预设的采集资源的单位时间可用次数和所需休眠时间确定。4.如权利要求1所述的采集资源调度方法,其特征在于,接受所述采集任务系统的响应信息,若所述响应信息为采集任务异常,则将对应的异常采集资源放入缓存。5.如权利要求4所述的采集资源调度方法,其特征在于,统计造成采集任务异常的次数,若达到设定异常次数阈值,则将对应的异常采集资源的不可用状态更新至数据库中。6.如权利要求4所述的采集资源调度方法,其特征在于,访问异常采集资源对应设备,对该设备的参数资源执行抓包操作,得到更新后的采集资源,并存入数据库中。7.采集...

【专利技术属性】
技术研发人员:刘春阳王鹏张旭梁汝锋刘巨安杨恒
申请(专利权)人:北京蓝光汇智网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1