System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数据采集领域,具体而言,涉及一种调度策略的调整方法、系统、电子设备及存储介质。
技术介绍
1、在互联网大数据时代,整个网络充斥着大量的采集蜘蛛来采集数据。对于采集蜘蛛采集任务的调度,如果调度策略不够合理,采集蜘蛛采集数据的效率低,采集效率低会导致高频采集,需要使用更多的采集设备,以及更多的电量支持,需要更多的带宽占用,增加被采集者的压力。
技术实现思路
1、本申请实施例的目的在于提供一种调度策略的调整方法、系统、电子设备及存储介质,用以解决了现有技术存在的上述问题,可提高采集蜘蛛采集数据的效率。
2、第一方面,提供了一种调度策略的调整方法,该方法可以包括:
3、获取采集蜘蛛按照预设调度策略采集目标数据对应的待分析信息;所述预设调度策略包括采集时段和采集频率;所述待分析信息包括所述目标数据的数据质量;所述目标数据为被采集者中更新的数据;
4、采用预设调度评分模型,对所述预设调度策略进行评分,得到策略分值;所述预设调度评分模型是根据历史目标数据的数据质量、历史采集时段和历史采集频率确定的;
5、若所述策略分值不小于预设分值,则控制所述采集蜘蛛按照所述预设调度策略,采集下一时刻所述被采集者的目标数据;
6、若所述策略分值小于所述预设分值,则根据预设调节规则,对所述预设调度策略进行调节,得到新的预设调度策略,所述新的预设调度策略包括新的采集时段和/或新的采集频率。
7、在一种可能的实现中,根据预设调节规则,对
8、获取所述目标数据的采集时间对应的第一采集时间点;
9、采用预设聚类算法,对各所述第一采集时间点进行聚类,得到聚类后的第一采集时间簇;
10、针对每个第一采集时间簇,确定相应第一采集时间簇对应的新的采集时段。
11、在一种可能的实现中,根据预设调节规则,对所述调度策略进行调节,得到新的预设调度策略,包括:
12、获取所述数据质量中达到预设数据质量的目标数据质量对应的目标数据的第二采集时间点;
13、采用预设聚类算法,对各所述第二采集时间点进行聚类,得到聚类后的第二采集时间簇;
14、针对每个第二采集时间簇,确定相应第二采集时间簇对应的待分析时段;
15、基于各所述待分析时段的总和,以及相应待分析时段的数据质量,确定所述被采集者的权重;
16、根据所述被采集者的权重,对所述预设调度策略中的采集频率进行调节,得到新的采集频率。
17、在一种可能的实现中,若所述策略分值小于所述预设分值,则根据预设调节规则,对所述预设调度策略进行调节,得到新的预设调度策略之后,所述方法还包括:
18、若达到预设最大调节次数,且所述新的预设调度策略的策略分值小于所述预设分值,则发出所述预设调度策略需要人工介入的提示信息。
19、在一种可能的实现中,所述预设调度策略还包括预设频次。
20、在一种可能的实现中,所述被采集者的权重的计算公式为:
21、y=α×t+(m1-m0+m2-m0+……+mn-m0)×β/n;
22、其中,y为被采集者的权重,t为所述待分析时段的时段总和、m1至mn为各所述目标数据的数据质量、α为所述时段总和的权重、β为所述数据质量的权重,m0为预设数据质量,n为所述目标数据的数量。
23、在一种可能的实现中,根据预设调节规则,对所述预设调度策略进行调节,得到新的预设调度策略,包括:
24、获取所述目标数据的采集时间对应的第一采集时间点,以及所述数据质量中达到预设数据质量的目标数据质量对应的目标数据的第二采集时间点;
25、采用预设聚类算法,对各所述第一采集时间点进行聚类,得到聚类后的第一采集时间簇,以及对各所述第二采集时间点进行聚类,得到聚类后的第二采集时间簇;
26、针对每个第一采集时间簇和每个第二采集时间簇,确定相应第一采集时间簇对应的第一采集时段和相应第二采集时间簇对应的第二采集时段;
27、对所述第一采集时段和所述第二采集时段进行分析,确定新的采集时段。
28、第二方面,提供了一种调度策略的调整系统,该系统可以包括:
29、获取单元,用于获取采集蜘蛛按照预设调度策略采集目标数据对应的待分析信息;所述预设调度策略包括采集时段和采集频率;所述待分析信息包括所述目标数据的数据质量;所述目标数据为被采集者中更新的数据;
30、评分单元,用于采用预设调度评分模型,对所述预设调度策略进行评分,得到策略分值;所述预设调度评分模型是根据历史目标数据的数据质量、历史采集时段和历史采集频率确定的;
31、控制单元,用于若所述策略分值不小于预设分值,则控制所述采集蜘蛛按照所述预设调度策略,采集下一时刻所述被采集者的目标数据;
32、所述控制单元,还用于若所述策略分值小于所述预设分值,则根据预设调节规则,对所述预设调度策略进行调节,得到新的预设调度策略,所述新的预设调度策略包括新的采集时段和/或新的采集频率。
33、第三方面,提供了一种电子设备,该电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
34、存储器,用于存放计算机程序;
35、处理器,用于执行存储器上所存放的程序时,实现上述第一方面中任一所述的方法步骤。
36、第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一所述的方法步骤。
37、本申请提出一种调度策略的调整方法,该方法能够智能的调节预设调度策略,可以预测被采集者什么时候有新数据产生,在产生新数据的时候去采集,提高采集的有效性,降低采集蜘蛛采集数据的频率,从而减少采集蜘蛛采集数据的成本损耗。采集效率的提高和对资源的利用率提高,从而降低耗电量。该方法还提高了资源的利用率,同一台采集设备可以部署更多的采集蜘蛛。智能化调节预设调度策略,大幅提升调度的有效性,能够做到尽可能的不影响被采集者。
本文档来自技高网...【技术保护点】
1.一种调度策略的调整方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,根据预设调节规则,对所述调度策略进行调节,得到新的预设调度策略,包括:
3.如权利要求2所述的方法,其特征在于,根据预设调节规则,对所述调度策略进行调节,得到新的预设调度策略,包括:
4.如权利要求1所述的方法,其特征在于,若所述策略分值小于所述预设分值,则根据预设调节规则,对所述预设调度策略进行调节,得到新的预设调度策略之后,所述方法还包括:
5.如权利要求1所述的方法,其特征在于,所述预设调度策略还包括预设频次。
6.如权利要求3所述的方法,其特征在于,所述被采集者的权重的计算公式为:
7.如权利要求1所述的方法,其特征在于,根据预设调节规则,对所述预设调度策略进行调节,得到新的预设调度策略,包括:
8.一种调度策略的调整系统,其特征在于,所述系统包括:
9.一种电子设备,其特征在于,所述电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。
...【技术特征摘要】
1.一种调度策略的调整方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,根据预设调节规则,对所述调度策略进行调节,得到新的预设调度策略,包括:
3.如权利要求2所述的方法,其特征在于,根据预设调节规则,对所述调度策略进行调节,得到新的预设调度策略,包括:
4.如权利要求1所述的方法,其特征在于,若所述策略分值小于所述预设分值,则根据预设调节规则,对所述预设调度策略进行调节,得到新的预设调度策略之后,所述方法还包括:
5.如权利要求1所述的方法,其特征在于,所述预设调度策略还包括预设频次。
6.如...
【专利技术属性】
技术研发人员:许铁峰,费慧慧,蒋聪,
申请(专利权)人:杭州筑龙信息技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。