一种基于实测带宽的多智能体互联网数据采集任务分配方法组成比例

技术编号:15704772 阅读:127 留言:0更新日期:2017-06-26 09:34
本发明专利技术公开了一种基于实测带宽的多智能体互联网数据采集任务分配方法,假定在环境中存在L个目标任务T

【技术实现步骤摘要】
一种基于实测带宽的多智能体互联网数据采集任务分配方法
本专利技术涉及数据采集领域,尤其涉及一种基于实测带宽的多智能体互联网数据采集任务分配方法。
技术介绍
为满足海量数据爬取的需求,现代爬虫系统一般采用大规模分布式架构。在这种架构中,如何高效配置多个数据采集节点的资源成为提升爬虫系统性能的关键问题。传统的分布式爬虫系统一般采用随机任务调度的机制或类似机制。这种机制的问题在于没有考虑爬取目标的地理位置差异,以及多个采集节点在采集、存储方面的带宽差异因素,更没有运用相应的带宽测试方法,因此无法做到资源的最优配置,从而影响了分布式爬虫系统的数据采集性能。
技术实现思路
本专利技术为克服上述不足之处,设计了一种基于实测带宽的任务分配方法,该方法用于将多个采集任务分配给多个采集节点,根据每个采集节点的状态信息、实测带宽情况以及待分配任务的信息,经过算法处理后得出任务分配结果。本专利技术的目的是通过以下技术方案来实现的:一种基于实测带宽的多智能体互联网数据采集任务分配方法,具体为:假定在环境中存在L个目标任务T1,T2,…,TL和K个智能体节点A1,A2,…,AK,若K>L,则执行单任务分配算本文档来自技高网...
一种基于实测带宽的多智能体互联网数据采集任务分配方法

【技术保护点】
一种基于实测带宽的多智能体互联网数据采集任务分配方法,其特征在于:假定在环境中存在L个目标任务T

【技术特征摘要】
1.一种基于实测带宽的多智能体互联网数据采集任务分配方法,其特征在于:假定在环境中存在L个目标任务T1,T2,…,TL和K个智能体节点A1,A2,…,AK,若K>L,则执行单任务分配算法;否则执行多任务分配算法;所述的单任务分配算法步骤如下:(1)针对每个智能体节点Ai与任务Tj,计算区域判决指标cij=(任务数+1)/(BC+BS),找出区域判决指标计算结果最小的节点。BC表示任务的目标区域与智能体所在区域的匹配度,计算方法如下:由智能体在建立种子信息表时先行从该种子页面爬取根页面三次,通过(爬取位数)/(爬取所消耗的时间)获取爬行带宽,存入种子库中相应BC字段。BS表示存储区域与智能体所在区域的匹配度,计算方法如下:由智能体在建立种子信息表时先行将一个标准100KB文件存入存储区域三次,通过(存取位数)/(存取所消耗的时间)获取存储带宽,存入种子库中相应BS字段。(2)将待分配的任务分配给步骤(1)计算得到的节点。所述的多任务分配算法步骤如下:(1)在所有任务中每次分配K项,直到剩余任务数小于K。剩余任务可以在任务数增加后再行分配,也可以以单任务方式分配;(2)已知智能体Ai(i=1,2,…,...

【专利技术属性】
技术研发人员:沈颂
申请(专利权)人:浙江工商大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1