【技术实现步骤摘要】
本专利技术涉及网页数据采集,更具体地说,本专利技术涉及多任务协同的增量式网页数据采集方法及系统。
技术介绍
1、随着信息获取需求的不断增长,网页数据采集作为数据挖掘与知识建构的基础环节,在各类智能系统中被广泛应用。尤其是在舆情监测、商品比价、政策跟踪、内容聚合等场景下,对网页内容的快速、准确、稳定采集提出了更高要求。
2、传统网页采集方法多基于静态规则或定时全量抓取方式,难以应对网页结构频繁变化、内容更新不规律等问题。尤其是在多源网页同时处理的环境中,不同网页的结构变动频率、内容刷新周期存在明显异质性,若采用统一策略调度,容易造成资源浪费、重复抓取或采集失效。近年来,增量式网页采集方法逐渐受到关注,其核心思路是仅采集自上次采集以来发生变化的网页内容。但现有增量采集方法多以单网页为对象,缺乏任务之间的协同判断与动态调度能力,在实际部署中仍存在以下缺陷:
3、现有方案往往依赖时间间隔或内容摘要判断是否需采集,未建立基于网页结构层级与可视变化行为的系统性评估流程,导致对高频结构扰动页面响应不足。对于变化网页,常以简单的
...【技术保护点】
1.多任务协同的增量式网页数据采集方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的多任务协同的增量式网页数据采集方法,其特征在于,结构不确定度评分的计算包括以下步骤:
3.根据权利要求2所述的多任务协同的增量式网页数据采集方法,其特征在于,页面结构一致性指数的生成过程包括以下步骤:
4.根据权利要求3所述的多任务协同的增量式网页数据采集方法,其特征在于,内容更新指数的生成过程包括以下步骤:
5.根据权利要求4所述的多任务协同的增量式网页数据采集方法,其特征在于,用于生成采集调度系数的采集调度预测模型通过监督学习
...【技术特征摘要】
1.多任务协同的增量式网页数据采集方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的多任务协同的增量式网页数据采集方法,其特征在于,结构不确定度评分的计算包括以下步骤:
3.根据权利要求2所述的多任务协同的增量式网页数据采集方法,其特征在于,页面结构一致性指数的生成过程包括以下步骤:
4.根据权利要求3所述的多任务协同的增量式网页数据采集方法,其特征在于,内容更新指数的生成过程包括以下步骤:
5.根据权利要求4所述的多任务协同的增量式网页数据采集方法,其特征在于,用于生成采集调度系数的采集调度预测模型通过监督学习方式预训练完成,训练样本包括历史采集任务中页面结构一致性指数、内容更新指数、实际采集成功率、调度延迟时间与资源使用率;训练过程中,模型目标为最小化调度错误率、调度延迟时间、资源浪费率的综合损失函数;最终模型采用集成回归算法构建,输出的采集调度系...
【专利技术属性】
技术研发人员:蒋绍君,
申请(专利权)人:深圳九星互动科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。