包含广告过滤的网络爬虫系统及方法技术方案

技术编号:40560410 阅读:23 留言:0更新日期:2024-03-05 19:22
本申请公开了一种包含广告过滤的网络爬虫系统及方法。该系统中:调度器依据待爬取目标向多个爬取器分发爬取任务;每个爬取器执行对应的爬取任务,将爬取结果发送至内容解析器;内容解析器确定各个爬取结果中无需再次爬取的第一爬取结果和需再次爬取的第二爬取结果,解析第一爬取结果得到第一爬取内容,将第二爬取结果发送至静态规则过滤引擎;静态规则过滤引擎过滤第二爬取结果得到第三爬取结果,将该结果发送至机器学习过滤引擎;机器学习过滤引擎过滤第三爬取结果得到第二待爬取目标,将该目标反馈至调度器;结果处理器输出第一爬取内容。本申请解决了现有网页爬虫引擎爬取大量广告内容会同时给爬取方和内容供应方产生较大资源压力的技术问题。

【技术实现步骤摘要】

本申请涉及网络爬虫,具体而言,涉及一种包含广告过滤的网络爬虫系统及方法


技术介绍

1、随着互联网的快速发展,互联网广告已经成为了互联网内容在线供应商的主要收入来源之一,这意味着目前互联网的在线内容中充斥着大量的广告。但对于爬虫引擎而言,广告内容属于不应该被爬取的内容,爬取广告内容既对爬虫所有方爬取目标内容没有价值,也无法产生真实的营销效果,还会对广告主产生额外的开销,同时还会对在线供应商产生额外的运营成本。

2、目前对于上述问题,爬虫方通常会使用额外的存储空间存储广告内容,并且在爬取后进行数据清洗等工作进行广告识别和过滤,但该方式存在一定弊端:存储广告内容需要大量的存储空间,进而会对广告识别和过滤的准确性产生影响,同时数据清洗等操作会消耗大量的计算资源和时间成本,从而造成存储资源和计算资源的浪费。

3、针对上述的问题,目前尚未提出有效的解决方案。


技术实现思路

1、本申请实施例提供了一种包含广告过滤的网络爬虫系统及方法,以至少解决现有网页爬虫引擎爬取大量广告内容会同时给爬取方和内容供本文档来自技高网...

【技术保护点】

1.一种包含广告过滤的网络爬虫系统,其特征在于,包括:调度器、多个爬取器、内容解析器、结果处理器、静态规则过滤引擎和机器学习过滤引擎,其中,

2.根据权利要求1所述的系统,其特征在于,所述静态规则过滤引擎中包括:过滤规则管理模块和第一广告过滤模块,其中,

3.根据权利要求1所述的系统,其特征在于,所述机器学习过滤引擎中包括:数据管理模块、机器学习模块和第二广告过滤模块,其中,

4.根据权利要求1所述的系统,其特征在于,所述调度器中包括:爬取目标管理模块,其中,

5.根据权利要求4所述的系统,其特征在于,所述调度器中还包括:爬取器管理模块、任...

【技术特征摘要】

1.一种包含广告过滤的网络爬虫系统,其特征在于,包括:调度器、多个爬取器、内容解析器、结果处理器、静态规则过滤引擎和机器学习过滤引擎,其中,

2.根据权利要求1所述的系统,其特征在于,所述静态规则过滤引擎中包括:过滤规则管理模块和第一广告过滤模块,其中,

3.根据权利要求1所述的系统,其特征在于,所述机器学习过滤引擎中包括:数据管理模块、机器学习模块和第二广告过滤模块,其中,

4.根据权利要求1所述的系统,其特征在于,所述调度器中包括:爬取目标管理模块,其中,

5.根据权利要求4所述的系统,其特征在于,所述调度器中还包括:爬取器管理模块、任务分发模块和结果感知模块,其中...

【专利技术属性】
技术研发人员:代华宇阮宜龙张云龙
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1