【技术实现步骤摘要】
本申请涉及网络爬虫,具体而言,涉及一种包含广告过滤的网络爬虫系统及方法。
技术介绍
1、随着互联网的快速发展,互联网广告已经成为了互联网内容在线供应商的主要收入来源之一,这意味着目前互联网的在线内容中充斥着大量的广告。但对于爬虫引擎而言,广告内容属于不应该被爬取的内容,爬取广告内容既对爬虫所有方爬取目标内容没有价值,也无法产生真实的营销效果,还会对广告主产生额外的开销,同时还会对在线供应商产生额外的运营成本。
2、目前对于上述问题,爬虫方通常会使用额外的存储空间存储广告内容,并且在爬取后进行数据清洗等工作进行广告识别和过滤,但该方式存在一定弊端:存储广告内容需要大量的存储空间,进而会对广告识别和过滤的准确性产生影响,同时数据清洗等操作会消耗大量的计算资源和时间成本,从而造成存储资源和计算资源的浪费。
3、针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
1、本申请实施例提供了一种包含广告过滤的网络爬虫系统及方法,以至少解决现有网页爬虫引擎爬取大量广告内容会
...【技术保护点】
1.一种包含广告过滤的网络爬虫系统,其特征在于,包括:调度器、多个爬取器、内容解析器、结果处理器、静态规则过滤引擎和机器学习过滤引擎,其中,
2.根据权利要求1所述的系统,其特征在于,所述静态规则过滤引擎中包括:过滤规则管理模块和第一广告过滤模块,其中,
3.根据权利要求1所述的系统,其特征在于,所述机器学习过滤引擎中包括:数据管理模块、机器学习模块和第二广告过滤模块,其中,
4.根据权利要求1所述的系统,其特征在于,所述调度器中包括:爬取目标管理模块,其中,
5.根据权利要求4所述的系统,其特征在于,所述调度器中还包括
...【技术特征摘要】
1.一种包含广告过滤的网络爬虫系统,其特征在于,包括:调度器、多个爬取器、内容解析器、结果处理器、静态规则过滤引擎和机器学习过滤引擎,其中,
2.根据权利要求1所述的系统,其特征在于,所述静态规则过滤引擎中包括:过滤规则管理模块和第一广告过滤模块,其中,
3.根据权利要求1所述的系统,其特征在于,所述机器学习过滤引擎中包括:数据管理模块、机器学习模块和第二广告过滤模块,其中,
4.根据权利要求1所述的系统,其特征在于,所述调度器中包括:爬取目标管理模块,其中,
5.根据权利要求4所述的系统,其特征在于,所述调度器中还包括:爬取器管理模块、任务分发模块和结果感知模块,其中...
【专利技术属性】
技术研发人员:代华宇,阮宜龙,张云龙,
申请(专利权)人:中国电信股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。