System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 包含广告过滤的网络爬虫系统及方法技术方案_技高网

包含广告过滤的网络爬虫系统及方法技术方案

技术编号:40560410 阅读:6 留言:0更新日期:2024-03-05 19:22
本申请公开了一种包含广告过滤的网络爬虫系统及方法。该系统中:调度器依据待爬取目标向多个爬取器分发爬取任务;每个爬取器执行对应的爬取任务,将爬取结果发送至内容解析器;内容解析器确定各个爬取结果中无需再次爬取的第一爬取结果和需再次爬取的第二爬取结果,解析第一爬取结果得到第一爬取内容,将第二爬取结果发送至静态规则过滤引擎;静态规则过滤引擎过滤第二爬取结果得到第三爬取结果,将该结果发送至机器学习过滤引擎;机器学习过滤引擎过滤第三爬取结果得到第二待爬取目标,将该目标反馈至调度器;结果处理器输出第一爬取内容。本申请解决了现有网页爬虫引擎爬取大量广告内容会同时给爬取方和内容供应方产生较大资源压力的技术问题。

【技术实现步骤摘要】

本申请涉及网络爬虫,具体而言,涉及一种包含广告过滤的网络爬虫系统及方法


技术介绍

1、随着互联网的快速发展,互联网广告已经成为了互联网内容在线供应商的主要收入来源之一,这意味着目前互联网的在线内容中充斥着大量的广告。但对于爬虫引擎而言,广告内容属于不应该被爬取的内容,爬取广告内容既对爬虫所有方爬取目标内容没有价值,也无法产生真实的营销效果,还会对广告主产生额外的开销,同时还会对在线供应商产生额外的运营成本。

2、目前对于上述问题,爬虫方通常会使用额外的存储空间存储广告内容,并且在爬取后进行数据清洗等工作进行广告识别和过滤,但该方式存在一定弊端:存储广告内容需要大量的存储空间,进而会对广告识别和过滤的准确性产生影响,同时数据清洗等操作会消耗大量的计算资源和时间成本,从而造成存储资源和计算资源的浪费。

3、针对上述的问题,目前尚未提出有效的解决方案。


技术实现思路

1、本申请实施例提供了一种包含广告过滤的网络爬虫系统及方法,以至少解决现有网页爬虫引擎爬取大量广告内容会同时给爬取方和内容供应方产生较大资源压力的技术问题。

2、根据本申请实施例的一个方面,提供了一种包含广告过滤的网络爬虫方法,包括:调度器、多个爬取器、内容解析器、结果处理器、静态规则过滤引擎和机器学习过滤引擎,其中,调度器,用于依据待爬取目标向多个爬取器分发爬取任务,其中,待爬取目标包括:目标对象设置的第一待爬取目标和机器学习过滤引擎反馈的第二待爬取目标;每个爬取器,用于执行被分发的爬取任务,并将爬取结果发送至内容解析器;内容解析器,用于确定各个爬取器发送的爬取结果中无需再次爬取的第一爬取结果和需再次爬取的第二爬取结果,解析第一爬取结果对应的第一爬取内容,并将第二爬取结果发送至静态规则过滤引擎;静态规则过滤引擎,用于依据预设的广告过滤规则对第二爬取结果进行过滤,得到第三爬取结果,将第三爬取结果发送至机器学习过滤引擎;机器学习过滤引擎,用于依据预训练的广告过滤模型对第三爬取结果进行过滤,得到第二待爬取目标,将第二待爬取目标反馈至调度器;结果处理器,用于输出第一爬取内容。

3、可选地,静态规则过滤引擎中包括:过滤规则管理模块和第一广告过滤模块,其中,过滤规则管理模块,用于周期性从目标社区获取开源的广告过滤规则,并存储广告过滤规则;第一广告过滤模块,用于依据过滤规则管理模块中存储的广告过滤规则对第二爬取结果进行过滤,得到第三爬取结果,将第三爬取结果发送至机器学习过滤引擎。

4、可选地,机器学习过滤引擎中包括:数据管理模块、机器学习模块和第二广告过滤模块,其中,数据管理模块,用于存储已标注的训练样本集合,其中,训练样本集合中包括:初始训练样本和逐步添加至训练样本集合中的新训练样本,训练样本的类型包括:广告内容和非广告内容;机器学习模块,用于依据初始训练样本训练得到广告过滤模型,并周期性依据训练样本集合中的所有训练样本重新对广告过滤模型进行训练,更新广告过滤模型的模型参数;第二广告过滤模块,用于依据广告过滤模型对第三爬取结果进行识别,若第三爬取结果为广告内容,过滤第三爬取结果,若第三爬取结果为非广告内容,将第三爬取结果作为第二待爬取目标反馈至调度器;将第三爬取结果作为新训练样本添加至训练样本集合,并将识别结果作为标注信息。

5、可选地,调度器中包括:爬取目标管理模块,其中,爬取目标管理模块,用于依据远程字典服务管理各个待爬取目标,并确定待爬取目标对应的爬取任务,其中,爬取任务中至少包括:统一资源定位符。

6、可选地,调度器中还包括:爬取器管理模块、任务分发模块和结果感知模块,其中,爬取器管理模块,用于周期性对多个爬取器进行探活感知,并在发现异常爬取器时,禁止向异常爬取器分发爬取任务;任务分发模块,用于依据令牌桶算法向多个爬取器分发爬取任务;结果感知模块,用于依据消息队列的方式获取各个爬取器的爬取结果。

7、可选地,每个爬取器,用于依据selenium自动化测试工具模拟浏览器行为,执行被分发的爬取任务,并将爬取结果发送至内容解析器。

8、可选地,内容解析器中包括:第一解析模块和第二解析模块,其中,第一解析模块,用于依据文档对象模型树状解析器对各个爬取器发送的爬取结果进行分类,得到第一爬取结果和第二爬取结果,并将第二爬取结果发送至静态规则过滤引擎;第二解析模块,用于依据可扩展标记语言路径语法解析第一爬取结果,得到第一爬取内容。

9、根据本申请实施例的另一方面,还提供了一种包含广告过滤的网络爬虫方法,包括:依据待爬取目标向多个爬取器分发爬取任务,其中,待爬取目标包括:目标对象设置的第一待爬取目标和机器学习过滤引擎反馈的第二待爬取目标;调用多个爬取器执行爬取任务,得到爬取结果;调用内容解析器确定各个爬取器的爬取结果中无需再次爬取的第一爬取结果和需再次爬取的第二爬取结果,解析第一爬取结果对应的第一爬取内容;调用静态规则过滤引擎依据预设的广告过滤规则对第二爬取结果进行过滤,得到第三爬取结果;调用机器学习过滤引擎依据预训练的广告过滤模型对第三爬取结果进行过滤,得到第二待爬取目标;调用结果处理器输出第一爬取内容。

10、根据本申请实施例的另一方面,还提供了一种非易失性存储介质,该非易失性存储介质包括存储的计算机程序,其中,非易失性存储介质所在设备通过运行该计算机程序执行上述的包含广告过滤的网络爬虫方法。

11、根据本申请实施例的另一方面,还提供了一种电子设备,该电子设备包括:存储器和处理器,其中,存储器中存储有计算机程序,处理器被配置为通过计算机程序执行上述的包含广告过滤的网络爬虫方法。

12、在本申请实施例中,调度器依据待爬取目标向多个爬取器分发爬取任务,其中,待爬取目标包括:目标对象设置的第一待爬取目标和机器学习过滤引擎反馈的第二待爬取目标;每个爬取器执行被分发的爬取任务,并将爬取结果发送至内容解析器;内容解析器确定各个爬取器发送的爬取结果中无需再次爬取的第一爬取结果和需再次爬取的第二爬取结果,解析第一爬取结果对应的第一爬取内容,并将第二爬取结果发送至静态规则过滤引擎;静态规则过滤引擎依据预设的广告过滤规则对第二爬取结果进行过滤,得到第三爬取结果,将第三爬取结果发送至机器学习过滤引擎;机器学习过滤引擎依据预训练的广告过滤模型对第三爬取结果进行过滤,得到第二待爬取目标,将第二待爬取目标反馈至调度器;结果处理器输出第一爬取内容。其中,通过静态过滤规则引擎中的广告过滤规则和机器学习过滤引擎中的广告过滤模型,实现对广告内容的双重过滤,进而在爬虫引擎进行爬取时可以绕过广告内容,只对非广告内容进行爬取,有效解决了现有网页爬虫引擎爬取大量广告内容会同时给爬取方和内容供应方产生较大资源压力的技术问题。

本文档来自技高网...

【技术保护点】

1.一种包含广告过滤的网络爬虫系统,其特征在于,包括:调度器、多个爬取器、内容解析器、结果处理器、静态规则过滤引擎和机器学习过滤引擎,其中,

2.根据权利要求1所述的系统,其特征在于,所述静态规则过滤引擎中包括:过滤规则管理模块和第一广告过滤模块,其中,

3.根据权利要求1所述的系统,其特征在于,所述机器学习过滤引擎中包括:数据管理模块、机器学习模块和第二广告过滤模块,其中,

4.根据权利要求1所述的系统,其特征在于,所述调度器中包括:爬取目标管理模块,其中,

5.根据权利要求4所述的系统,其特征在于,所述调度器中还包括:爬取器管理模块、任务分发模块和结果感知模块,其中,

6.根据权利要求1所述的系统,其特征在于,

7.根据权利要求1所述的系统,其特征在于,所述内容解析器中包括:第一解析模块和第二解析模块,其中,

8.一种包含广告过滤的网络爬虫方法,其特征在于,包括:

9.一种非易失性存储介质,其特征在于,所述非易失性存储介质包括存储的计算机程序,其中,所述非易失性存储介质所在设备通过运行所述计算机程序执行权利要求8所述的包含广告过滤的网络爬虫方法。

10.一种电子设备,其特征在于,包括:存储器和处理器,其中,所述存储器中存储有计算机程序,所述处理器被配置为通过所述计算机程序执行权利要求8所述的包含广告过滤的网络爬虫方法。

...

【技术特征摘要】

1.一种包含广告过滤的网络爬虫系统,其特征在于,包括:调度器、多个爬取器、内容解析器、结果处理器、静态规则过滤引擎和机器学习过滤引擎,其中,

2.根据权利要求1所述的系统,其特征在于,所述静态规则过滤引擎中包括:过滤规则管理模块和第一广告过滤模块,其中,

3.根据权利要求1所述的系统,其特征在于,所述机器学习过滤引擎中包括:数据管理模块、机器学习模块和第二广告过滤模块,其中,

4.根据权利要求1所述的系统,其特征在于,所述调度器中包括:爬取目标管理模块,其中,

5.根据权利要求4所述的系统,其特征在于,所述调度器中还包括:爬取器管理模块、任务分发模块和结果感知模块,其中...

【专利技术属性】
技术研发人员:代华宇阮宜龙张云龙
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1