一种多设备网页中内嵌广告获取以及恶意性识别的方法技术

技术编号:34488108 阅读:32 留言:0更新日期:2022-08-10 09:06
本发明专利技术涉及一种多设备网页中内嵌广告获取以及恶意性识别的方法,其解决了现有技术对跨平台及跨浏览器广告识别及恶意性标注方法较少,且不够完善,不够系统的技术问题,其步骤包括:从浏览器HTML文本中对资源记录进行捕捉,根据广告判定规则,使用正则表达式方式筛选出广告资源,并分别对广告资源中的图片资源和跳转链接资源进行解析;对解析结果按不同维度进行分类,具体包括:煽动特征分类过程和广告内容分类过程;对各维度分类结果,按维度重要程度进行加权赋值,标注广告的恶意性程度,进行风险评估。本发明专利技术可广泛应用于对违法违规广告的监测识别。广告的监测识别。广告的监测识别。

【技术实现步骤摘要】
一种多设备网页中内嵌广告获取以及恶意性识别的方法


[0001]本专利技术涉及网络
,特别是涉及在不同平台(主要指电脑端和移动端)的不同厂商浏览器广告进行爬取,并从多个维度对广告风险进行标注,进而实现广告的风险分类的方法。

技术介绍

[0002]近年来,随着互联网技术的发展,网络广告已经成为广告市场的重要组成部分。浏览器作为互联网广告投放的重要途径,有着覆盖面广、传播快等多个优点,针对浏览器的广告识别和恶意性风险评估尤为重要。精准把控网络广告,尤其是及时发现恶意广告,可以为国家网络空间治理提供一定的参考依据,具有实际的研究价值。
[0003]目前,许多网站的广告投放存在偏好性,具体表现为在使用其指定浏览器时,才会弹出广告资源,尤其是存在恶意性的资源。同时,浏览器的广告投放策略有时也会对用户标识存在差异,如多数色情和赌博APP的广告推荐都在移动端出现,而PC端则不弹出。因此,亟需设计一种获取多设备网页中内嵌广告以及恶意性识别的通用方法。

技术实现思路

[0004]本专利技术为了解决现有技术对跨平台及跨浏览器广告识别及恶本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种多设备网页中内嵌广告获取以及恶意性识别的方法,其特征是,其步骤包括:步骤一:从浏览器HTML文本中对资源记录进行捕捉,根据广告判定规则,使用正则表达式方式筛选出广告资源,并分别对广告资源中的图片资源和跳转链接资源进行解析;步骤二:对解析结果按不同维度进行分类,具体包括:煽动特征分类过程和广告内容分类过程;步骤三:对步骤二各维度分类结果,按维度重要程度进行加权赋值,标注广告的恶意性程度,进行风险评估。2.根据权利要求1所述多设备网页中内嵌广告获取以及恶意性识别的方法,其特征在于,所述步骤一具体步骤包括:步骤1:对多通道信源爬取过程;步骤2:广告识别过程;步骤3:广告文本提取过程;步骤4:网页内容获取过程;步骤5:格式预处理过程。3.根据权利要求2所述多设备网页中内嵌广告获取以及恶意性识别的方法,其特征在于,所述步骤1具体步骤包括:步骤11,从目标资源库导入信源,对信源进行清洗去重等操作,得到处理后的信源集S
source
;步骤12,从浏览器特征库导入特征集,对平台特征与浏览器标识进行笛卡尔积组合,得到特征集S
feature
,并将特征集S
feature
与S
source
进行笛卡尔积组合构造爬取消息包集合S
message
;步骤13,对S
message
中任一消息包message,从爬取策略库导入对应爬取规则R
message
,设置等待时间T
wait
,向目标信源发起资源请求;步骤14,判定资源请求是否得到结果,若收到响应报文,转到步骤5,否则延时T
wait
后转至步骤13;步骤15,解析资源请求得到的响应报文,根据关键字提取整合为资源集合S
resource
。4.根据权利要求3所述多设备网页中内嵌广告获取以及恶意性识别的方法,其特征在于,所述步骤2具体步骤包括:步骤21,从判定规则库导入判定规则R
detect
;步骤22,取S
resource
中待判定资源resource进入广告识别模块;步骤23,对资源resource,使用判定规则集R
detect
进行正则匹配,若任一规则与资源resource匹配成功,则认定资源resource为广告资源,跳转至步骤24;否则,取S
resource
中下一条待判定资源resource跳转步骤23;步骤24,记录资源记录resource对应的图片信息,存储至图片对象数据库DB
img
中;若资源记录存在跳转连接,转至步骤25,否则转至步骤26;步骤25,记录资源记录resource对应的跳转链接,存储至数据库DB
link
中;步骤26,若S
resource
存在待判定资源resource,取resource转至步骤23。5.根据权利要求2所述多设备网页中内嵌广告获取以及恶意性识别的方法,其特征在于,所述步骤3具体步骤包括:
步骤31,取图片对象数据库DB
img
中待提取图片对象img进入OCR文本识别模块,转到步骤32;步骤32,检测OCR识别模块是否输出识别结果,若存在结果,转至步骤33,否则延时T
detect
后转到步骤32;步骤33,对结果中文本资源进行整合、去除空白、转义字符等,保留该图片的关键特征字符串SK
img
。6.根据权利要求5所述多设备网页中内嵌广告获取以及恶意性识别的方法,其特征在于,所述步骤4具体...

【专利技术属性】
技术研发人员:张兆心门浩程亚楠梁浩宇郭长勇李超赵东
申请(专利权)人:哈尔滨工业大学威海
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1