广告落地页的检测方法、装置、电子设备及存储介质制造方法及图纸

技术编号:31078858 阅读:10 留言:0更新日期:2021-12-01 11:35
本公开关于一种广告落地页的检测方法,该方法包括:获取广告落地页的网页地址;基于所述网页地址,对所述广告落地页执行模拟用户访问操作;所述模拟用户访问操作为模拟用户账户按照所述网页地址访问所述广告落地页的操作;提取所述广告落地页在响应于所述模拟用户访问操作后对应的当前网页内容;对所述当前网页内容进行检测,输出针对所述广告落地页的作弊检测结果。采用本方法能够准确地检测出作弊广告。告。告。

【技术实现步骤摘要】
广告落地页的检测方法、装置、电子设备及存储介质


[0001]本公开涉及互联网
,尤其涉及一种广告落地页的检测方法、装置、电子设备及存储介质。

技术介绍

[0002]互联网广告,是指通过网站、网页、互联网应用程序等互联网媒介,直接或者间接地推销商品或者服务的商业广告。互联网广告与传统的四大传播媒体广告及备受垂青的户外广告相比,互联网广告具有得天独厚的优势,是实施现代营销媒体战略的重要一部分。
[0003]现有技术中,广告平台往往会对广告商的待投放广告进行审核以保障待投放广告中不存在对用户和广告平台有损或不合法的内容;然而,部分广告商往往会通过JS加载的方式或在检测到用户与网页发生交互时再进行广告页面的跳转或渲染,使得只有在用户访问该广告才会将广告商故意隐藏的网页内容呈现给用户,进而绕过广告平台一开始对广告商的待投放广告进行审核,以实现广告作弊。
[0004]因此,现有技术中存在不能准确地检测出作弊广告的问题。

技术实现思路

[0005]本公开提供一种广告落地页的检测方法、装置、电子设备及存储介质,以至少解决相关技术中不能准确地检测出作弊广告的问题。本公开的技术方案如下:
[0006]根据本公开实施例的第一方面,提供一种广告落地页的检测方法,包括:
[0007]获取广告落地页的网页地址;
[0008]基于所述网页地址,对所述广告落地页执行模拟用户访问操作;所述模拟用户访问操作为模拟用户账户按照所述网页地址访问所述广告落地页的操作;
[0009]提取所述广告落地页在响应于所述模拟用户访问操作后对应的当前网页内容;
[0010]对所述当前网页内容进行检测,输出针对所述广告落地页的作弊检测结果。
[0011]在一种可能实现方式中,所述对所述当前网页内容进行检测,输出针对所述广告落地页的作弊检测结果,包括:
[0012]获取所述广告落地页的原始网页内容;所述原始网页内容为对所述广告落地页进行上线审核通过后获得的;
[0013]根据所述原始网页内容和所述当前网页内容,输出针对所述广告落地页的作弊检测结果。
[0014]在一种可能实现方式中,所述根据所述原始网页内容和所述当前网页内容,输出针对所述广告落地页的作弊检测结果,包括:
[0015]抽取所述当前网页内容的当前可视化元素;
[0016]比较所述原始网页内容的原始可视化元素与所述当前可视化元素之间的差异,生成针对所述广告落地页的作弊检测结果。
[0017]在一种可能实现方式中,所述当前网页内容为当前网页源代码,所述抽取所述当
前网页内容的当前可视化元素,包括:
[0018]解析所述当前网页源代码,生成以树结构储存数据内容的结构化网页数据;所述结构化网页数据包括所述广告落地页各个元素在所述树结构中的结构化信息;
[0019]根据各个所述元素在所述树结构中的结构化信息,在各个所述元素中确定所述当前可视化元素。
[0020]在一种可能实现方式中,所述可视化元素为网页文本,所述比较所述原始网页内容的原始可视化元素与所述当前可视化元素之间的差异,生成针对所述广告落地页的作弊检测结果,包括:
[0021]获取原始可视化元素与所述当前可视化元素之间的文本编辑距离;
[0022]基于所述文本编辑距离,确定所述原始可视化元素与所述当前可视化元素之间的文本变动率;
[0023]当所述文本变动率大于预设的变动率阈值时,判定所述广告落地页为作弊广告。
[0024]在一种可能实现方式中,所述根据所述原始网页内容和所述当前网页内容,输出针对所述广告落地页的作弊检测结果,包括:
[0025]获取所述原始网页内容的原始网页截图,以及,获取所述当前网页内容的当前网页截图;
[0026]根据所述原始网页截图与所述当前网页截图之间的图片相似度,生成针对所述广告落地页的作弊检测结果。
[0027]在一种可能实现方式中,所述根据所述原始网页截图与所述当前网页截图之间的图片相似度,生成针对所述广告落地页的作弊检测结果,包括:
[0028]通过预训练的图像特征提取网络,提取所述原始网页截图的第一图片特征,以及,提取所述当前网页截图的第二图片特征;
[0029]确定所述第一图片特征与所述第二图片特征之间的特征相似度,作为所述图片相似度;
[0030]当所述图片相似度小于预设的相似度阈值时,判定所述广告落地页为作弊广告。
[0031]在一种可能实现方式中,所述基于所述网页地址,对所述广告落地页执行模拟用户访问操作,包括:
[0032]获取预设的动态IP代理池;
[0033]采用所述动态IP代理池中的代理IP,发送网页访问请求至与所述网页地址对应的服务器,以触发所述服务器返回所述广告落地页的网页资源;
[0034]对所述网页资源进行渲染,生成渲染后广告网页,以模拟所述用户账户访问所述广告落地页。
[0035]在一种可能实现方式中,在所述对所述网页资源进行渲染,生成渲染后广告网页的步骤之后,还包括:
[0036]对所述渲染后广告网页执行模拟用户互动操作;所述模拟用户互动操作为模拟所述用户账户实施于所述渲染后广告网页的互动操作。
[0037]在一种可能实现方式中,所述对所述当前网页内容进行检测,输出针对所述广告落地页的作弊检测结果,包括:
[0038]根据所述当前网页内容,提取所述广告落地页的主页面链接;所述主页面链接包
括站外链接;
[0039]确定所述站外链接的链接数量与所述主页面链接的链接数量之间的比值,作为所述广告落地页的外链占比;
[0040]根据所述广告落地页的外链占比,判定所述广告落地页为作弊广告。
[0041]在一种可能实现方式中,所述对所述当前网页内容进行检测,输出针对所述广告落地页的作弊检测结果,包括:
[0042]提取所述当前网页内容的网页文本;所述网页文本包括至少一个关键词;
[0043]当至少一个所述关键词与预设的异常关键词匹配时,判定所述广告落地页为作弊广告。
[0044]根据本公开实施例的第二方面,提供一种广告落地页的检测装置,包括:
[0045]获取单元,被配置为执行获取广告落地页的网页地址;
[0046]模拟单元,被配置为执行基于所述网页地址,对所述广告落地页执行模拟用户访问操作;所述模拟用户访问操作为模拟用户账户按照所述网页地址访问所述广告落地页的操作;
[0047]提取单元,被配置为执行提取所述广告落地页在响应于所述模拟用户访问操作后对应的当前网页内容;
[0048]检测单元,被配置为执行对所述当前网页内容进行检测,输出针对所述广告落地页的作弊检测结果。
[0049]在一种可能实现方式中,所述检测单元,具体被配置为执行获取所述广告落地页的原始网页内容;所述原始网页内容为对所述广告落地页进行上线审核通过后获得的;根据所述原始网页内本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种广告落地页的检测方法,其特征在于,包括:获取广告落地页的网页地址;基于所述网页地址,对所述广告落地页执行模拟用户访问操作;所述模拟用户访问操作为模拟用户账户按照所述网页地址访问所述广告落地页的操作;提取所述广告落地页在响应于所述模拟用户访问操作后对应的当前网页内容;对所述当前网页内容进行检测,输出针对所述广告落地页的作弊检测结果。2.根据权利要求1所述的广告落地页的检测方法,其特征在于,所述对所述当前网页内容进行检测,输出针对所述广告落地页的作弊检测结果,包括:获取所述广告落地页的原始网页内容;所述原始网页内容为对所述广告落地页进行上线审核通过后获得的;根据所述原始网页内容和所述当前网页内容,输出针对所述广告落地页的作弊检测结果。3.根据权利要求2所述的广告落地页的检测方法,其特征在于,所述根据所述原始网页内容和所述当前网页内容,输出针对所述广告落地页的作弊检测结果,包括:抽取所述当前网页内容的当前可视化元素;比较所述原始网页内容的原始可视化元素与所述当前可视化元素之间的差异,生成针对所述广告落地页的作弊检测结果。4.根据权利要求3所述的广告落地页的检测方法,其特征在于,所述当前网页内容为当前网页源代码,所述抽取所述当前网页内容的当前可视化元素,包括:解析所述当前网页源代码,生成以树结构储存数据内容的结构化网页数据;所述结构化网页数据包括所述广告落地页各个元素在所述树结构中的结构化信息;根据各个所述元素在所述树结构中的结构化信息,在各个所述元素中确定所述当前可视化元素。5.根据权利要求2所述的广告落地页的检测方法,其特征在于,所述根据所述原始网页内容和所述当前网页内容,输出针对所述广告落地页的作弊检测结果,包括:获取所述原始网页内容的原始网页截图,以及,获取所述当前网...

【专利技术属性】
技术研发人员:秦烁高小平何攀
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1