广告异常流量检测方法、系统、电子设备及可读存储介质技术方案

技术编号:32284599 阅读:18 留言:0更新日期:2022-02-12 19:52
本发明专利技术公开了一种广告异常流量检测方法、系统、电子设备及可读存储介质,上述方法包括:利用历史流量数据采用VAE模型构建并训练数据重构模型;将历史流量数据输入至数据重构模型获得第一重构数据,计算历史流量数据与第一重构数据之间的误差值获得第一重构误差;通过对第一重构误差进行聚类将历史流量数据分为正常流量与异常流量,根据正常流量对应的第一重构误差确定第一阈值,根据全部历史流量数据对应的第一重构误差确定第二阈值;利用数据重构模型根据第一阈值与第二阈值对待检测流量数据进行异常检测。通过本发明专利技术克服了原数据集无标签与不平衡分布为有监督学习带来的缺点。标签与不平衡分布为有监督学习带来的缺点。标签与不平衡分布为有监督学习带来的缺点。

【技术实现步骤摘要】
广告异常流量检测方法、系统、电子设备及可读存储介质


[0001]本专利技术涉及计算机
,尤其涉及一种基于变分自动编码器的广告异常流量检测方法、系统、电子设备及可读存储介质。

技术介绍

[0002]近年来,随着互联网广告的高速发展,将品牌与产品与消费者紧密相连的互联网广告形式越来越收到广告主的青睐,而如何预防互联网的广告欺诈行为也成为了广告主关心的头等大事。因为广告流量在一定程度上反映出广告投放的效率和效果,在互联网世界具有至关重要的价值,广告黑产为了非法获利,开始通过各种技术操作绕过各种资源限制、提高访问频率,通过脚本、模拟器、群控、借助域名和App变造及众包流量等做法制造大量无效流量,广告流量欺诈行为日益严重。随着广告欺诈技术的不断迭代更新,层出不穷的广告欺诈形式也为广告主带来了更大的防范压力,准确地识别流量的有效性已然成为广告营销行业的巨大挑战。同时,近几年人工智能技术与数据监测存储技术等迅猛发展,在自然语言处理、语音识别、计算机视觉、目标检测等领域被广泛研究与应用。因此,人工智能技术也开始被广告营销行业人员应用到广告流量异常检测中来,基于人工智能技术的广告流量异常检测逐渐收到研究人员的关注与研究热点。
[0003]现有技术中通常有监督学习模型解决上述问题,现有基于人工智能技术的广告流量异常检测方法的主要流程为:数据采集、特征工程、基于机器学习算法的预测。目前多种机器学习算法,例如例如人工神经网络(ANN)、支持向量机(SVM)、随机森林(RF)、极端梯度提升(XGBoost)、深度学习模型(DL)等,被应用于广告流量异常检测中来。
[0004]现有技术至少存在以下缺陷,因为这些模型均为有监督学习模型,为了获得高精度的检测结果,这些有监督学习模型往往需要数量充足有类别标签且类别平衡分布的流量数据样本进行训练,然而这在实际的广告行业中是很难得到满足的。在实际广告流量监测中,尽管每天有海量的流量数据产生,然而能用于机器学习模型训练的数据非常有限,取而代之的是,大多数流量数据为无类别标签数据。同时,异常流量与正常流量数据的数量分布也是极度不平衡的,即异常流量样本的数量远远少于正常流量样本的数量。不足的有标记数据与不平衡的数据分布均为基于人工智能技术的广告流量异常检测方法带了挑战。

技术实现思路

[0005]本专利技术针对上述的广告异常流量检测模型缺乏充足的具有类别标签的训练样本的技术问题,提出一种基于变分自动编码器的广告异常流量检测方法、系统、电子设备及可读存储介质。
[0006]第一方面,本申请实施例提供了一种基于变分自动编码器的广告异常流量检测方法,包括:
[0007]模型构建步骤;利用历史流量数据采用VAE模型构建并训练数据重构模型;
[0008]第一重构误差获得步骤:将所述历史流量数据输入至所述数据重构模型获得第一
重构数据,计算所述历史流量数据与所述第一重构数据之间的误差值获得第一重构误差;
[0009]阈值确定步骤:通过对所述第一重构误差进行聚类将所述历史流量数据分为正常流量与异常流量,根据正常流量对应的第一重构误差确定第一阈值,根据全部历史流量数据对应的第一重构误差确定第二阈值;
[0010]数据检测步骤:利用所述数据重构模型根据所述第一阈值与所述第二阈值对待检测流量数据进行异常检测。
[0011]上述广告异常流量检测方法,其中,所述数据检测步骤包括:
[0012]第二重构误差获得步骤:将所述待检测流量数据输入至所述数据重构模型获得第二重构数据,计算所述待检测流量数据与所述第二重构数据之间的误差值获得第二重构误差;
[0013]异常判断步骤:若所述第二重构误差小于所述第一阈值,则所述待检测流量数据为正常流量数据;若所述第二重构误差大于所述第一阈值且小于等于所述第二阈值,则所述待检测流量数据为已知的异常流量数据;若所述第二重构误差大于所述第二阈值,则所述待检测流量数据为未知的异常流量数据。
[0014]上述广告异常流量检测方法,其中,还包括:
[0015]数据预处理步骤:将所述历史流量数据与所述待检测流量数据进行清洗与预处理;
[0016]数据标准化步骤:对经过清洗与预处理后的所述历史流量数据与待检测流量数据进行特征工程,获得标准化后的所述历史流量数据与所述待检测流量数据。
[0017]上述广告异常流量检测方法,其中,所述模型构建步骤包括:将所述历史流量数据输入至所述VAE模型获得样本重构数据,根据所述样本重构数据与所述历史流量数据的MSE与KL散度构建损失函数,通过最小化所述损失函数对所述数据重构模型进行训练。
[0018]上述广告异常流量检测方法,其中,数据重构模型参数采用Adam优化算法进行训练,数据重构模型超参数采用网格搜索法进行训练。
[0019]上述广告异常流量检测方法,其中,所述阈值确定步骤包括:根据所述正常流量对应的第一重构误差的均值与标准差确定第一阈值,根据所述全部历史流量数据对应的第一重构误差的均值与标准差确定第二阈值。
[0020]第二方面,本申请实施例提供了一种基于变分自动编码器的广告异常流量检测系统,包括:
[0021]数据预处理单元:将历史流量数据与待检测流量数据进行清洗与预处理;
[0022]数据标准化单元:对经过清洗与预处理后的所述历史流量数据与待检测流量数据进行特征工程,获得标准化后的所述历史流量数据与所述待检测流量数据;
[0023]模型构建单元:利用所述历史流量数据通过VAE模型构建并训练数据重构模型;
[0024]第一重构误差获得单元:将所述历史流量数据输入至所述数据重构模型获得第一重构数据,计算所述历史流量数据与所述第一重构数据之间的误差值获得第一重构误差;
[0025]阈值确定单元:通过对所述第一重构误差进行聚类将所述历史流量数据分为正常流量与异常流量,根据正常流量对应的第一重构误差确定第一阈值,根据全部历史流量数据对应的第一重构误差确定第二阈值;
[0026]数据检测单元:利用所述数据重构模型根据所述第一阈值与所述第二阈值对待检
测流量数据进行异常检测。
[0027]上述广告异常流量检测系统,其中,所述数据检测单元包括:
[0028]第二重构误差获得模块:将所述待检测流量数据输入至所述数据重构模型获得第二重构数据,计算所述待检测流量数据与所述第二重构数据之间的误差值获得第二重构误差;
[0029]异常判断模块:若所述第二重构误差小于所述第一阈值,则所述待检测流量数据为正常流量数据;若所述第二重构误差大于所述第一阈值且小于等于所述第二阈值,则所述待检测流量数据为已知的异常流量数据;若所述第二重构误差大于所述第二阈值,则所述待检测流量数据为未知的异常流量数据。
[0030]第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的广告异常流量检本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种广告异常流量检测方法,其特征在于,基于变分自动编码器,包括:模型构建步骤;利用历史流量数据采用VAE模型构建并训练数据重构模型;第一重构误差获得步骤:将所述历史流量数据输入至所述数据重构模型获得第一重构数据,计算所述历史流量数据与所述第一重构数据之间的误差值获得第一重构误差;阈值确定步骤:通过对所述第一重构误差进行聚类将所述历史流量数据分为正常流量与异常流量,根据正常流量对应的第一重构误差确定第一阈值,根据全部历史流量数据对应的第一重构误差确定第二阈值;数据检测步骤:利用所述数据重构模型根据所述第一阈值与所述第二阈值对待检测流量数据进行异常检测。2.根据权利要求1所述的广告异常流量检测方法,其特征在于,所述数据检测步骤包括:第二重构误差获得步骤:将所述待检测流量数据输入至所述数据重构模型获得第二重构数据,计算所述待检测流量数据与所述第二重构数据之间的误差值获得第二重构误差;异常判断步骤:若所述第二重构误差小于所述第一阈值,则所述待检测流量数据为正常流量数据;若所述第二重构误差大于所述第一阈值且小于等于所述第二阈值,则所述待检测流量数据为已知的异常流量数据;若所述第二重构误差大于所述第二阈值,则所述待检测流量数据为未知的异常流量数据。3.根据权利要求2所述的广告异常流量检测方法,其特征在于,还包括:数据预处理步骤:将所述历史流量数据与所述待检测流量数据进行清洗与预处理;数据标准化步骤:对经过清洗与预处理后的所述历史流量数据与待检测流量数据进行特征工程,获得标准化后的所述历史流量数据与所述待检测流量数据。4.根据权利要求1所述的广告异常流量检测方法,其特征在于,所述模型构建步骤包括:将所述历史流量数据输入至所述VAE模型获得样本重构数据,根据所述样本重构数据与所述历史流量数据的MSE与KL散度构建损失函数,通过最小化所述损失函数对所述数据重构模型进行训练。5.根据权利要求4所述的广告异常流量检测方法,其特征在于,数据重构模型参数采用Adam优化算法进行训练,数据重构模型超参数采用网格搜索法进行训练。6.根据权利要求2所述的广告异常流量检测方法,其特...

【专利技术属性】
技术研发人员:姜娜王硕杨康孙泽懿徐凯波
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1