广告点击欺诈检测方法、系统、服务器和存储介质技术方案

技术编号:33542074 阅读:18 留言:0更新日期:2022-05-21 09:52
本发明专利技术公开了一种广告点击欺诈检测方法、系统、服务器和存储介质,所述方法应用于服务器端,包括广告请求阶段和广告点击阶段,在广告请求阶段采用主动检测;在广告点击阶段采用被动检测,被动检测包括离线检测,通过离线检测,完成对广告点击数据的分类;其中,所述离线检测包括基于局部敏感哈希合成过采样算法与集成学习的广告点击欺诈检测方法和基于媒体图嵌入向量与神经网络的广告点击欺诈检测方法。本发明专利技术通过采用基于局部敏感哈希合成过采样算法与集成学习的广告点击欺诈检测方法,在检测准确率小幅度降低的情况下,采样时间减少了56%;通过采用基于媒体图嵌入向量与神经网络的广告点击欺诈检测方法,检测结果的准确率为96.82%。为96.82%。为96.82%。

【技术实现步骤摘要】
广告点击欺诈检测方法、系统、服务器和存储介质


[0001]本专利技术涉及目标检测
,具体涉及一种广告点击欺诈检测方法、系统、服务器和存储介质。

技术介绍

[0002]规则检测是检测无效流量常用的方法之一。规则是大量if

else条件的集合,通过一个或多个判断条件从流量中筛选出无效流量。规则检测简单迅速,易于部署与扩展,在广告点击欺诈检测场景中,同样可以使用规则进行检测。通常来说,部分广告欺诈点击间存在着一些较为明显的模式,研究人员通过分析现有的攻击手段,从这些广告欺诈点击数据中提取出对应的攻击模式,从而根据这些攻击模式制定对应的检测方法。但是规则检测依赖于研究人员分析攻击手段与提取对应检测规则的能力,并且当攻击者使用更为复杂的攻击手段时,规则检测是容易被绕过的。此外,攻击者也可以通过不断尝试,从而推测规则的设置与对应阈值的设置,从而绕过规则检测。
[0003]广告点击欺诈检测是一个二分类问题,即区分欺诈点击与正常点击。因此可以考虑引入机器学习算法,利用模型学习攻击者的攻击模式,从而完成广告点击欺诈检测。在机器学习中,单一的分类模型通常存在数据偏好、学习不充分以及过拟合等问题,这种单一模型又被称为弱学习器。集成学习针对弱学习器的不足,将多个弱学习器组合在一起,让弱学习器间互相取长补短,从而获得一个鲁棒性更高、分类效果更好的强学习器。将集成学习直接运用于广告点击欺诈检测并没有考虑到点击欺诈场景的特点,没有考虑到用户点击序列、欺诈群体等信息与分类结果间的联系。此外,即使将这类信息用于集成学习模型训练中,集成学习因本身特点所限,并不能较好地利用这部分信息。

技术实现思路

[0004]为了解决上述现有技术的不足,本专利技术提供了一种广告点击欺诈检测方法、系统、服务器和存储介质,该方法将点击欺诈检测分为主动检测与被动检测,被动检测包括在线检测与离线检测,在线检测采用规则检测对广告点击数据进行快速过滤,得到样本数据;若样本数据充足,则采用离线检测中的基于媒体图嵌入向量与神经网络的广告点击欺诈检测方法对样本数据进行检测,提高了广告点击欺诈检测方法的准确率;否则采用离线检测中的基于局部敏感哈希合成过采样算法与集成学习的广告点击欺诈检测方法对样本数据进行检测,解决了广告点击数据集不平衡以及常用过采样算法在大数据集上速度过慢的问题。
[0005]本专利技术的第一个目的在于提供一种广告点击欺诈检测方法。
[0006]本专利技术的第二个目的在于提供一种广告点击欺诈检测系统。
[0007]本专利技术的第三个目的在于提供一种服务器。
[0008]本专利技术的第四个目的在于提供一种存储介质。
[0009]本专利技术的第一个目的可以通过采取如下技术方案达到:
[0010]一种广告点击欺诈检测方法,应用于服务器端,所述方法包括:
[0011]所述方法包括广告请求阶段和广告点击阶段,在广告请求阶段采用主动检测;在广告点击阶段采用被动检测,被动检测包括离线检测,通过离线检测,完成对广告点击数据的分类;其中,所述离线检测包括基于局部敏感哈希合成过采样算法与集成学习的广告点击欺诈检测方法和基于媒体图嵌入向量与神经网络的广告点击欺诈检测方法。
[0012]进一步的,所述被动检测还包括在线检测,对广告点击数据进行在线检测,得到数据集。
[0013]进一步的,所述对广告点击数据进行在线检测,得到数据集,具体包括:
[0014]采用规则检测对用户的广告点击数据进行在线的快速筛选,将与条件相符的广告点击数据标记为欺诈流量,未被标记的广告点击数据则为正常流量,作为样本数据;
[0015]所有的样本数据构成数据集。
[0016]进一步的,所述通过离线检测,完成对广告点击数据的分类,具体包括:
[0017]若所述数据集中样本数据的个数小于设定阈值,则选择基于局部敏感哈希合成过采样算法与集成学习的广告点击欺诈检测方法对所述数据集中样本数据进行分类;
[0018]否则,选择基于媒体图嵌入向量与神经网络的广告点击欺诈检测方法对所述数据集中样本数据进行分类;
[0019]分类的结果为正常广告点击或欺诈广告点击。
[0020]进一步的,所述基于局部敏感哈希合成过采样算法与集成学习的广告点击欺诈检测方法对所述数据集中样本数据进行分类,具体包括:
[0021]对所述数据集进行预处理,得到预处理后数据集;
[0022]利用局部敏感哈希合成过采样算法对预处理后数据集进行处理,得到样本平衡的数据集;
[0023]利用样本平衡的数据集训练集成学习中LightGBM模型,得到训练好的LightGBM模型;其中,所述LightGBM模型采用单边梯度采样算法对训练样本进行采样优化;同时采用互斥特征绑定进行特征抽取,从而优化模型的训练速度;
[0024]将待测的广告点击数据输入所述训练好的LightGBM模型,得到检测结果。
[0025]进一步的,所述利用局部敏感哈希合成过采样算法对预处理后数据集进行处理,得到样本平衡的数据集,具体包括:
[0026]根据所述预处理后数据集中样本数据,计算每个样本的哈希值;
[0027]根据所述预处理后数据集中每个样本的哈希值,查找样本的近似最近邻;
[0028]通过在每个样本与其近似最近邻之间进行插值,合成新样本;
[0029]将所述新样本加入所述预处理后数据集中,得到样本平衡的数据集;
[0030]其中,根据所述预处理后数据集中样本数据,计算每个样本的哈希值,具体包括:
[0031]通过高斯分布多次生成随机数与向量,得到对应的多个哈希函数;对每个样本进行多个哈希函数计算,将得到的哈希值进行随机加权后取模,得到每个样本最终的哈希值。
[0032]进一步的,所述基于媒体图嵌入向量与神经网络的广告点击欺诈检测方法对所述数据集中样本数据进行分类,具体包括:
[0033]对所述数据集进行预处理,得到预处理后数据集;
[0034]利用用户的媒体广告点击序列构建媒体关系图,通过随机游走与图嵌入算法得到
图嵌入向量;
[0035]利用所述预处理后数据集和所述图嵌入向量训练Wide&Deep模型,得到训练好的Wide&Deep模型;其中,Wide&Deep模型中的Wide部分采用逻辑回归模型,将所述预处理后数据集中的样本数据输入Wide部分,通过拟合函数完成模型训练;Wide&Deep模型中的Deep部分采用全连接网络结构对图嵌入向量进行非线性变换;Wide部分与Deep部分通过Sigmoid函数结合,得到Wide&Deep模型的输出;
[0036]将待测的广告点击数据输入所述训练好的Wide&Deep模型,得到检测结果。
[0037]进一步的,所述利用用户的媒体广告点击序列构建媒体关系图,通过随机游走与图嵌入算法得到图嵌入向量,具体本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种广告点击欺诈检测方法,应用于服务器端,其特征在于,所述方法包括广告请求阶段和广告点击阶段,在广告请求阶段采用主动检测;在广告点击阶段采用被动检测,被动检测包括离线检测,通过离线检测,完成对广告点击数据的分类;其中,所述离线检测包括基于局部敏感哈希合成过采样算法与集成学习的广告点击欺诈检测方法和基于媒体图嵌入向量与神经网络的广告点击欺诈检测方法。2.根据权利要求1所述的广告点击欺诈检测方法,其特征在于,所述被动检测还包括在线检测,对广告点击数据进行在线检测,得到数据集。3.根据权利要求2所述的广告点击欺诈检测方法,其特征在于,所述对广告点击数据进行在线检测,得到数据集,具体包括:采用规则检测对用户的广告点击数据进行在线的快速筛选,将与条件相符的广告点击数据标记为欺诈流量,未被标记的广告点击数据则为正常流量,作为样本数据;所有的样本数据构成数据集。4.根据权利要求2所述的广告点击欺诈检测方法,其特征在于,所述通过离线检测,完成对广告点击数据的分类,具体包括:若所述数据集中样本数据的个数小于设定阈值,则选择基于局部敏感哈希合成过采样算法与集成学习的广告点击欺诈检测方法对所述数据集中样本数据进行分类;否则,选择基于媒体图嵌入向量与神经网络的广告点击欺诈检测方法对所述数据集中样本数据进行分类;分类的结果为正常广告点击或欺诈广告点击。5.根据权利要求4所述的广告点击欺诈检测方法,其特征在于,所述基于局部敏感哈希合成过采样算法与集成学习的广告点击欺诈检测方法对所述数据集中样本数据进行分类,具体包括:对所述数据集进行预处理,得到预处理后数据集;利用局部敏感哈希合成过采样算法对预处理后数据集进行处理,得到样本平衡的数据集;利用样本平衡的数据集训练集成学习中LightGBM模型,得到训练好的LightGBM模型;其中,所述LightGBM模型采用单边梯度采样算法对训练样本进行采样优化;同时采用互斥特征绑定进行特征抽取,从而优化模型的训练速度;将待测的广告点击数据输入所述训练好的LightGBM模型,得到检测结果。6.根据权利要求5所述的广告点击欺诈检测方法,其特征在于,所述利用局部敏感哈希合成过采样算法对预处理后数据集进行处理,得到样本平衡的数据集,具体包括:根据所述预处理后数据集中样本数据,计算每个样本的哈希值;根据所述预处理后数据集中每个样本的哈希值,查找样本的近似最近邻;通过在每个样本与其近似最近邻之间进行插值,合成新样本;将所述新样本加入所述预处理后数据集中,得到样本平衡的数据集;其中,根据所述预处理后数据集中样本数据,计算每个样本的哈希值,具体包括:通过高斯分布多次生成随机数与向量,得到对应的多个哈希函数;对每个样本进行多个哈希函数计算,将得到的哈希值进行随机加权后取模,得到每个样本最终的哈希值。7.根据权利要求4所述的广告点击欺诈检测方法,其特征在于,所述基于媒体图嵌入向

【专利技术属性】
技术研发人员:刘洋刘洋麟王轩蒋琳廖清漆舒汉夏文
申请(专利权)人:哈尔滨工业大学深圳
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1