一种基于Epsilon贪心算法监测人工流量作弊的方法及装置制造方法及图纸

技术编号:34330097 阅读:18 留言:0更新日期:2022-07-31 01:54
本发明专利技术公开了一种基于Epsilon贪心算法监测人工流量作弊的方法及装置,所述的方法包括,(一)对原始数据预处理:将原始数据集,进行PCA降维处理,筛选出空间特征数据集和时间特征数据集;(二)从空间特征判断,判断是否为空间特征作弊流量;(三)从时间特征判断,判断是否为时间特征作弊流量;(四)将空间特征作弊流量和时间特征作弊流量融合并最终分类。本发明专利技术的基于Epsilon贪心算法监测人工流量作弊的方法及装置,可有效识别人工点击方式生成的作弊流量,从而让厂商规避广告成本增加的风险。并且间接提高了厂商服务器的可用性和可靠性。且间接提高了厂商服务器的可用性和可靠性。且间接提高了厂商服务器的可用性和可靠性。

A method and device for monitoring artificial traffic cheating based on epsilon greedy algorithm

【技术实现步骤摘要】
一种基于Epsilon贪心算法监测人工流量作弊的方法及装置


[0001]本专利技术涉及计算机领域,具体涉及一种基于Epsilon贪心算法监测人工流量作弊的方法及装置。

技术介绍

[0002]本部分的描述仅提供与本专利技术公开相关的背景信息,而不构成现有技术。
[0003]流量作弊行为是广告渠道商通过自动化脚本程序或有组织人工点击方式请求厂商服务器,从而增加访问量获取不正当利益。自动化脚本程序生成的作弊流量在访问频率、停留时长、二次访问率明显区别于理性人类。因此,传统机器学习模型能准确识别此类作弊攻击。但人工点击方式生成的作弊流量在其行为表现上更具欺诈性和迷惑性,因此传统机器学习模型在该类作弊攻击上表现欠佳。1、空间特征提取:多层感知机(MLP)模型只考虑样本对预测结果的影响,并未考虑样本之间的关系对预测结果的影响。2、时间特征提取:长短期记忆(LSTM)模型在解决长序列训练过程中存在梯度消失和梯度爆炸等问题,从而导致时间特征不具有细粒度以及训练周期长。3、特征融合:传统融合方式一般采用固定配置时空特征权重,这会导致信息冗余或信息缺失。4、智能算法:传统粒子群智能算法求平方和函数最小值,由于没有特意指定函数自变量量纲,因此不进行数据归一化处理。基于现有问题,本专利技术提供了一种基于Epsilon贪心算法检测人工流量作弊的方法从而高效且精确的识别人工流量作弊行为。
[0004]应该注意,上面对技术背景的介绍只是为了方便对本专利技术的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本专利技术的
技术介绍
部分进行了阐述而认为上述技术方案为本领域技术人员所公知。

技术实现思路

[0005]基于上述传统方式所造成的分类预测结果差、训练耗时较长的技术问题,提供了一种基于Epsilon贪心算法监测人工流量作弊的方法。
[0006]为了解决上述技术问题,本专利技术提供了一种基于Epsilon贪心算法监测人工流量作弊的方法,所述的方法包括,
[0007](一)对原始数据预处理:将原始数据集,进行PCA降维处理,筛选出空间特征数据集和时间特征数据集;
[0008](二)从空间特征判断,判断是否为空间特征作弊流量;
[0009](三)从时间特征判断,判断是否为时间特征作弊流量;
[0010](四)将空间特征作弊流量和时间特征作弊流量融合并最终分类。
[0011]优选地,所述的步骤(一)具体为,
[0012]将原始数据集,进行PCA降维处理,PCA处理后的访问日志,按照空间特征和时间特征进行切割,将其分成2个矩阵,一个矩阵为空间特征矩阵,另一个为时间特征矩阵。
[0013]优选地,所述的步骤(二)具体为,
[0014]基于空间特征数据切片分类,当空间特征数据切片中的某一类数据出现的频率大于阈值,将该类数据打上空间特征作弊标签,否则,判断该类数据下的子数据出现的频率是否大于阈值,当该类子数据出现的频率大于阈值时,则将该类数据打上作弊标签,否则打上正常标签,
[0015]其中作弊流量标签为(0,1),正常流量标签为(0,0),
[0016]所述的空间特征数据集包括IP地址、Mac地址及根签名中的一种或多种。
[0017]优选地,所述的空间特征数据集包括IP地址,所述的步骤(二)具体为,基于IP子网段分类,当每一IP子网段内的IP总数量大于预设阈值时,则打上作弊标签(0,1),否则,判断该子网段下某一IP总数是否大于预设阈值,若该子网段下的某一IP总数大于预设阈值,则打上作弊标签(0,1),否则打上正常标签(0,0)。
[0018]优选地,所述的步骤(三)具体为,
[0019]设定最小持续时间T
min

[0020]确定作弊者作弊动作,描述作弊动作奖励函数,当作弊者会话链接时长小于T
min
时,作弊者收益为0;其中当作弊者会话链接时长介于(T
min
,T
mmin
θ)时,作弊者收益为r1,当作弊者会话时长大于T
min
+θ时,作弊者收益为,r1+2b/(exp(4k(a

(x

T
min
+θ))+1),公式表达如下:
[0021][0022]其中,当t≥Tmin+θ时,S型曲线表达式:y=2b/(exp(4k(a

x))+1),x是时间变量,y是广告费用,k为曲线变化率,(a,b)表示S型曲线关于(a,b)对称,其中a是横坐标,b是纵坐标,所述的S曲线具有两个拐点,第一个拐点用于区别一般粘性和中度粘性、第二个拐点用于区别中毒粘性和高度粘性;
[0023]使用Epsilon算法近似出作弊者的最优策略。Epsilon算法如下所示:
[0024]Function
Epsilon
=ε
×
A
Exploitation
(t
i
)+(1

ε)
×
A
Exploration
(t
j
)
[0025]其中,ε为选择下一个动作的概率,A
Exploitation
(t
i
)表示为下一个动作,ti表示为下一个动作的时间选择,A
Exploration
表示为当前最优动作,tj表示为当前动作的时间选择,
[0026]当Function
Epsilon
数值变化率低于设定值时,找到作弊者单次作弊最优链接时长t
best

[0027]设定最小持续时间T
min
,奖励函数是由S型曲线定义,
[0028]当会话时长t小于T
min
时,则将该部分数据过滤,
[0029]当会话时长t大于T
min
时,进入下一步操作,
[0030]判断t是否介于(t
best

τ,t
best
+τ),判断为是,则打上作弊标签(1,0),否则打上正常标签(0,0),
[0031]其中,t
best
为最优动作的时间参数,τ为符合高斯分布的噪声。
[0032]优选地,所述的步骤(四)具体为,
[0033]计算数据样本的最终决策:
[0034]decision
fin
=λ
×
Label
space
(0,value)+(1

λ)Label
time
(value,0),
[0035]当decision
fin
≥threshold
pre
,我们将该条数据识别为作弊流量,当decision
fin

threshol本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Epsilon贪心算法监测人工流量作弊的方法,其特征在于,所述的方法包括,(一)对原始数据预处理:将原始数据集,进行PCA降维处理,筛选出空间特征数据集和时间特征数据集;(二)从空间特征判断,判断是否为空间特征作弊流量;(三)从时间特征判断,判断是否为时间特征作弊流量;(四)将空间特征作弊流量和时间特征作弊流量融合并最终分类。2.根据权利要求1所述的方法,其特征在于,所述的步骤(一)具体为,将原始数据集,进行PCA降维处理,PCA处理后的访问日志,按照空间特征和时间特征进行切割,将其分成2个矩阵,一个矩阵为空间特征矩阵,另一个为时间特征矩阵。3.根据权利要求2所述的方法,其特征在于,所述的步骤(二)具体为,基于空间特征数据切片分类,当空间特征数据切片中的某一类数据出现的频率大于阈值,将该类数据打上空间特征作弊标签,否则,判断该类数据下的子数据出现的频率是否大于阈值,当该类子数据出现的频率大于阈值时,则将该类数据打上作弊标签,否则打上正常标签,其中作弊流量标签为(0,1),正常流量标签为(0,0),所述的空间特征数据集包括IP地址、Mac地址及根签名中的一种或多种。4.根据权利要求2所述的方法,其特征在于,所述的空间特征数据集包括IP地址,所述的步骤(二)具体为,基于IP子网段分类,当每一IP子网段内的IP总数量大于预设阈值时,则打上作弊标签(0,1),否则,判断该子网段下某一IP总数是否大于预设阈值,若该子网段下的某一IP总数大于预设阈值,则打上作弊标签(0,1),否则打上正常标签(0,0)。5.根据权利要求3~4任意一项所述的方法,其特征在于,所述的步骤(三)具体为,设定最小持续时间T
min
,确定作弊者作弊动作,描述作弊动作奖励函数,当作弊者会话链接时长小于T
min
时,作弊者收益为0;其中当作弊者会话链接时长介于(T
min
,T
min
+θ)时,作弊者收益为r1,当作弊者会话时长大于T
min
+θ时,作弊者收益为,r1+2b/(exp(4k(a

(x

T
min
+θ))+1),公式表达如下:其中,当t≥Tmin+θ时,S型曲线表达式:y=2b/(exp(4k(a

x))+1),x是时间变量,y是广告费用,k为曲线变化率,(a,b)表示S型曲线关于(a,b)对称,其中a是横坐标,b是纵坐标,所述的S曲线具有两个拐点,第一个拐点用于区别一般粘性和中度粘性、第二个拐点用于区别中毒粘性和高度粘性;使用Epsilon算法近似出作弊者的最优策略。Epsilon算法如下所示:Function
Epsilon
=ε
×
A
Exploitation
(t
i
)+(1

ε)
×
A
Exploration
(t
j
)其中,ε为选择下一个动作的概率,A
Exploration
(t
i
)表示为下一个动作,ti表示为下一个动作的时间选择,A
Exploration
表示为当前最优动作,tj表示为当前动作的时间选择,当Function
Epsilon
数值变化率低于设定值时,找到作弊者单次作弊最优链接时长t
best,
设定最小持续时间T
min
,奖励函数是由S型曲线定义,当会话时长t小于T
min
时,则将该部分数据过滤,当会话时长t大于T
min
时,进入下一步操作,判断t是否介于(t
best

τ,t
best
+τ),判断为是,则打上作弊标签(1,0),否则打上正常标签(0,0),其中,t
best
为最优动作的时间参数,τ为符合高斯分布的噪声。6.根据权利要求5任意一项所述的方法,其特征在于,所述的步骤(四)具体为,计算数据样本的最终决策:decision
fin
=λ
×
Label
space
(0,value)+(1

λ)Label
time
(value,0),当decision
fin
≥threshild
pre
,我们将该条数据识别为作弊流量,当decision
fin
<threshild
pre
,将该条数据识别为正常流量,其中,λ为空间特征的权重,threshold
pre
为预先设定的阈值,Label
soace
(0,value)是空间特征标签,Label
time
(value,0)是时间特征...

【专利技术属性】
技术研发人员:周洪海
申请(专利权)人:金数信息科技苏州有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1