一种低速率作弊流量的检测方法及装置制造方法及图纸

技术编号:34183746 阅读:47 留言:0更新日期:2022-07-17 13:43
本申请提供一种低速率作弊流量的检测方法及装置,所述的检测方法包括,字符型特征处理:得到字符型特征的异常评分S

A detection method and device of low rate cheating traffic

【技术实现步骤摘要】
一种低速率作弊流量的检测方法及装置


[0001]本专利技术涉及一种网络广告作弊行为的检测领域,具体涉及一种低速率作弊流量的检测方法及装置。

技术介绍

[0002]本部分的描述仅提供与本专利技术公开相关的背景信息,而不构成现有技术。
[0003]随着信息技术的快速发展,网络广告业务不断增加,网络广告作弊行为也随之暴露并有指数上涨的趋势。网络广告作弊行为——作弊流量是指以谋取不正当利益为目的,利用自动化脚本技术或人工模拟正常网络用户对网络广告进行交互的行为。作弊流量不仅直接损害了广告主的经济利益,而且也降低了广告平台的商业信用和公众信誉。因此,如何高效识别及过滤作弊流量是广告行业的当务之急。在现有方案中,绝大多数方案可高效识别自动脚本生成的作弊流量,但在人工点击的作弊流量识别以及低速率随机生成的作弊流量识别表现欠佳。
[0004]应该注意,上面对技术背景的介绍只是为了方便对本专利技术的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本专利技术的
技术介绍
部分进行了阐述而认为上述技术方案为本领域技术人员所公知。

技术实现思路

[0005]本专利技术要解决的技术问题是提供一种低速率作弊流量的检测方法及装置。
[0006]为了解决上述技术问题,一种低速率作弊流量的检测方法,包括,
[0007]字符型特征处理:得到字符型特征的异常评分S
str

[0008]数值型特征处理:得到数值型特征的异常评分S
num<br/>;
[0009]数据集标识化:根据字符型特征的异常评分S
str
及数值型特征的异常评分S
num
,得到最终样本评价得分Score
fin

[0010]优选地,所述的字符特征处理包括,
[0011]针对字符特征,进行编码处理;
[0012]判断编码处理后的字段是否为空,采用示性函数表达空字段的影响程度,其中s
null
>s
ok
,当字段为空时,I=s
null
,当字段不为空时,I=s
ok

[0013][0014]字段概率统计:字段概率值为其中n表示字符特征的数量,c
i
表示某类字符特征;
[0015]异常评分设置:计算字符型特征的异常评分S
str

[0016]S
str
=I*(1

Pr
c
)
ꢀꢀꢀ
(2)。
[0017]优选地,所述的数值型特征处理包括,
[0018]空值处理:采用示性函数表达空字段的影响程度,其中s
null
>s
ok
,当字段为空时,I=s
null
,当字段不为空时,I=s
ok

[0019][0020]标准化处理:使数据服从正态分布;
[0021]基于高斯核函数的相似度计算:通过使用核函数,将标准化处理好的数据映射至高维的特征空间中,式(3)中,使用高斯核函数进行相似度计算,式(4)是计算欧式距离的公式,其中d为权重,α={α1,α2,...,α
n
},其中
[0022][0023][0024]异常评分设置:式(5)中,根据已知的异常样本计算未知数据的异常评分,得到数值特征异常评分S
num

[0025][0026]所述的数据集标识化包括,计算最终样本评价得分Score
fin
,其中,ω
p
为分配给S
str
的权重,
[0027]Score
fin
=ω
p
S
str
+(1

ω
p
)S
num
ꢀꢀꢀ
(6)。
[0028]优选地,所述的检测方法还包括数据清洗,所述的数据清洗包括,
[0029]基于严格策略的标识异常:计算字符型特征的异常评分S
str
与数值特征异常评分S
num
的差值,当差值在设定阈值内时,输出数据样本,当差值超过设定阈值时,将该类数据样本进行人工审计,判断该类样本是否为可用样本集,当判断为可采集样本时,输出该可采集数据样本集,当判断为不可采集样本时,则丢弃样本,
[0030]所述的数据清洗还包括,基于广告效果的标识异常:当最终样本评价得分Score
fin
不在预设范围内,则该广告效果标识异常,当该广告效果被标识异常,则将历史数据中所有相同类别的内容标识异常,并通过人工审计的方式决定该类样本是否为可用样本集,当广告效果标识为非异常则进行基于严格策略的标识异常的步骤,
[0031]所述的检测方法还包括经过数据清洗后的数据样本集做数据平衡处理,所述的数据平衡包括,
[0032]计算少数类样本k个邻近:基于交叉验证找到k值,式(7)中,基于欧式距离,计算每一个少数类样本到k个邻近的距离,
[0033][0034]计算待合成样本量:amount
com
=amount
multi

amount
less
ꢀꢀꢀ
(8),其中,amount
multi
为数据集中正常流量数量,amount
less
为数据集中作弊流量数量;
[0035]随机线性插值:采用可放回抽样的方式在这k条“直线”上随机选择要添加的合成少数类样本,其中,合成样本的位置由式(8)决定,x为原始样本点位置,为领近点位置,x
new
为合成样本的位置,
[0036][0037]所述的数据平衡还包括数据融合,所述的数据融合包括将合成样本与原始样本进行拼接,以合成一个等比的正负样本数据集。
[0038]优选地,所述的检测方法还包括,基于sk

learn库直接调用XGBoost模型对数据集进行分类,其中超参数有max_depth,eta,objective,通过调节所述超参数来提高模型的分类准确率,其中目标函数objective,如式10、11所示,
[0039][0040][0041]其中,表示模型的预测值,y
i
表示第i个样本的类别标签,k表示树的数量,f
k
表示第k棵树模型,T表示每棵树的叶子节点数量,w表示每棵树的叶子节点的分数组成的集合,γ和λ表示系数,在实际应用中需要调参。
[0042]本申请是提供一种低速率作弊流量的检测装置,所述的检测装置包括,字符型特征处理模块,用于得到字符型特征的异常评分S
str

[0043]数值型特征处理模块,用于得到数值型特征的异常评分S
num...

【技术保护点】

【技术特征摘要】
1.一种低速率作弊流量的检测方法,其特征在于,包括,字符型特征处理:得到字符型特征的异常评分S
str
;数值型特征处理:得到数值型特征的异常评分S
num
;数据集标识化:根据字符型特征的异常评分S
str
及数值型特征的异常评分S
num
,得到最终样本评价得分Score
fin
。2.根据权利要求1所述的检测方法,其特征在于,所述的字符特征处理包括,针对字符特征,进行编码处理;判断编码处理后的字段是否为空,采用示性函数表达空字段的影响程度,其中s
null
>s
ok
,当字段为空时,I=s
null
,当字段不为空时,I=s
ok
,字段概率统计:字段概率值为其中n表示字符特征的数量,c
i
表示某类字符特征;异常评分设置:计算字符型特征的异常评分S
str
,S
str
=I*(1

Pr
c
)
ꢀꢀꢀ
(2)。3.根据权利要求2所述的检测方法,其特征在于,所述的数值型特征处理包括,空值处理:采用示性函数表达空字段的影响程度,其中s
null
>s
ok
,当字段为空时,I=s
null
,当字段不为空时,I=s
ok
;标准化处理:使数据服从正态分布;基于高斯核函数的相似度计算:通过使用核函数,将标准化处理好的数据映射至高维的特征空间中,式(3)中,使用高斯核函数进行相似度计算,式(4)是计算欧式距离的公式,其中α为权重,α={α1,α2,...,α
n
},其中},其中},其中异常评分设置:式(5)中,根据已知的异常样本计算未知数据的异常评分,得到数值特征异常评分S
num

所述的数据集标识化包括,计算最终样本评价得分Score
fin
,其中,ω
p
为分配给S
str
的权重,Score
fin
=ω
p
S
str
+(1

ω
p
)S
num
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)。4.根据权利要求3所述的检测方法,其特征在于,所述的检测方法还包括数据清洗,所述的数据清洗包括,基于严格策略的标识异常:计算字符型特征的异常评分S
str
与数值特征异常评分S
num
的差值,当差值在设定阈值内时,输出数据样本,当差值超过设定阈值时,将该类数据样本进行人工审计,判断该类样本是否为可用样本集,当判断为可采集样本时,输出该可采集数据样本集,当判断为不可采集样本时,则丢弃样本,所述的数据清洗还包括,基于广告效果的标识异常:当最终样本评价得分Score
fin
不在预设范围内,则该广告效果标识异常,当该广告效果被标识异常,则将历史数据中所有相同类别的内容标识异常,并通过人工审计的方式决定该类样本是否为可用样本集,当广告效果标识为非异常则进行基于严格策略的标识异常的步骤,所述的检测方法还包括经过数据清洗后的数据样本集做数据平衡处理,所述的数据平衡包括,计算少数类样本k个邻近:基于交叉验证找到k值,式(7)中,基于欧式距离,计算每一个少数类样本到k个邻近的距离,计算待合成样本量:amount
com
=amount
multi

amount
less
ꢀꢀ
(8),其中,amount
multi
为数据集中正常流量数量,amount
less
为数据集中作弊流量数量;随机线性插值:采用可放回抽样的方式在这k条“直线”上随机选择要添加的合成少数类样本,其中,合成样本的位置由式(8)决定,x为原始样本点位置,为领近点位置,x
new
为合成样本的位置,所述的数据平衡还包括数据融合,所述的数据融合包括将合成样本与原始样本进行拼接,以合成一个等比的正负样本数据集。5.根据权利要求4所述的检测方法,其特征在于,所述的检测方法还包括,基于sk

learn库直接调用XGBoost模型对数据集进行分类,其中超参数有max_depth,eta,objective,通过调节所述超参数来提高模型的分类准确率,其中目标函数objective,如式10、11所示,10、11所示,6.一种低速率作弊流量的检测装置,其特征在于,所述的检测装置包括,字符型特征处理模块,用于得到字符型特征的...

【专利技术属性】
技术研发人员:周洪海
申请(专利权)人:金数信息科技苏州有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1