流量作弊识别方法、装置、设备及存储介质制造方法及图纸

技术编号:33511690 阅读:34 留言:0更新日期:2022-05-19 01:20
本发明专利技术属于互联网大数据分析技术领域,公开了一种流量作弊识别方法、装置、设备及存储介质。本发明专利技术通过获取自然流量分布概率及待检测流量的流量分布数据;根据流量分布数据及自然流量分布概率确定待检测流量对应的作弊分值;根据作弊分值判断待检测流量是否存在流量作弊。由于是将待检测流量的流量分布数据与大数据统计得到的自然流量分布概率进行对比计算,得到对应的作弊分值,作弊分值可以表示待检测流量的流量分布与不存在流量作弊的自然流量的分布差异度,因此,根据作弊分值即可判断是否存在流量作弊,利于保护流量购买者的正当权益。当权益。当权益。

【技术实现步骤摘要】
流量作弊识别方法、装置、设备及存储介质


[0001]本专利技术涉及互联网大数据分析
,尤其涉及一种流量作弊识别方法、装置、设备及存储介质。

技术介绍

[0002]现如今,流量变现已经为各个企业带来了大量的利益,在流量变现的利益驱动下,流量造假越发猖獗,流量造假形式和技术手段也越发高级。无论什么形式的作弊,最后损失最大的都是为流量买单的流量购买者。流量购买者使用了大量的资金预算购买流量,其目的是为了带来新增用户,由于存在大量造假流量,此类造假流量并没有带来可实际留存的新增用户,也无法带来收入,极大的损害了流量购买者的正当权益,而流量反作弊既可以促进企业业务生态正向增长,又可以节约一定的资金预算,可以保护流量购买者的正当权益,因此流量反作弊迫在眉睫。
[0003]上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。

技术实现思路

[0004]本专利技术的主要目的在于提供一种流量作弊识别方法、装置、设备及存储介质,旨在解决如何检测是否存在流量作弊,以保护流量购买者的正当权益的技术问题。
[0005]为实现上述目的,本专利技术提供了一种流量作弊识别方法,所述方法包括以下步骤:
[0006]获取自然流量分布概率及待检测流量的流量分布数据;
[0007]根据所述流量分布数据及所述自然流量分布概率确定所述待检测流量对应的作弊分值;
[0008]根据所述作弊分值判断所述待检测流量是否存在流量作弊。
[0009]可选地,所述获取自然流量分布概率及待检测流量的流量分布数据的步骤之前,还包括:
[0010]根据待检测流量中包含的用户操作信息确定用户思考时长;
[0011]根据所述用户思考时长确定待检测流量的流量分布数据。
[0012]可选地,所述根据待检测流量中包含的用户操作信息确定用户思考时长的步骤,包括:
[0013]获取待检测流量中包含的用户操作信息确定相邻用户操作的操作时间;
[0014]根据所述操作时间确定所述相邻用户操作的操作时间差,将所述操作时间差作为对应的用户思考时长。
[0015]可选地,所述根据所述用户思考时长确定待检测流量的流量分布数据的步骤,包括:
[0016]根据预设时间分布区间对所述用户思考时长进行分组,将各个预设时间分布区间对应的用户思考时长的数量作为对应的流量分布数量;
[0017]根据所述流量分布数量及用户思考时长的总数确定各个预设时间分布区间的流量分布概率;
[0018]根据所述流量分布概率及流量分布数量确定待检测流量的流量分布数据。
[0019]可选地,所述根据所述流量分布数据及所述自然流量分布概率确定所述待检测流量对应的作弊分值的步骤包括:
[0020]获取所述流量分布数据中的流量分布概率及流量分布数量;
[0021]根据所述流量分布概率、所述流量分布数量及自然流量分布概率确定所述待检测流量对应的作弊分值。
[0022]可选地,所述根据所述流量分布概率、所述流量分布数量及自然流量分布概率确定所述待检测流量对应的作弊分值的步骤,包括:
[0023]根据所述流量分布概率、所述流量分布数量及所述自然流量分布概率通过作弊分值计算公式确定所述待检测流量对应的作弊分值;
[0024]所述作弊分值计算公式为:
[0025][0026]式中,score为作弊分,P(organicBin
i
)为自然流量在第i个时间分布区间的分布概率,P(channelBin
i
)为待检测流量在第i个时间分布区间的分布概率,N为待检测流量在第i个时间分布区间的分布数量,P(organicBin
j
)为自然流量在第j个时间分布区间的分布概率,P(channelBin
j
)为待检测流量在第j个时间分布区间的分布概率,M为待检测流量在第j个时间分布区间的分布数量。
[0027]可选地,所述根据所述流量分布数据及所述自然流量分布概率确定所述待检测流量对应的作弊分值的步骤之前,还包括:
[0028]根据所述流量分布数据及所述自然流量分布概率计算相对熵值;
[0029]在所述相对熵值满足作弊分值计算条件时,执行所述根据所述流量分布数据及所述自然流量分布概率确定所述待检测流量对应的作弊分值的步骤。
[0030]可选地,所述根据所述流量分布数据及所述自然流量分布概率计算相对熵值的步骤,包括:
[0031]获取所述流量分布数据中的流量分布概率;
[0032]根据所述流量分布概率及所述自然流量分布概率计算相对熵值。
[0033]可选地,所述根据所述流量分布概率及所述自然流量分布概率计算相对熵值的步骤,包括:
[0034]根据所述流量分布概率及所述自然流量分布概率通过相对熵计算公式计算相对熵值;
[0035]所述相对熵计算公式为:
[0036][0037]式中,D
KL
(p||q)为相对熵值,p(x
i
)为自然流量在第i个时间分布区间的分布概率,q为待检测流量在第i个时间分布区间的分布概率,N为时间分布区间总数。
[0038]可选地,所述根据所述作弊分值判断所述待检测流量是否存在流量作弊的步骤之前,还包括:
[0039]根据所述流量分布数据及所述自然流量分布概率计算相对熵值;
[0040]所述根据所述作弊分值判断所述待检测流量是否存在流量作弊的步骤,包括:
[0041]根据所述作弊分值及所述相对熵值判断所述待检测流量是否存在流量作弊。
[0042]可选地,所述根据所述作弊分值及所述相对熵值判断所述待检测流量是否存在流量作弊的步骤,包括:
[0043]在所述作弊分值大于预设作弊阈值且所述相对熵值大于预设相对熵阈值时,判定所述待检测流量存在流量作弊;
[0044]在所述作弊分值不大于所述预设作弊阈值或所述相对熵值不大于所述预设相对熵阈值时,判定所述待检测流量不存在流量作弊。
[0045]可选地,所述根据所述作弊分值判断所述待检测流量是否存在流量作弊的步骤,包括:
[0046]在所述作弊分值大于预设作弊阈值时,判定所述待检测流量存在流量作弊;
[0047]在所述作弊分值小于或等于所述预设作弊阈值时,判定所述待检测流量不存在流量作弊。
[0048]此外,为实现上述目的,本专利技术还提出一种流量作弊识别装置,其特征在于,所述流量作弊识别装置包括:
[0049]数据获取模块,用于获取自然流量分布概率及待检测流量的流量分布数据;
[0050]分值计算模块,用于根据所述流量分布数据及所述自然流量分布概率确定所述待检测流量对应的作弊分值;
[0051]作弊识别模块,用于根据所述作弊分值判断所述待检测流量是否存在流量作弊。
[0052]可选地,所述数据获取模块,还用于根据待检测流量中包含的用户操作信息确定用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种流量作弊识别方法,其特征在于,所述流量作弊识别方法包括以下步骤:获取自然流量分布概率及待检测流量的流量分布数据;根据所述流量分布数据及所述自然流量分布概率确定所述待检测流量对应的作弊分值;根据所述作弊分值判断所述待检测流量是否存在流量作弊。2.如权利要求1所述的流量作弊识别方法,其特征在于,所述获取自然流量分布概率及待检测流量的流量分布数据的步骤之前,还包括:根据待检测流量中包含的用户操作信息确定用户思考时长;根据所述用户思考时长确定待检测流量的流量分布数据。3.如权利要求2所述的流量作弊识别方法,其特征在于,所述根据待检测流量中包含的用户操作信息确定用户思考时长的步骤,包括:获取待检测流量中包含的用户操作信息确定相邻用户操作的操作时间;根据所述操作时间确定所述相邻用户操作的操作时间差,将所述操作时间差作为对应的用户思考时长。4.如权利要求2所述的流量作弊识别方法,其特征在于,所述根据所述用户思考时长确定待检测流量的流量分布数据的步骤,包括:根据预设时间分布区间对所述用户思考时长进行分组,将各个预设时间分布区间对应的用户思考时长的数量作为对应的流量分布数量;根据所述流量分布数量及用户思考时长的总数确定各个预设时间分布区间的流量分布概率;根据所述流量分布概率及流量分布数量确定待检测流量的流量分布数据。5.如权利要求1所述的流量作弊识别方法,其特征在于,所述根据所述流量分布数据及所述自然流量分布概率确定所述待检测流量对应的作弊分值的步骤包括:获取所述流量分布数据中的流量分布概率及流量分布数量;根据所述流量分布概率、所述流量分布数量及自然流量分布概率确定所述待检测流量对应的作弊分值。6.如权利要求5所述的流量作弊识别方法,其特征在于,所述根据所述流量分布概率、所述流量分布数量及自然流量分布概率确定所述待检测流量对应的作弊分值的步骤,包括:根据所述流量分布概率、所述流量分布数量及所述自然流量分布概率通过作弊分值计算公式确定所述待检测流量对应的...

【专利技术属性】
技术研发人员:秦莎
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1