【技术实现步骤摘要】
一种黑产用户识别方法及装置、服务器、存储介质
本申请涉及计算机
,尤其涉及一种黑产用户识别方法及装置、服务器、存储介质。
技术介绍
目前,基于用户行为数据识别黑产用户的方案主要是利用用户行为记录时间戳进行方差计算,通常情况下黑产用户行为更有规律,波动性小,即黑产用户的方差值往往要远远小于正常用户的方差值,因此可以根据方差的波动区分黑产用户和正常用户,但上述方案容易被黑产用户绕过检测。例如,黑产用户当发现行为被屏蔽后,黑产用户会先停止一段时间再次尝试,这种行为在上述方案由于存在大的时间间隔,进而导致整体方差变大,从而绕过打击。因此,如何提高黑产用户的识别准确率,是需要解决的问题。
技术实现思路
本申请实施例提供一种黑产用户识别方法及装置、服务器、存储介质,以期提高黑产用户的识别准确率。本申请实施例一方面提供了一种黑产用户识别方法,包括:获取待识别用户的至少一个行为类型的用户行为数据,所述用户行为数据包括行为类型和行为时间;针对任一行为类型的用户行为数据,通过下述步骤得到所述任一 ...
【技术保护点】
1.一种黑产用户识别方法,其特征在于,包括:/n获取待识别用户的至少一个行为类型的用户行为数据,所述用户行为数据包括行为类型和行为时间;/n针对任一行为类型的用户行为数据,通过下述步骤得到所述任一行为类型的行为特征值:/n根据时间段将所述任一行为类型的用户行为数据划分为多组用户行为数据,计算所述多组用户行为数据中每组用户行为数据中两两时间相邻的用户行为数据之间的时间间隔,得到多组时间间隔数据;/n根据每组所述时间间隔数据和每组所述时间间隔数据中每个时间间隔数据的衰减系数,得到每组所述时间间隔数据的衰减方差;/n对每组所述时间间隔数据的衰减方差和每组所述时间间隔数据的权重系数 ...
【技术特征摘要】
1.一种黑产用户识别方法,其特征在于,包括:
获取待识别用户的至少一个行为类型的用户行为数据,所述用户行为数据包括行为类型和行为时间;
针对任一行为类型的用户行为数据,通过下述步骤得到所述任一行为类型的行为特征值:
根据时间段将所述任一行为类型的用户行为数据划分为多组用户行为数据,计算所述多组用户行为数据中每组用户行为数据中两两时间相邻的用户行为数据之间的时间间隔,得到多组时间间隔数据;
根据每组所述时间间隔数据和每组所述时间间隔数据中每个时间间隔数据的衰减系数,得到每组所述时间间隔数据的衰减方差;
对每组所述时间间隔数据的衰减方差和每组所述时间间隔数据的权重系数进行加权计算,得到所述任一行为类型的行为特征值;
将所述至少一个行为类型对应的行为特征值输入黑产用户识别模型,得到所述待识别用户的预测分类概率,其中,所述黑产用户识别模型是基于样本用户行为特征集合以及所述样本用户行为特征集合中每个用户的至少一个行为特征值对应的用户标签训练得到,所述用户标签包括正常用户和黑产用户;
若所述预测分类概率大于预设概率阈值,则将所述待识别用户确定为黑产用户。
2.根据权利要求1所述的方法,其特征在于,所述根据每组所述时间间隔数据和每组所述时间间隔数据中每个时间间隔数据的衰减系数,得到每组所述时间间隔数据的衰减方差,包括:
根据每组所述时间间隔数据的平均值和每组所述时间间隔数据中每个时间间隔数据,得到每组所述时间间隔数据中每个时间间隔数据的波动值;
根据每个所述时间间隔数据的波动值和每个所述时间间隔数据的衰减系数,得到每个所述时间间隔数据的衰减波动值,其中,所述时间间隔数据的衰减系数是基于所述时间间隔数据在一组所述时间间隔数据中的数据序号确定的;
根据每组所述时间间隔数据中每个时间间隔数据的衰减波动值和每组所述时间间隔数据中的时间间隔数据个数,得到每组所述时间间隔数据的衰减方差。
3.根据权利要求1所述的方法,其特征在于,所述对每组所述时间间隔数据的衰减方差和每组所述时间间隔数据的权重系数进行加权计算,得到所述任一行为类型的行为特征值,包括:
根据每组所述时间间隔数据对应的时间段距离参照时间的远近,确定每组所述时间间隔数据的权重系数;
对每组所述时间间隔数据的衰减方差和每组所述时间间隔数据的权重系数进行加权计算,得到所述任一行为类型的行为特征值。
4.根据权利要求1所述的方法,其特征在于,所述黑产用户识别模型包括k+1棵回归树和所述k+1棵回归树中每一棵回归树的学习系数,所述k+1棵回归树包括首棵回归树和k棵非首棵回归树,所述k棵非首棵回归树中每棵非首棵回归树均包括根节点、内部节点和叶子节点,其中,所述k为大于或等于1的整数;所述k+1棵回归树是基于所述样本用户行为特征集合训练得到的;
所述将所述至少一个行为类型对应的行为特征值输入黑产用户识别模型,得到所述待识别用户的预测分类概率,包括:
根据所述行为特征值、所述每棵非首棵回归树的根节点和内部节点,确定所述待识别用户在所述每棵非首棵回归树的叶子节点位置;
根据所述首棵回归树的预测值、所述每棵非首棵回归树的叶子节点位置处的输出值以及所述k+1棵回归树中每一棵回归树的学习系数,得到所述待识别用户的预测值;
将所述待识别用户的预测值转化为概率,得到所述待识别用户的预测分类概率。
5.根据权利要求4所述的方法,其特征在于,所述k棵非首棵回归树包括第j棵回归树,所述j为大于1并且小于等于所述k+1的整数;
所述方法还包括所述黑产用户识别模型的构建过程:
根据所述样本用户行为特征集合中黑产用户的数量与正常用户的数量构建所述首棵回归树,所述首棵回归树包括所述样本用户行为特征集合中每个用户的第1个预测值;
根据所述每个用户的第1个预测值得到所述每个用户的第1个预测分类概率,基于所述每个用户的第1个预测分类概率和所述每个用户的用户标签得到所述每个用户的第1个残差;
根据所述每个用户的所述至少一个行为特征和所述每...
【专利技术属性】
技术研发人员:张亮,路琳,兰图,
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。