【技术实现步骤摘要】
生成作弊预测模型的方法、装置、设备、介质及程序产品
[0001]本公开涉及计算机领域,具体涉及深度学习和知识图谱等人工智能领域,尤其涉及一种生成作弊预测模型的方法、装置、设备、介质及程序产品。
技术介绍
[0002]流量反作弊方法是从正常用户行为、机器爬取、恶意刷点击以及羊毛党等行为中去掉非正常用户行为的数据,从而得到有效的日活跃用户数量(Daily Active User,DAU)、点击等数据为后续进行机器学习建模提供准确数据的过程。
[0003]目前,目前的反作弊方法包括以下几种情况:(1)基于规则的反作弊方法。(2)采用统计的方法。(3)基于聚类的算法。
技术实现思路
[0004]本公开实施例提出了一种生成作弊预测模型的方法、装置、设备、介质及程序产品。
[0005]第一方面,本公开实施例提出了一种生成作弊预测模型的方法,包括:获取目标流量数据集;根据作弊预测模型的第一神经网络,确定目标流量数据集中不作弊对应的第一流量数据;根据作弊预测模型的第二神经网络,对第一流量数据进行作弊检测,得到第一流量数据中作弊对应的第二流量数据;利用目标流量数据集中作弊对应的流量数据和第二流量数据进行训练和对应的真实标签,生成作弊预测模型。
[0006]第二方面,本公开实施例提出了一种生成作弊预测模型的装置,包括:数据获取模块,被配置成获取目标流量数据集;数据确定模块,被配置成根据作弊预测模型的第一神经网络,确定目标流量数据集中不作弊对应的第一流量数据;数据得到模块,被配置成根据作弊预测模型的 ...
【技术保护点】
【技术特征摘要】
1.一种生成作弊预测模型的方法,包括:获取目标流量数据集;根据作弊预测模型的第一神经网络,确定所述目标流量数据集中不作弊对应的第一流量数据;根据所述作弊预测模型的第二神经网络,对所述第一流量数据进行作弊检测,得到所述第一流量数据中作弊对应的第二流量数据;利用所述目标流量数据集中作弊对应的流量数据和所述第二流量数据进行训练和对应的真实标签,生成作弊预测模型。2.根据权利要求1所述的方法,其中,所述根据作弊预测模型的第一神经网络,确定所述目标流量数据集中不作弊对应的第一流量数据,包括:将所述目标流量数据集输入作弊预测模型的第一神经网络中,得到所述目标流量数据集对应的预测标签,其中,所述预测标签为作弊或不作弊;将所述目标流量数据集中预测标签为不作弊对应的流量数据确定为第一流量数据。3.根据权利要求1或2所述的方法,所述方法还包括:对所述目标流量数据集进行特征提取,得到对应的特征库;根据特征重要性,从所述特征库中提取预设个特征;所述根据所述作弊预测模型的第二神经网络,对所述第一流量数据进行作弊检测,得到所述第一流量数据中作弊对应的第二流量数据,包括:根据所述作弊预测模型的第二神经网络,对所述第一流量数据中预设个特征对应的流量数据进行作弊检测,得到所述第一流量数据中作弊对应的第二流量数据。4.根据权利要求3所述的方法,其中,若所述第一神经网络为lightgbm网络;所述根据特征重要性,从所述特征库中提取预设个特征,包括:将所述特征库输入所述lightgbm网络中,得到所述特征库中每个特征的特征重要性;根据所述每个特征的特征重要性,从所述特征库中提取预设个特征。5.根据权利要求1
‑
4任一项所述的方法,其中,所述第二神经网络为孤立森林网络。6.根据权利要求3
‑
5任一项所述的方法,其中,所述对所述目标流量数据集进行特征提取,得到对应的特征库,包括:从以下至少一个维度,对所述目标流量数据集进行特征提取,得到对应的特征库:业务维度、渠道来源维度、设备维度、时序维度。7.根据权利要求1
‑
6任一项所述的方法,其中,所述目标流量数据集包括异常流量数据和正常流量数据,其中,所述正常流量数据与异常流量数据之间成预设的比例。8.根据权利要求7所述的方法,其中,所述真实标签可以基于以下步骤确定:基于所述目标流量数据集中作弊对应的流量数据和所述第二流量数据中的异常流量数据对应的知识图谱和正常流量数据对应的知识图谱,确定所述真实标签。9.一种预测作弊的方法,包括:获取待预测的流量数据集;将待预测的流量数据集输入如权利要求1
‑
8任一项所述的作弊预测模型的第一神经网络中,得到第一预测标签;以及将所述待预测的流量数据集中第一预测标签为不作弊的第一预测流量数据输入如权
利要求1
‑
8任一项所述的作弊预测模型的第二神经网络中,得到第二预测标签;根据所述待预测的流量数据集中第一预测标签为作弊的流量数据,以及所述第一预测流量数据中第二预测标签为作弊的流量数据,确定所述待预测的流量数据集的作弊预测结果。10.根据权利要求9所述的方法,所述方法还包括:对所述待预测的流量数据集进行特征提取,得到样本特征库;根据样本特征重要性,从所述样本特征库中提取预设个样本特征。11.根据权利要求10所述的方法,其中,若所述第一神经网络为lightgbm网络;以及所述根据样本特征重要性,从所述样本特征库中提取预设个样本特征,包括:将所述样本特征库中的每个样本特征输入所述lightgbm网络中,得到所述每个样本特征的特征重要性;根据所述每个样本特征的特征重要性,从所述样本特征库中提取预设个样本特征。12.根据权利要求10或11所述的方法,其中,所述将所述待预测的流量数据集中第一预测标签为不作弊的第一预测流量数据输入如权利要求1
‑
8任一项所述的作弊预测模型的第二神经网络中,得到第二预测标签,包括:将所述预设个样本特征输入所述第二神经网络中,得到所述第二预测标签。13.一种生成作弊预测模型的装置,包括:数据获取模块,被配置成获取目标流量数据集;数据确定模块,被配置成根据作弊预测模型的第一神经网络,确定所述目标流量数据集中不作弊对应的第一流量数据;数据得到模块,被配置成根据所述作弊预测模型的第二神经网络,对所...
【专利技术属性】
技术研发人员:谭云飞,刘晓庆,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。