【技术实现步骤摘要】
异常识别模型训练、异常对象识别方法、装置及电子设备
[0001]本专利技术涉及计算机
,特别是涉及一种异常识别模型训练、异常对象识别方法、装置及电子设备。
技术介绍
[0002]互联网广告,是指通过网站、网页、互联网应用程序等互联网媒介,以文字、图片、音频、视频或者其他形式,直接或者间接地推销商品或者服务的商业广告。比如,目前的视频软件可作为广告投放平台为广告主提供广告位,从而为广告主投放广告。在投放广告后,视频软件还需统计广告的点击率,从而确定广告投放效果或者对广告主进行计费。并且视频软件还可以统计各视频的点击率,以确定各视频的播放效果。
[0003]而黑产会对广告或视频进行恶意刷量操作,导致广告或视频的点击率异常突增,会对广告主或者视频投放者的利益造成损失。所以需要对恶意刷量操作进行识别并过滤,目前一般通过固定规则识别恶意刷量操作,比如若一个广告在5秒内被点击超过3次,则认为该广告被恶意点击。然而黑产可以通过变换刷量方式来规避固定规则,比如每3秒点击一次广告,导致通过上述固定规则无法识别出恶意刷量操作,进而 ...
【技术保护点】
【技术特征摘要】
1.一种异常识别模型训练方法,其特征在于,包括:利用异常识别模型对各识别对象的宏观统计特征进行识别,得到识别出的异常对象;其中,所述宏观统计特征包括预设时间段内点击识别对象的用户的用户统计信息和用户观影行为数据,所述异常识别模型是通过对有监督的机器学习模型进行训练得到的;将各识别对象的宏观统计特征输入无监督学习模型,并根据所述无监督学习模型输出的离群点,确定异常对象;生成训练集,所述训练集中包括训练样本和每个训练样本的人工标注结果,所述训练样本包括:利用所述异常识别模型识别出的异常对象的宏观统计特征、利用所述无监督学习模型确定的异常对象的宏观统计特征,和预设数目个识别对象的宏观统计特征;采用所述训练集对所述异常识别模型进行训练,得到迭代后的异常识别模型;所述异常识别模型用于识别异常对象。2.根据权利要求1所述的方法,其特征在于,所述根据所述无监督学习模型输出的离群点,确定异常对象,包括:在所述无监督学习模型输出的离群点中,将离群点对应的识别对象确定为异常对象;或者,在所述无监督学习模型输出的离群点中,基于离群点对应的宏观统计特征的均值和方差对离群点进行过滤,将过滤后的离群点对应的识别对象确定为异常对象。3.根据权利要求1或2所述的方法,其特征在于,在采用所述训练集对所述异常识别模型进行训练,得到迭代后的异常识别模型之后,所述方法还包括:将迭代前和迭代后的异常识别模型中识别准确率高的异常识别模型确定为线上应用的异常识别模型;或者,将迭代后的异常识别模型确定为线上应用的异常识别模型。4.根据权利要求3所述的方法,其特征在于,所述将迭代前和迭代后的异常识别模型中识别准确率高的异常识别模型确定为线上应用的异常识别模型,包括:通过验证集对迭代前的异常识别模型和迭代后的异常识别模型进行验证,分别确定迭代前的异常识别模型和迭代后的异常识别模型的识别准确率;在迭代后的异常识别模型的识别准确率高于迭代前的异常识别模型的识别准确率的情况下,将迭代后的异常识别模型部署到线上;否则,将迭代前的异常识别模型部署到线上。5.根据权利要求1所述的方法,其特征在于,所述异常识别模型为梯度提升决策树GBDT模型,所述无监督学习模型为独立森林iForest模型。6.根据权利要求1所述的方法,其特征在于,所述识别对象为视频网站中展示的广告或视频;所述方法还包括:获取所述视频网站在所述预设时间段内产生的日志数据,所述日志数据用于记录所述视频网站中的各识别对象的点击记录;从所述日志数据中提取各识别对象的点击记录,每条点击记录中包括一个用户ID;通过用户ID将每条点击记录与用户画像数据关联;针对每个识别对象,基于该识别对象包括的各点击记录所关联的用户画像数据,确定该识别对象的宏观统计特征。
...
【专利技术属性】
技术研发人员:祝黄建,郭德,
申请(专利权)人:北京奇艺世纪科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。