【技术实现步骤摘要】
广告位数据的异常检测与筛选方法
[0001]本专利技术涉及电数字数据处理
,具体涉及一种广告位数据的异常检测与筛选方法。
技术介绍
[0002]线上广告产业逐渐成为广告行业中重要的组成部分。但在广告位进行投放广告所需花费由广告位上广告被网络平台用户所点击的次数也即点击量决定,而有些广告位上的广告点击数据可能存在异常,一些恶意点击或刷量点击可能严重影响对广告投放预算的准确估值。
[0003]现有技术中一般通过对广告位点击量时序数据进行异常检测来识别广告位信息的异常点击,这种方式一般只能当一个广告位的点击数据相比于其他广告位的点击数据出现较大差异时才能识别出异常,灵敏性较为不足。在另一些现有技术中,通过追踪用户IP的方式来辨别进行点击的用户的异常程度,这种方法虽然能通过大量点击的IP地址是否相同来进行用户的异常识别,但IP地址可能为伪造信息,因此也存在一定的局限性。综上,相关技术中对异常点击记录的筛选可靠性不足。
技术实现思路
[0004]为了解决对异常点击记录的筛选可靠性不足的技术问题,本专利技术 ...
【技术保护点】
【技术特征摘要】
1.一种广告位数据的异常检测与筛选方法,其特征在于,所述方法包括:获取至少两个用户在预设时间段内点击广告位的点击记录数据,根据广告不同将所述点击记录数据划分为至少一个点击序列,确定每个所述点击序列在所对应广告中的点击完成度;任选某一用户的点击记录数据作为待测数据,从所述待测数据任选某一点击序列作为第一序列,将所述待测数据中除所述第一序列之外的其他序列作为第二序列,确定所述第一序列分别与每个所述第二序列在广告内容的内容相似度;将第一序列与每个第二序列分别所对应初始时刻的点击时间的时间间隔作为第一序列与第二序列的时序距离,遍历所述待测数据中所有所述点击序列,根据所述时序距离、所述内容相似度和所述点击完成度,确定所述待测数据的点击逻辑特征系数;根据所述待测数据与其他用户的点击记录数据的点击记录差异确定所述待测数据的相似系数,根据所述点击逻辑特征系数和所述相似系数,确定所述待测数据的异常程度;根据所有所述点击记录数据的异常程度对所述点击记录数据进行筛选,得到正常点击数据和异常点击数据。2.如权利要求1所述的一种广告位数据的异常检测与筛选方法,其特征在于,所述确定所述第一序列分别与每个所述第二序列在广告内容的内容相似度,包括:确定所述第一序列所对应广告的第一内容标签,确定任一所述第二序列所对应广告的第二内容标签,其中,每个广告至少对应一个内容标签;将相同的所述第一内容标签和所述第二内容标签作为相同标签,确定所述第一内容标签的数量和所述第二内容标签的数量的和值为总标签数量;计算所述相同标签的数量与总标签数量的比值作为所述第一序列与所述第二序列的内容相似度,由此,遍历所有所述第二序列,得到所述第一序列分别与每个所述第二序列的内容相似度。3.如权利要求1所述的一种广告位数据的异常检测与筛选方法,其特征在于,所述遍历所述待测数据中所有所述点击序列,根据所述时序距离、所述内容相似度和所述点击完成度,确定所述待测数据的点击逻辑特征系数,包括:对所述时序距离进行反比例的归一化处理得到所述第一序列和所述第二序列的时序距离系数;计算所述时序距离系数和所述内容相似度的乘积作为所述第一序列和所述第二序列的第一特征因子;将所述第一序列分别与所有所述第二序列的所述第一特征因子的和值作为所述第一序列的时序特征系数;计算所述第一序列的时序特征系数和所述点击完成度的乘积作为正常程度系数;遍历所述待测数据中的所有第一序列,计算所有所述正常程度系数的均值的反比例归一化值作为所述待测数据的点击逻辑特征系数。4.如权利要求1所述的一种广告位数据的异常检测与筛选方法,其特征在于,所述根据所述待测数据与其他用户的点击记录数据的点击记录差异确定所述待测数据的相似系数,包括:根据所述待测数据与其他用户的点击记录数据在点击相同广告时的点击次序,确定所
述待测数据的点击次序系数;获...
【专利技术属性】
技术研发人员:张忠祥,
申请(专利权)人:深圳媒介之家文化传播有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。