【技术实现步骤摘要】
基于综合相似度的用户裂变作弊识别方法及装置
[0001]本专利技术涉及数据分析
,尤其涉及一种基于综合相似度的用户裂变作弊识别方法及装置。
技术介绍
[0002]近年来,随着互联网的高速发展,互联网产品(在互联网领域产出用于经营的商品,例如应用程序、微信小程序、网站等)的用户增长量逐渐呈平稳的趋势,在现有用户基础之上如何快速拓展互联网产品的用户,对互联网企业而言是至关重要的。为了解决上述问题,多数企业采用用户裂变的方式快速拓展用户。其中,用户裂变即利用一定的奖励引导用户分享裂变任务,以挖掘新的隐藏的消费群体。
[0003]以增长为核心导向的用户裂变模式是App最常见的获客手段之一,偏向“老带新”拉新形式的App裂变具备更低的成本和更高的激励效率。为了实现用户裂变,互联网企业往往利用电商平台提供各种优惠活动,例如赠送红包、优惠券、首单免单等。这种营销方式虽然可以短期积攒人气,但对用户的质量无法把控、识别。随着数字营销的发展,虚假流量、人工刷单、薅羊毛等作弊行为越来越受到关注。
[0004]“羊毛党”,是利用电商平台提供的各种优惠活动,以套取代金券或现金为目的,操纵大量账号仿冒新用户,参与营销活动,获取优惠券奖励。或者通过收取费用代人下单,从而获取利益。
[0005]“黑产”,是利用非法手段窃取数据、伪造身份、恶意攻击平台数据库,将“薅羊毛”变成一门“生意”。操纵大量账号参与营销活动,购买活动资格,购买后,高价卖给其他用户,从而获取利益。对于比较稀缺的、价值比较高的商品,会出现黑产。 >[0006]“羊毛党”和“黑产”在电子商务中会带来欺诈行为,对互联网产业的健康发展带来危害。例如,虚假用户裂变欺诈,是指App 采用“用户裂变”的方式来进行推广获客时,黑产通过控制大量假账号,骗取平台拉新补贴的场景。
[0007]虽然目前也出现了一些监控方式用来对用户裂变作弊行为进行监测,但是这些方法由于考虑因素单一,导致对用户裂变作弊行为的识别精准度不够,并且识别的专业度不够,导致一些用户裂变作弊行为无法识别出来。
技术实现思路
[0008]本专利技术的目的在于提供一种基于综合相似度的用户裂变作弊识别方法及装置,根据用户设备、行为数据和身份数据所衍生的多维度指标进行相似性判定,进而准确识别出用户裂变作弊行为。
[0009]为实现上述目的,本专利技术采用以下技术方案:本专利技术第一个方面提供一种基于综合相似度的用户裂变作弊识别方法,包括:针对被邀请的新用户,采集每个所述新用户使用App时的设备数据、行为数据和身份数据,所述设备数据、行为数据和身份数据分别包括至少两个特征;
基于所述特征数据生成多个衍生指标;计算各衍生指标的数值大小;将各衍生指标与其各自对应的预设的指标阈值进行比较,确定各衍生指标所对应的特征数据是否存在相似性;按照预设规则,确定存在相似性的各衍生指标的权重,即相似性评分;将各衍生指标的相似性评分进行累加,获得邀请人的综合相似度评分;判断综合相似度评分是否大于设定阈值,若是,则判定邀请人存在虚假作弊的邀请行为。
[0010]在一种优选实施例中,所述设备数据包括的特征有:手机品牌、是否插SIM卡、陀螺仪值、开机时长和联网方式;根据采集的设备数据,计算的衍生指标包括Top2手机品牌占比、未插SIM卡占比、陀螺仪值变异系数、开机时长变异系数和Top1联网方式占比中的一种或几种的组合;其中,Top2手机品牌占比=邀请的新用户中Top2手机品牌对应人数/总邀请新用户数;未插SIM卡占比=未插SIM卡的新用户数/总邀请新用户数;陀螺仪值变异系数=邀请的新用户陀螺仪值标准差/邀请的新用户陀螺仪均值;开机时长变异系数=邀请的新用户开机时长标准差/邀请的新用户开机时长均值;Top1联网方式占比=邀请的新用户中Top1联网方式对应人数/总邀请新用户数。
[0011]在一种更优选实施例中,所述方法还包括:判断Top2手机品牌占比是否大于或等于第一指标阈值,若是,则判定被邀请的新用户中,该衍生指标所对应的设备特征存在相似性;和/或判断未插SIM卡占比是否大于或等于第二指标阈值,若是,则判定被邀请的新用户中,该衍生指标所对应的设备特征存在相似性;和/或判断陀螺仪值变异系数是否小于第三指标阈值,若是,则判定被邀请的新用户中,该衍生指标所对应的设备特征存在相似性;和/或判断开机时长变异系数是否小于第四指标阈值,若是,则判定被邀请的新用户中,该衍生指标所对应的设备特征存在相似性;和/或判断Top1联网方式占比是否大于或等于第五指标阈值,若是,则判定被邀请的新用户中,该衍生指标所对应的设备特征存在相似性。
[0012]在一种优选实施例中,所述行为数据包括的特征有:每日App启动次数、每日App使用时长、每日App内点击行为数量、每日App首次点击行为时间和每日App末次点击行为时间;根据采集的行为数据,计算的衍生指标包括新用户次日留存率、新用户7日留存率、App启动次数变异系数、App使用时长变异系数、App点击行为数量变异系数、Top2首次点击行为时间占比和Top2末次点击行为时间占比中的一种或几种的组合;其中,新用户次日留存率=邀请后次日仍在使用App的新用户数/总邀请新用户数;新用户7日留存率=邀请后第七日仍在使用App的新用户数/总邀请新用户数;App启动次数变异系数=邀请的新用户App启动次数标准差/邀请的新用户App启动次数均值;App使用时长变异系数=邀请的新用户App使用时长标准差/邀请的新用户App使用
时长均值;App点击行为数量变异系数=邀请的新用户App内点击次数标准差/邀请的新用户App内点击次数均值;Top2首次点击行为时间(精确到小时)占比=邀请的新用户中Top2首次点击行为时间(精确到小时)对应人数/当日有点击行为的新用户人数;Top2末次点击行为时间(精确到小时)占比=邀请的新用户中Top2末次点击行为时间(精确到小时)对应人数/当日有点击行为的新用户人数。
[0013]在一种更优选实施例中,所述方法还包括:判断新用户次日留存率是否小于第六指标阈值或大于等于第七指标阈值,若是,则判定被邀请的新用户中,该衍生指标所对应的行为特征存在相似性;和/或判断新用户7日留存率是否小于第八指标阈值或大于等于第九指标阈值,若是,则判定被邀请的新用户中,该衍生指标所对应的行为特征存在相似性;和/或判断App启动次数变异系数是否小于第十指标阈值,若是,则判定被邀请的新用户中,该衍生指标所对应的行为特征存在相似性;和/或判断App使用时长变异系数是否小于第十一指标阈值,若是,则判定被邀请的新用户中,该衍生指标所对应的行为特征存在相似性;和/或判断App点击行为数量变异系数是否小于第十二指标阈值,若是,则判定被邀请的新用户中,该衍生指标所对应的行为特征存在相似性;和/或判断Top2首次点击行为时间(精确到小时)占比是否大于等于第十三指标阈值,若是,则判定被邀请的新用户中,该衍生指标所对应的行为特征存在相似性;和/或判断Top2末次点击行为时间(精确到小时)占比是否大于等于第十四指标本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.基于综合相似度的用户裂变作弊识别方法,其特征在于,包括:针对被邀请的新用户,采集每个所述新用户使用App时的设备数据、行为数据和身份数据,所述设备数据、行为数据和身份数据分别包括至少两个特征;基于特征数据生成多个衍生指标;计算各衍生指标的数值大小;将各衍生指标与其各自对应的预设的指标阈值进行比较,确定各衍生指标所对应的特征数据是否存在相似性;按照预设规则,确定存在相似性的各衍生指标的权重,即相似性评分;将各衍生指标的相似性评分进行累加,获得邀请人的综合相似度评分;判断综合相似度评分是否大于设定阈值,若是,则判定邀请人存在虚假作弊的邀请行为。2.根据权利要求1所述的基于综合相似度的用户裂变作弊识别方法,其特征在于,所述设备数据包括的特征有:手机品牌、是否插SIM卡、陀螺仪值、开机时长和联网方式;根据采集的设备数据,计算的衍生指标包括Top2手机品牌占比、未插SIM卡占比、陀螺仪值变异系数、开机时长变异系数和Top1联网方式占比中的一种或几种的组合;其中,Top2手机品牌占比=邀请的新用户中Top2手机品牌对应人数/总邀请新用户数;未插SIM卡占比=未插SIM卡的新用户数/总邀请新用户数;陀螺仪值变异系数=邀请的新用户陀螺仪值标准差/邀请的新用户陀螺仪均值;开机时长变异系数=邀请的新用户开机时长标准差/邀请的新用户开机时长均值;Top1联网方式占比=邀请的新用户中Top1联网方式对应人数/总邀请新用户数。3.根据权利要求2所述的基于综合相似度的用户裂变作弊识别方法,其特征在于,所述方法还包括:判断Top2手机品牌占比是否大于或等于第一指标阈值,若是,则判定被邀请的新用户中,该衍生指标所对应的设备特征存在相似性;和/或判断未插SIM卡占比是否大于或等于第二指标阈值,若是,则判定被邀请的新用户中,该衍生指标所对应的设备特征存在相似性;和/或判断陀螺仪值变异系数是否小于第三指标阈值,若是,则判定被邀请的新用户中,该衍生指标所对应的设备特征存在相似性;和/或判断开机时长变异系数是否小于第四指标阈值,若是,则判定被邀请的新用户中,该衍生指标所对应的设备特征存在相似性;和/或判断Top1联网方式占比是否大于或等于第五指标阈值,若是,则判定被邀请的新用户中,该衍生指标所对应的设备特征存在相似性。4.根据权利要求1所述的基于综合相似度的用户裂变作弊识别方法,其特征在于,所述行为数据包括的特征有:每日App启动次数、每日App使用时长、每日App内点击行为数量、每日App首次点击行为时间和每日App末次点击行为时间;根据采集的行为数据,计算的衍生指标包括新用户次日留存率、新用户7日留存率、App启动次数变异系数、App使用时长变异系数、App点击行为数量变异系数、Top2首次点击行为时间占比和Top2末次点击行为时间占比中的一种或几种的组合;其中,新用户次日留存率=邀请后次日仍在使用App的新用户数/总邀请新用户数;
新用户7日留存率=邀请后第七日仍在使用App的新用户数/总邀请新用户数;App启动次数变异系数=邀请的新用户App启动次数标准差/邀请的新用户App启动次数均值;App使用时长变异系数=邀请的新用户App使用时长标准差/邀请的新用户App使用时长均值;App点击行为数量变异系数=邀请的新用户App内点击次数标准差/邀请的新用户App内点击次数均值;Top2首次点击行为时间占比=邀请的新用户中Top2首次点击行为时间对应人数/当日有点击行为的新用户人数;Top2末次点击行为时间占比=邀请的新用户中Top2末次点击行为时间对应人数/当日有点击行为的新用户人数。5.根据权利要求4所述的基于综合相似度的用户裂变作弊识别方法,其特征在于,所述方法还包括:判断新用户次日留存率是否小于第六指标阈值或大于等于第七指标阈值,若是,则判定被邀请的新用户中,该衍生指标所对应的行为特征存在相似性;和/或判断新用户7日留存率是否小于第八指标阈值或大于等于第九指标阈值,若是,则判定被邀请的新用户中,该衍生指标所对应的行为特征存在相似性;和/或判断App启动次数变异系数是否小于第十指标阈值,若是,则判定被邀请的新用户中,该衍生指标所对应的行为特征存在相似性;和...
【专利技术属性】
技术研发人员:顾骏伟,
申请(专利权)人:上海二三四五网络科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。