【技术实现步骤摘要】
基于大数据分析的非法用户识别方法及装置、电子设备
本公开涉及大数据
,特别涉及一种基于大数据分析的非法用户识别方法及装置、电子设备、计算机可读存储介质。
技术介绍
目前,智能手机等智能终端的普及为各种类型的APP(Application,应用程序)提供了载体。在各种类型的APP上都充斥着大量的无活动量的僵尸用户,或者大量的专门为刷量而存在的及其活跃的用户,这两类都是虚假注册的用户,虚假注册用户的存在一方面干扰了网络上正常秩序,另一方面导致了浪费资源。针对现状中存在的虚假注册用户,传统做法是人为判断虚假用户并进行删除,导致工作效率较低。现有做法是分析总结虚假注册用户的行为特征,形成特征库,进而对于未知用户,可以通过行为特征匹配的方式,确定是否属于虚假用户。由于特征库数据量有限,更新缓慢,因此虚假注册用户可能绕开特征库记载的特征,由此无法准确识别出虚假注册的用户。
技术实现思路
为了解决相关技术中存在的无法准确识别出虚假注册用户的问题,本公开提供了一种基于大数据分析的非法用户识别方法。一方面,本专利技术提供了一种基于大数据分析的非法用户识别方法,包括:获取待识别用户 ...
【技术保护点】
1.一种基于大数据分析的非法用户识别方法,其特征在于,包括:获取待识别用户集以及合法用户集的有效特征数据;将所述合法用户集的有效特征数据进行聚类,确定聚类簇数;按照所述聚类簇数对所述待识别用户集和合法用户集的有效特征数据进行聚类,得到多个聚类簇;从所述多个聚类簇中筛选出异常簇,所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇,确认所述待识别用户集中,聚类至所述异常簇的用户为非法用户。
【技术特征摘要】
1.一种基于大数据分析的非法用户识别方法,其特征在于,包括:获取待识别用户集以及合法用户集的有效特征数据;将所述合法用户集的有效特征数据进行聚类,确定聚类簇数;按照所述聚类簇数对所述待识别用户集和合法用户集的有效特征数据进行聚类,得到多个聚类簇;从所述多个聚类簇中筛选出异常簇,所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇,确认所述待识别用户集中,聚类至所述异常簇的用户为非法用户。2.根据权利要求1所述的方法,其特征在于,在所述获取待识别用户集以及合法用户集的有效特征数据之前,所述方法还包括:获取待识别用户集和合法用户集的业务数据;对所述待识别用户集和合法用户集的业务数据进行有效特征提取,获得所述待识别用户集和合法用户集的有效特征数据。3.根据权利要求2所述的方法,其特征在于,所述业务数据包括多个特征变量,所述对所述待识别用户集和合法用户集的业务数据进行有效特征提取,获得所述待识别用户集和合法用户集的有效特征数据,包括:从所述待识别用户集和合法用户集的多个特征变量中,去除变量值相同的特征变量,由剩余变量值不同的特征变量构成所述有效特征数据。4.根据权利要求2所述的方法,其特征在于,所述业务数据包括多个特征变量,所述对所述待识别用户集和合法用户集的业务数据进行有效特征提取,获得所述待识别用户集和合法用户集的有效特征数据,还包括:统计所述特征变量的每一变量值在合法用户集中的第一出现频率以及在待识别用户集中的第二出现频率;若所述第一出现频率和第二出现频率的差异大于预设范围,则所述特征变量属于有效特征数据。5.根据权利要求2所述的方法,其特征在于,所述业务数据包括多个特征变量,所述对所述待识别用户集和合法用户集的业务数据进行有效特征提取,获得所述待识别用户集和合法用户集的有效特征数据,还包括:根据所述特征变量的每一变量值在合法用户集中的出现频数,估计所述变量值在待识别用户集中的预测频数;统计所述变量值在所述待识别用户集中的真实频数,若所述真实频数大于预测频数,且真实频数大于第一预设值,预测...
【专利技术属性】
技术研发人员:孙家棣,马宁,于洋,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。