一种异常注册行为的识别方法、系统及设备技术方案

技术编号:14470003 阅读:111 留言:0更新日期:2017-01-21 01:47
本发明专利技术提供一种异常注册行为的识别方法、系统及设备。该方法包括:监测预识别时间段内的注册数量高于参考时间段的注册数量的识别阈值后,获取基于密度聚类算法扫描所述预识别时间段内的所有注册行为后标记的至少一个高度集中的注册账户簇;识别所述至少一个注册账户簇中的携带异常行为的注册账户群。本发明专利技术提供的一种异常注册行为的识别方法、系统及设备,识别通过等长邮箱进行批量注册的账户群体,通过技术手段对其进行识别、标记、处理,使资源的分配更具合理性和公平性。

【技术实现步骤摘要】

本专利技术涉及异常行为识别
,尤其涉及一种异常注册行为的识别方法、系统及设备。
技术介绍
在电商或者社交等以用户为基础的相关行业中,某些群体为了达到某些特定目的(如抢购稀缺资源、进行舆论导向等),经常会通过机器批量注册很多账户,造成使资源的分配不合理不公平。
技术实现思路
为了解决上述技术问题,本专利技术提供了一种批量注册异常行为特征的识别方法、系统及终端,可以将批量注册异常行为特征从正常注册行为特征中识别出来,使资源的分配更具合理性和公平性。本专利技术一方面提供了一种异常注册行为的识别方法,包括:监测预识别时间段内的注册数量高于参考时间段的注册数量的识别阈值后,获取基于密度聚类算法扫描所述预识别时间段内的所有注册行为后标记的至少一个高度集中的注册账户簇;识别所述至少一个注册账户簇中的携带异常行为的注册账户群。进一步的,所述参考时间段的注册数量,包括:以所述预识别时间段为基准单位,获取所述预识别时间段之前连续的多个基准单位的注册数量。进一步的,所述识别阈值的计算方式包括:P1>α(Σnn+mPi-Pmax-Pmin);]]>其中,α为数据突增的比例,P1为预识别时间段内的注册数量,n为预识别时间段之前连续的一个基准单位,n+m为预识别时间段之前连续的多个基准单位,Pi为参考时间段的注册数量,Pmax为预识别时间段之前连续的多个基准单位中的注册数量最大值,Pmin为预识别时间段之前连续的多个基准单位中的注册数量最小值。进一步的,所述获取基于密度聚类算法扫描所述预识别时间段内的所有注册行为后标记的至少一个高度集中的注册账户簇,包括:预设扫描半径和最小包含点数;利用密度聚类算法,基于所述预设扫描半径和最小包含点数按时间顺序扫描预识别时间段内的注册数量中所有的注册账户,标记至少一个高度集中在某个时间段内注册的账户簇。进一步的,所述识别所述至少一个注册账户簇中的携带异常行为的注册账户群,包括:识别所述至少一个账户簇中不少于预定数量的账户量,和/或所述至少一个账户簇中不少于预定邮件长度的账户量的注册账户群。进一步的,还包括:逐一扫描所述注册账户群中的账户,获取注册账户群内所有@前的字符串;统计所述@前的字符串中连续预设位数的字符中涉及的每个英文字母和数字的个数,以每个英文字母和数字的预定位数统计的数量为一组数据,计算所有英文字母和数字的平均变异系数,若平均变异系数小于阈值,则标识这个账户群为批量注册账户群。进一步的,所述平均变异系数的计算方式为:C=(SD/Mean)×100%;其中,C为平均变异系数;SD为标准偏差;Mean为平均值。本专利技术另一方面还提供了一种异常注册行为的识别系统,包括:监控模块,用于监测预识别时间段内的注册数量高于参考时间段的注册数量的识别阈值后,获取基于密度聚类算法扫描所述预识别时间段内的所有注册行为后标记的至少一个高度集中的注册账户簇;识别模块,用于识别所述至少一个注册账户簇中的携带异常行为的注册账户群。进一步的,所述参考时间段的注册数量,包括:以所述预识别时间段为基准单位,获取所述预识别时间段之前连续的多个基准单位的注册数量。进一步的,所述识别阈值的计算方式包括:P1>α(Σnn+mPi-Pmax-Pmin);]]>其中,α为数据突增的比例,P1为预识别时间段内的注册数量,n为预识别时间段之前连续的一个基准单位,n+m为预识别时间段之前连续的多个基准单位,Pi为参考时间段的注册数量,Pmax为预识别时间段之前连续的多个基准单位中的注册数量最大值,Pmin为预识别时间段之前连续的多个基准单位中的注册数量最小值。进一步的,所述监控模块,包括:预设单元,用于预设扫描半径和最小包含点数;监控单元,用于利用密度聚类算法,基于所述预设扫描半径和最小包含点数按时间顺序扫描预识别时间段内的注册数量中所有的注册账户,标记至少一个高度集中在某个时间段内注册的账户簇。进一步的,所述识别模块,包括:第一识别单元,用于识别所述至少一个账户簇中不少于预定数量的账户量,和/或第二识别单元,用于所述至少一个账户簇中不少于预定邮件长度的账户量的注册账户群。进一步的,还包括:扫描单元,用于逐一扫描所述注册账户群中的账户,获取注册账户群内所有@前的字符串;统计单元,用于统计所述@前的字符串中连续预设位数的字符中涉及的每个英文字母和数字的个数,标识单元,用于以每个英文字母和数字的预定位数统计的数量为一组数据,计算所有英文字母和数字的平均变异系数,若平均变异系数小于阈值,则标识这个账户群为批量注册账户群。进一步的,所述平均变异系数的计算方式为:C=(SD/Mean)×100%;其中,C为平均变异系数;SD为标准偏差;Mean为平均值。本专利技术还提供了一种异常注册行为的识别设备,包括前述任一项所述的系统。本专利技术通过监测预识别时间段内的注册数量高于参考时间段的注册数量的识别阈值后,获取基于密度聚类算法扫描所述预识别时间段内的所有注册行为后标记的至少一个高度集中的注册账户簇;识别所述至少一个注册账户簇中的携带异常行为的注册账户群。识别通过等长邮箱进行批量注册的账户群体,通过技术手段对其进行识别、标记、处理,使资源的分配更具合理性和公平性。附图说明图1为本专利技术提供的一种异常注册行为的识别方法的实施例一的流程图;图2为本专利技术提供的一种异常注册行为的识别方法的实施例一应用实例之一的示意图;图3为本专利技术提供的一种异常注册行为的识别方法的实施例另一应用实例之一的示意图;图4为本专利技术提供的一种异常注册行为的识别系统的实施例二的结构框图。图5为本专利技术提供的一种异常注册行为的识别系统的监控模块的结构框图;图6为本专利技术提供的一种异常注册行为的识别系统的识别单元的结构框图之一;图7为本专利技术提供的一种异常注册行为的识别系统的识别单元的结构框图之二;图8为本专利技术提供的一种异常注册行为的识别设备的实施例三的示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。其中,DBSCAN是一种基于密度的空间聚类算法,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇。其中包括:Ε领域(eps):给定对象半径为Ε内的区域称为该对象的Ε领域;核心点:如果给定对象Ε领域内样本点数大于等于MinPts,则称该对象为核心点本文档来自技高网
...

【技术保护点】
一种异常注册行为的识别方法,其特征在于,包括:监测预识别时间段内的注册数量高于参考时间段的注册数量的识别阈值后,获取基于密度聚类算法扫描所述预识别时间段内的所有注册行为后标记的至少一个高度集中的注册账户簇;识别所述至少一个注册账户簇中的携带异常行为的注册账户群。

【技术特征摘要】
1.一种异常注册行为的识别方法,其特征在于,包括:监测预识别时间段内的注册数量高于参考时间段的注册数量的识别阈值后,获取基于密度聚类算法扫描所述预识别时间段内的所有注册行为后标记的至少一个高度集中的注册账户簇;识别所述至少一个注册账户簇中的携带异常行为的注册账户群。2.如权利要求1所述的方法,其特征在于,所述参考时间段的注册数量,包括:以所述预识别时间段为基准单位,获取所述预识别时间段之前连续的多个基准单位的注册数量。3.如权利要求1或2所述的方法,其特征在于,所述识别阈值的计算方式包括:P1>α(Σnn+mPi-Pmax-Pmin);]]>其中,α为数据突增的比例,P1为预识别时间段内的注册数量,n为预识别时间段之前连续的一个基准单位,n+m为预识别时间段之前连续的多个基准单位,Pi为参考时间段的注册数量,Pmax为预识别时间段之前连续的多个基准单位中的注册数量最大值,Pmin为预识别时间段之前连续的多个基准单位中的注册数量最小值。4.如权利要求1-3之一所述的方法,其特征在于,所述获取基于密度聚类算法扫描所述预识别时间段内的所有注册行为后标记的至少一个高度集中的注册账户簇,包括:预设扫描半径和最小包含点数;利用密度聚类算法,基于所述预设扫描半径和最小包含点数按时间顺序扫描预识别时间段内的注册数量中所有的注册账户,标记至少一个高度集中在某个时间段内注册的账户簇。5.如权利要求1-4之一所述的方法,其特征在于,所述识别所述至少一个注册账户簇中的携带异常行为的注册账户群,包括:识别所述至少一个账户簇中不少于预定数量的账户量,和/或所述至少一个账户簇中不少于预定邮件长度的账户量的注册账户群。6.如权利要求5所述的方法,其特征在于,还包括:逐一扫描所述注册账户群中的账户,获取注册账户群内所有@前的字符串;统计所述@前的字符串中连续预设位数的字符中涉及的每个英文字母和数字的个数,以每个英文字母和数字的预定位数统计的数量为一组数据,计算所有英文字母和数字的平均变异系数,若平均变异系数小于阈值,则标识这个账户群为批量注册账户群。7.如权利要求6所述的方法,其特征在于,所述平均变异系数的计算方式为:C=(SD/Mean)×100%;其中,C为平均变异系数;SD为标准偏差;Mean为平均值。8.一种异常注册行为的识别系统,其特征在于,包括...

【专利技术属性】
技术研发人员:曹杰冯雨晖宿晓坤李学超
申请(专利权)人:北京红马传媒文化发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1