风险模型训练、垃圾账号检测方法、装置以及设备制造方法及图纸

技术编号:18723832 阅读:18 留言:0更新日期:2018-08-22 00:51
本说明书实施例公开了风险模型训练、垃圾账号检测方法、装置以及设备。方案包括:获取账号网络图,账号网络图包括节点和将节点连接起来的边,节点表示账号,至少部分边表示其连接的节点表示的账号通过同一媒介注册,通过无监督学习,确定节点的特征向量,再根据确定的特征向量,通过有监督学习,训练风险模型,利用训练后的风险模型检测垃圾账号,风险模型比如是GBDT分类器等。

Risk model training, garbage account detection method, device and equipment

The embodiment of the manual discloses a risk model training, a garbage account detection method, a device and an equipment. The scheme includes: getting the account network graph, the account network graph includes the node and the edge connecting the node, the node represents the account, at least part of the edge indicates that the connected node represents the account registered through the same medium, through unsupervised learning, determine the node's eigenvector, and then according to the determined eigenvector, through having Supervised learning, training risk models, using the trained risk model to detect junk accounts, risk models such as GBDT classifier.

【技术实现步骤摘要】
风险模型训练、垃圾账号检测方法、装置以及设备
本说明书涉及计算机软件
,尤其涉及风险模型训练、垃圾账号检测方法、装置以及设备。
技术介绍
随着计算机和互联网技术的迅速发展,很多业务可以在网上进行,用户要使用这些业务,往往需要注册相应的账号,比如电商平台账号、第三方支付平台账号、论坛平台账号等。一些用户或者组织出于不良目的,会通过机器自动注册大量账号以及批量进行实名认证等操作,这些账号可能给平台带来风险,而且对于平台价值也较低,可以视为垃圾账号。在现有技术中,一般通过用户举报的方式,对这些垃圾账号进行相应的处理,比如冻结、注销等。基于现有技术,需要有效的垃圾账号检测方案。
技术实现思路
本说明书实施例提供风险模型训练、垃圾账号检测方法、装置以及设备,用以解决如下技术问题:需要有效的垃圾账号检测方案。为解决上述技术问题,本说明书实施例是这样实现的:本说明书实施例提供的一种风险模型训练方法,包括:获取账号网络图,所述账号网络图包括节点和将节点连接起来的边,所述节点表示账号,至少部分所述边表示其连接的节点表示的账号通过同一媒介注册;通过无监督学习,确定所述账号网络图中的节点的特征向量;根据部分所述节点的特征向量和风险标注数据,训练风险模型,用以检测垃圾账号。本说明书实施例提供的一种垃圾账号检测方法,包括:确定待检测账号对应的特征向量;将所述待检测账号对应的特征向量输入利用上述风险模型训练方法训练后的风险模型;根据所述训练后的风险模型的输出数据,判定所述待检测账号是否为垃圾账号。本说明书实施例提供的一种风险模型训练装置,包括:获取模块,获取账号网络图,所述账号网络图包括节点和将节点连接起来的边,所述节点表示账号,至少部分所述边表示其连接的节点表示的账号通过同一媒介注册;确定模块,通过无监督学习,确定所述账号网络图中的节点的特征向量;训练模块,根据部分所述节点的特征向量和风险标注数据,训练风险模型,用以检测垃圾账号。本说明书实施例提供的一种垃圾账号检测装置,包括:确定模块,确定待检测账号对应的特征向量;输入模块,将所述待检测账号对应的特征向量输入利用上述风险模型训练方法训练后的风险模型;判定模块,根据所述训练后的风险模型的输出数据,判定所述待检测账号是否为垃圾账号。本说明书实施例提供的一种风险模型训练设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:获取账号网络图,所述账号网络图包括节点和将节点连接起来的边,所述节点表示账号,至少部分所述边表示其连接的节点表示的账号通过同一媒介注册;通过无监督学习,确定所述账号网络图中的节点的特征向量;根据部分所述节点的特征向量和风险标注数据,训练风险模型,用以检测垃圾账号。本说明书实施例提供的一种垃圾账号检测设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:确定待检测账号对应的特征向量;将所述待检测账号对应的特征向量输入利用上述风险模型训练方法训练后的风险模型;根据所述训练后的风险模型的输出数据,判定所述待检测账号是否为垃圾账号。本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:对于无监督学习过程,基于账号网络图,能够高效准确地通过图计算确定节点的特征向量,再结合有监督学习过程,使得即使在风险标注数据较少的情况下,也能够较为准确地训练风险模型,进而,利用训练后的风险模型,能够有效地检测垃圾账号。附图说明为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本说明书的方案在一种实际应用场景下涉及的一种整体架构示意图;图2为本说明书实施例提供的一种风险模型训练方法的流程示意图;图3为本说明书实施例提供的一种垃圾账号检测方法的流程示意图;图4为本说明书实施例提供的对应于图2的一种风险模型训练装置的结构示意图;图5为本说明书实施例提供的对应于图3的一种垃圾账号检测装置的结构示意图;图6为本说明书实施例提供的对应于图2的一种风险模型训练设备的结构示意图;图7为本说明书实施例提供的对应于图3的一种垃圾账号检测设备的结构示意图。具体实施方式本说明书实施例提供风险模型训练、垃圾账号检测方法、装置以及设备。为了使本
的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。在大多数业务平台的风控体系中,检测垃圾账号在风控安全上具有重要意义。一般地,无论账号是否涉及到欺诈,只要是非正常用途的账号均可以视为垃圾账号,比如
技术介绍
中通过机器自动大量注册的账号等。如果一个设备注册了多个账号,理想的情况是根据这些账号之后的行为判定其是否是垃圾账号,比如,若是正常线下线上购物等行为,则可以判定为非垃圾账号,但在实际应用中,往往账号注册几个月之后才能够获得足够的判定依据,而不法分子很有可能在此期间利用该账号进行欺诈等行为,因此,设计一种能够尽量提前检测垃圾账号的方案就尤为重要。在账号网络图中能够获取很多有用信息,比如账号注册行为或者注册后登录等行为的共性等,进而通过图计算来提高账号特征表示准确度。基于此,本说明书实施例提出了基于无监督学习的账号网络图节点的特征向量表示方案,以及进一步地基于有监督学习的风险模型训练方案,整个过程结合了无监督学习和有监督学习,可以称为半监督学习过程。账号网络图中的节点表示账号,边可以表示节点间具有指定共性。图1为本说明书的方案在一种实际应用场景下涉及的一种整体架构示意图。该整体架构中,主要涉及无监督学习服务器和有监督学习服务器。由无监督学习服务器获取反映注册行为共性的账号网络图,通过无监督学习,确定图中节点的特征向量,再由有监督学习服务器根据部分节点的特征向量和风险标注数据,通过有监督学习,训练风险模型,用以检测垃圾账号。账号网络图可以由无监督学习服务器或者其他设备生成,风险标注数据可以由有监督学习服务器或者其他设备生成,或者人工标注。无监督学习服务器和有监督学习服务器也可以是同一服务器。下面基于图1中示例性的架构,对本说明书的方案进行详细说明。图2为本说明书实施例提供的一种风险模型训练方法的流程示意图。图2中的流程可以包括以下步骤:S202:获取账号网络图,所述账号网络图包括节点和将节点连接起来的边,所述节点表示账号,至少部分所述边表示其连接的节点表示的账号通过同一媒介注册。在本说明书实施例中,账号网络图可以基于账号历史数据生成,账号历史数据可以包括账号注册时的数据,比如,账号是通过怎样的媒介注册的、账号注册时填本文档来自技高网
...

【技术保护点】
1.一种风险模型训练方法,包括:获取账号网络图,所述账号网络图包括节点和将节点连接起来的边,所述节点表示账号,至少部分所述边表示其连接的节点表示的账号通过同一媒介注册;通过无监督学习,确定所述账号网络图中的节点的特征向量;根据部分所述节点的特征向量和风险标注数据,训练风险模型,用以检测垃圾账号。

【技术特征摘要】
1.一种风险模型训练方法,包括:获取账号网络图,所述账号网络图包括节点和将节点连接起来的边,所述节点表示账号,至少部分所述边表示其连接的节点表示的账号通过同一媒介注册;通过无监督学习,确定所述账号网络图中的节点的特征向量;根据部分所述节点的特征向量和风险标注数据,训练风险模型,用以检测垃圾账号。2.如权利要求1所述的方法,所述媒介包括设备。3.如权利要求1所述的方法,所述获取账号网络图,具体包括:根据账号注册历史数据,生成账号媒介网络图,所述账号媒介网络图中的节点表示账号和媒介,表示媒介的节点与表示通过该媒介注册的账号的节点间具有边;根据所述账号媒介网络图,生成账号网络图。4.如权利要求3所述的方法,所述根据所述账号媒介网络图,生成账号网络图,具体包括:分别针对所述账号媒介网络图中的每个媒介节点执行步骤a、b、c:a、为该媒介节点建立一个初始为空的账号节点集合;b、确定所述账号媒介网络图中与该媒介节点间有边的全部账号节点,并将该全部账号节点加入该账号节点集合中;c、将该账号节点集合中的各账号节点两两连边,步骤c完毕;生成由全部账号节点集合共同构成的账号网络图。5.如权利要求4所述的方法,所述账号媒介网络图表示为第一矩阵,所述第一矩阵中的元素的取值表示该元素对应的账号节点与媒介节点间是否有边;所述账号网络图表示为第二矩阵,所述第二矩阵中的元素的取值表示该元素对应的账号节点间是否有边;所述确定所述账号媒介网络图中与该媒介节点间有边的全部账号节点,具体包括:遍历所述第一矩阵中与该媒介节点相关的各元素,根据所述各元素分别的取值,确定所述账号媒介网络图中与该媒介节点间有边的全部账号节点;所述将该账号节点集合中的各账号节点两两连边,具体包括:为该账号节点集合中的各账号节点两两分别对应生成所述第二矩阵中的一个元素,并使该元素的取值表示其对应的两个账号节点间有边。6.如权利要求1所述的方法,所述通过无监督学习,确定所述账号网络图中的节点的特征向量,具体包括:确定所述账号网络图中的节点的附近节点;确定该节点及其附近节点当前的特征向量,所述当前的特征向量初始时按照设定规则初始化得到;利用指定的损失函数,通过无监督学习,训练所述当前的特征向量,从而确定出该节点训练后的特征向量;其中,所述附近节点包括从该节点出发,不多于设定跳数能够到达的节点。7.如权利要求6所述的方法,所述训练所述当前的特征向量,具体包括:以提高所述节点及其附近节点当前的特征向量间的相似度为目标,训练所述当前的特征向量。8.如权利要求6所述的方法,若基于向量点积度量向量间的相似度,则所述指定的损失函数包括:其中,表示节点w当前的特征向量,T(w)表示节点w的附近节点构成的节点集合,U(w)表示节点w的附近节点以外的至少部分节点构成的节点集合,表示T(w)中的节点的特征向量,表示U(w)中的节点的特征向量,σ表示激励函数,λ表示超参数,Ec'∈U(w)表示当c'符合指定概率分布的期望函数。9.如权利要求1所述的方法,所述根据部分节点的特征向量和风险标注数据,训练风险模型,具体包括:以部分节点的特征向量作为模型输入数据,以对应的风险标注数据作为有监督学习训练标签,训练作为风险模型的梯度提升决策树GBDT分类器。10.一种垃圾账号检测方法,包括:确定待检测账号对应的特征向量;将所述待检测账号对应的特征向量输入利用权利要求1~9任一项所述的方法训练后的风险模型;根据所述训练后的风险模型的输出数据,判定所述待检测账号是否为垃圾账号。11.一种风险模型训练装置,包括:获取模块,获取账号网络图,所述账号网络图包括节点和将节点连接起来的边,所述节点表示账号,至少部分所述边表示其连接的节点表示的账号通过同一媒介注册;确定模块,通过无监督学习,确定所述账号网络图中的节点的特征向量;训练模块,根据部分所述节点的特征向量和风险标注数据,训练风险模型,用以检测垃圾账号。12.如权利要求11所述的装置,所述媒介包括设备。13.如权利要求11所述的装置,所述获取模块获取账号网络图,具体包括:所述获取模块根据账号注册历史数据,生成账号媒介网络图,所述账号媒介网络图中的节点表示账号和媒介,表示媒介的...

【专利技术属性】
技术研发人员:曹绍升周俊
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1