风险用户识别方法和装置,存储介质及电子设备制造方法及图纸

技术编号:23150734 阅读:23 留言:0更新日期:2020-01-18 14:06
本公开涉及一种风险用户识别方法和装置,存储介质及电子设备。所述方法包括:获取用户集合中各用户的特征数据,所述用户集合包括风险样本用户和多个待识别用户;以最小化所述用户集合的信息熵为目标,确定所述用户集合中各用户之间的相似度;基于谱聚类算法,根据所述用户集合中各用户之间的相似度对用户集合进行聚类处理,以将所述用户集合划分为多个群集;根据所述风险样本用户在所述多个群集中的分布信息,从所述多个待识别用户中确定出风险用户。通过本公开的技术方案,可以自动确定用户集合中各用户之间的相似度,进而可以提升整个风险用户识别过程的效率以及识别结果的准确性,降低整个过程的人力成本。

Risk user identification methods and devices, storage media and electronic equipment

【技术实现步骤摘要】
风险用户识别方法和装置,存储介质及电子设备
本公开涉及计算机
,具体地,涉及一种风险用户识别方法和装置,存储介质及电子设备。
技术介绍
在信贷、金融反欺诈等业务领域,通常需要对风险用户进行识别,以降低业务风险。相关技术中,风险用户识别大多是由人工基于待识别的多个用户各自的特征数据确定各用户之间的相似度,然后根据各用户之间的相似度以及风险用户的历史特征数据进行风险用户识别,该风险用户识别方法的效率低、准确率难以得到保证、人力成本高。
技术实现思路
为了克服相关技术中存在的问题,本公开提供一种风险用户识别方法和装置,存储介质及电子设备。为了实现上述目的,根据本公开实施例的第一方面,提供一种风险用户识别方法,包括:获取用户集合中各用户的特征数据,所述用户集合包括风险样本用户和多个待识别用户;以最小化所述用户集合的信息熵为目标,确定所述用户集合中各用户之间的相似度,其中,所述信息熵用于表征对所述用户集合进行聚类处理得到的聚类结果的不确定程度,所述信息熵中每一用户属于一群集的概率为该用户与所述用户集合中其他各用户之间的相似度之和占所述用户集合中各用户相互之间的相似度之和的比重;基于谱聚类算法,根据所述用户集合中各用户之间的相似度对用户集合进行聚类处理,以将所述用户集合划分为多个群集;根据所述风险样本用户在所述多个群集中的分布信息,从所述多个待识别用户中确定出风险用户。可选地,所述信息熵为:其中,H(X)为所述信息熵;P(xi)为所述用户集合中的用户xi属于一群集的概率,n为所述用户集合中的用户个数;Wij为所述用户集合中的用户xi与用户xj之间的相似度。可选地,所述基于谱聚类算法,根据所述用户集合中各用户之间的相似度对用户集合进行聚类处理,以将所述用户集合划分为多个群集,包括:根据所述用户集合中各用户之间的相似度,分别构造相似矩阵和度矩阵,其中,所述相似矩阵中的元素用于表征所述用户集合中两个用户之间的相似度,所述度矩中的元素用于表征所述用户集合中的一用户与其他用户之间的相似度之和;至少根据所述相似矩阵和所述度矩阵,构造目标矩阵,其中,所述目标矩阵的每一行向量表征所述用户集合中的一个用户在特征空间中的坐标;对所述目标矩阵进行降维后的行向量进行聚类处理,以将所述用户集合划分为多个群集。可选地,所述至少根据所述相似矩阵和所述度矩阵,构造目标矩阵,包括:根据所述相似矩阵和所述度矩阵,构造拉普拉斯矩阵;根据所述拉普拉斯矩阵进行特征映射,选取出聚类个数的特征值;根据选取出的各个特征值各自对应的特征向量构造特征向量矩阵;对所述特征向量矩阵的行向量进行规范化处理,得到所述目标矩阵。可选地,所述用户集合中每一用户的特征数据包括该用户在多个维度下的特征;所述至少根据所述相似矩阵和所述度矩阵,构造目标矩阵,包括:根据所述相似矩阵和所述度矩阵,构造拉普拉斯矩阵;从所述多个维度中确定出至少一个候选维度,对所述用户集合中各用户在每一所述候选维度下的特征进行组合,得到特征组合;基于以下公式,根据所述特征组合和所述拉普拉斯矩阵分别构造对角矩阵、第一中间矩阵以及第二中间矩阵:其中,U(j,j)为对角矩阵,Pj为投影矩阵的第j行;α,β,γ均为预先设定的调节参数;R为用于表征所述特征组合X中的各特征之间的相关程度的相关性矩阵,rij=I(fi,fj),rij∈R,rij表示所述特征组合X中维度i下的特征与维度j下的特征之间的互信息,且rij∈[0,1];A为所述第一中间矩阵;H为所述第二中间矩阵;D为所述度矩阵;L为所述拉普拉斯矩阵;从所述第二中间矩阵的所有特征值中,选取出聚类个数的特征值;根据选取出的各个特征值各自对应的特征向量、所述第一中间矩阵和所述特征组合,分别构造特征向量矩阵以及该特征向量对应的投影矩阵:其中,T为所述特征向量矩阵,c为所述聚类个数;v1,v2,…,vc选取出的特征值各自对应的特征向量;P为所述投影矩阵;若构造出的投影矩阵不收敛,则重复执行所述从所述多个维度中确定出至少一个候选维度,对所述用户集合中各用户在每一所述候选维度下的特征进行组合至所述分别构造特征向量矩阵以及该特征向量对应的投影矩阵的步骤,直到构造出的投影矩阵收敛;以及,在构造的投影矩阵收敛的情况下,对该投影矩阵对应特征向量矩阵的行向量进行规范化处理,得到所述目标矩阵。根据本公开实施例的第二方面,提供一种风险用户识别装置,包括:获取模块,用于获取用户集合中各用户的特征数据,所述用户集合包括风险样本用户和多个待识别用户;第一确定模块,用于以最小化所述用户集合的信息熵为目标,确定所述用户集合中各用户之间的相似度,其中,所述信息熵用于表征对所述用户集合进行聚类处理得到的聚类结果的不确定程度,所述信息熵中每一用户属于一群集的概率为该用户与所述用户集合中其他各用户之间的相似度之和占所述用户集合中各用户相互之间的相似度之和的比重;聚类模块,用于基于谱聚类算法,根据所述用户集合中各用户之间的相似度对用户集合进行聚类处理,以将所述用户集合划分为多个群集;第二确定模块,用于根据所述风险样本用户在所述多个群集中的分布信息,从所述多个待识别用户中确定出风险用户。可选地,所述信息熵为:其中,H(X)为所述信息熵;P(xi)为所述用户集合中的用户xi属于一群集的概率,n为所述用户集合中的用户个数;Wij为所述用户集合中的用户xi与用户xj之间的相似度。可选地,所述聚类模块包括:第一构造子模块,用于根据所述用户集合中各用户之间的相似度,分别构造相似矩阵和度矩阵,其中,所述相似矩阵中的元素用于表征所述用户集合中两个用户之间的相似度,所述度矩中的元素用于表征所述用户集合中的一用户与其他用户之间的相似度之和;第二构造子模块,用于至少根据所述相似矩阵和所述度矩阵,构造目标矩阵,其中,所述目标矩阵的每一行向量表征所述用户集合中的一个用户在特征空间中的坐标;聚类子模块,用于对所述目标矩阵进行降维后的行向量进行聚类处理,以将所述用户集合划分为多个群集。可选地,所述第二构造子模块用于根据以下方式构造所述目标矩阵:根据所述相似矩阵和所述度矩阵,构造拉普拉斯矩阵;根据所述拉普拉斯矩阵进行特征映射,选取出聚类个数的特征值;根据选取出的各个特征值各自对应的特征向量构造特征向量矩阵;对所述特征向量矩阵的行向量进行规范化处理,得到所述目标矩阵。可选地,所述用户集合中每一用户的特征数据包括该用户在多个维度下的特征,所述第二构造子模块用于根据以下方式构造所述目标矩阵:根据所述相似矩阵和所述度矩阵,构造拉普拉斯矩阵;从所述多个维度中确定出至少一个候选维度,对所述用户集合中各用户在每一所述候选维度下的特征进行组合,得到特征组合;基于以下公式,根据所述特征组本文档来自技高网...

【技术保护点】
1.一种风险用户识别方法,其特征在于,包括:/n获取用户集合中各用户的特征数据,所述用户集合包括风险样本用户和多个待识别用户;/n以最小化所述用户集合的信息熵为目标,确定所述用户集合中各用户之间的相似度,其中,所述信息熵用于表征对所述用户集合进行聚类处理得到的聚类结果的不确定程度,所述信息熵中每一用户属于一群集的概率为该用户与所述用户集合中其他各用户之间的相似度之和占所述用户集合中各用户相互之间的相似度之和的比重;/n基于谱聚类算法,根据所述用户集合中各用户之间的相似度对用户集合进行聚类处理,以将所述用户集合划分为多个群集;/n根据所述风险样本用户在所述多个群集中的分布信息,从所述多个待识别用户中确定出风险用户。/n

【技术特征摘要】
1.一种风险用户识别方法,其特征在于,包括:
获取用户集合中各用户的特征数据,所述用户集合包括风险样本用户和多个待识别用户;
以最小化所述用户集合的信息熵为目标,确定所述用户集合中各用户之间的相似度,其中,所述信息熵用于表征对所述用户集合进行聚类处理得到的聚类结果的不确定程度,所述信息熵中每一用户属于一群集的概率为该用户与所述用户集合中其他各用户之间的相似度之和占所述用户集合中各用户相互之间的相似度之和的比重;
基于谱聚类算法,根据所述用户集合中各用户之间的相似度对用户集合进行聚类处理,以将所述用户集合划分为多个群集;
根据所述风险样本用户在所述多个群集中的分布信息,从所述多个待识别用户中确定出风险用户。


2.根据权利要求1所述的方法,其特征在于,所述信息熵为:



其中,H(X)为所述信息熵;P(xi)为所述用户集合中的用户xi属于一群集的概率,n为所述用户集合中的用户个数;Wij为所述用户集合中的用户xi与用户xj之间的相似度。


3.根据权利要求1所述的方法,其特征在于,所述基于谱聚类算法,根据所述用户集合中各用户之间的相似度对用户集合进行聚类处理,以将所述用户集合划分为多个群集,包括:
根据所述用户集合中各用户之间的相似度,分别构造相似矩阵和度矩阵,其中,所述相似矩阵中的元素用于表征所述用户集合中两个用户之间的相似度,所述度矩中的元素用于表征所述用户集合中的一用户与其他用户之间的相似度之和;
至少根据所述相似矩阵和所述度矩阵,构造目标矩阵,其中,所述目标矩阵的每一行向量表征所述用户集合中的一个用户在特征空间中的坐标;
对所述目标矩阵进行降维后的行向量进行聚类处理,以将所述用户集合划分为多个群集。


4.根据权利要求3所述的方法,其特征在于,所述至少根据所述相似矩阵和所述度矩阵,构造目标矩阵,包括:
根据所述相似矩阵和所述度矩阵,构造拉普拉斯矩阵;
根据所述拉普拉斯矩阵进行特征映射,选取出聚类个数的特征值;
根据选取出的各个特征值各自对应的特征向量构造特征向量矩阵;
对所述特征向量矩阵的行向量进行规范化处理,得到所述目标矩阵。


5.根据权利要求3所述的方法,其特征在于,所述用户集合中每一用户的特征数据包括该用户在多个维度下的特征;
所述至少根据所述相似矩阵和所述度矩阵,构造目标矩阵,包括:
根据所述相似矩阵和所述度矩阵,构造拉普拉斯矩阵;
从所述多个维度中确定出至少一个候选维度,对所述用户集合中各用户在每一所述候选维度下的特征进行组合,得到特征组合;
基于以下公式,根据所述特征组合和所述拉普拉斯矩阵分别构造对角矩阵、第一中间矩阵以及第二中间矩阵:



其中,U(j,j)为对角矩阵,Pj为投影矩阵的第j行;α,β,γ均为预先设定的调节参数;R为用于表征所述特征组合X中的各特征之间的相关程度的相关性矩阵,rij=I(fi,fj),rij∈R,rij表示所述特征组合X中维度i下的特征与维度j下的特征之间的互信息,且rij∈[0,1];A为所述第一中间矩阵;H为所述第二中间矩阵;D为所述度矩阵;L为所述拉普拉斯矩阵;
从所述第二中间矩阵的所有特征值中,选取出聚类个数的特征值;
根据选取出的各个特征值各自对应的特征向量、所述第一中间矩阵和所述特征组合,分别构造特征向量矩阵以及该特征向量对应的投影矩阵:



其中,T为所述特征向量矩阵,c为所述聚类个数;v1,v2,…,vc选取出的特征值各自对应的特征向量;P为所述投影矩阵;
若构造出的投影矩阵不收敛,则重复执行所述从所述多个维度中确定出至少一个候选维度,对所述用户集合中各用户在每一所述候选维度下的特征进行组合至所述分别构造特征向量矩阵以及该特征向量对应的投影矩阵的步骤...

【专利技术属性】
技术研发人员:何曲棠罗广锋
申请(专利权)人:深圳中兴飞贷金融科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1