一种用户识别方法技术

技术编号:39667856 阅读:10 留言:0更新日期:2023-12-11 18:32
本发明专利技术提供一种用户识别方法,包括:搭建用户识别模型,所述用户识别模型包括多个场景,每一场景具有一分类

【技术实现步骤摘要】
一种用户识别方法


[0001]本专利技术涉及计算机
,特别涉及一种用户识别方法


技术介绍

[0002]随着计算机技术的发展,需要对不同类别的用户进行识别,以提高用户之间访问的安全性

例如,若在诈骗用户实施电信诈骗行为前精准将其诈骗电话号码识别出来,并采取措施对其进行封号,不仅可以保护人们免受诈骗活动造成的潜在损失,而且能够增加用户对运营商的信任程度

[0003]目前用户识别通常是将用户信息转换为用户特征,再基于规则或算法对用户的类别进行识别

用户信息包括用户信用度

号码启用时间

通话次数

通话时长等

现有用户识别方法主要包括基于分类器的方法和基于图挖掘的方法

[0004]基于分类器的方法是利用电信用户的通话信息构建用户特征,采用规则或者机器学习

深度学习等方法将用户识别为诈骗用户或者正常用户

此方法需要足够的特征来建立有效的分类模型,而现实中难以从通话信息中提取足够的特征;且由于数据的高敏感性,现有的基于分类器的方法大多使用有限规模的合成数据,而现实世界的真实电信数据特征参差不齐,与有限规模的合成数据有着较为明显的区别,因此这种方法难以扩展到现实世界中的真实电信数据上

[0005]基于图挖掘的方法是将每个用户的电话号码视为一个节点,而电话号码之间的通话则视为一条边,基于此构造一个通话图,根据用户接听电话的情况来学习用户经验值和电话号码信任值,加入了图神经网络的图挖掘则是将识别诈骗用户和正常用户的问题视为图节点分类

此方法需要构建一张完整的电信用户通信图,且该方法目前只能对小规模数据进行训练和预测,而现实世界的真实电信数据数目庞大,导致采用该方法的训练和预测速度都极慢,并且在内存上无法将庞大的数据构建成一张图,因此这种方法无法满足现实世界的需求

[0006]此外,由于诈骗行为的多样性导致用户识别的手段也需动态更新才可以保证有效识别,然而上述传统的静态诈骗检测方法无法满足动态更新的要求,也难以保证用户识别速度和准确性


技术实现思路

[0007]本专利技术的目的在于提供一种用户识别方法,以至少解决现有用户识别效率低且准确性较差的问题

[0008]为解决上述技术问题,本专利技术提供一种用户识别方法,包括:
[0009]搭建用户识别模型,所述用户识别模型包括多个场景,每一场景具有一分类
MLP

[0010]获取待识别用户的用户特征;
[0011]将用户特征与用户识别模型中的场景进行匹配,以得到与用户特征所匹配的场景;
[0012]利用该场景的分类
MLP
对待识别用户进行识别,以判断待识别用户为正常用户或诈骗用户

[0013]可选的,在所述的用户识别方法中,所述搭建用户识别模型的方法包括:
[0014]构建用户特征;
[0015]将用户特征进行分箱,以划分到不同的场景;
[0016]获取用户近邻表,并利用用户近邻表得到用户拓扑特征;
[0017]利用用户特征和用户拓扑特征在每一场景中训练一个分类
MLP
以对用户进行分类

[0018]可选的,在所述的用户识别方法中,所述构建用户特征的方法包括:
[0019]获取用户的电信数据,并生成用户基本特征;
[0020]利用所述电信数据对所述用户基本特征进行拓展,以得到用户特征

[0021]可选的,在所述的用户识别方法中,所述将用户特征进行分箱,以划分到不同的场景的方法包括:
[0022]确定所述用户特征与诈骗用户和正常用户的相关性;
[0023]根据所述相关性将所述用户特征划分到不同场景,其中同一场景内的用户特征均落在同一个区间内

[0024]可选的,在所述的用户识别方法中,所述确定所述用户特征与诈骗用户和正常用户的相关性的方法包括:
[0025]计算所述用户特征相对于诈骗用户和正常用户标签的皮尔逊相关系数:
[0026][0027]其中,
i∈[1

m

1],
r
i
为第
i
个特征的皮尔逊相关系数,
n
表示用户数,表示第
j
个用户的第
i
个特征,表示
n
个用户第
i
个特征的平均值,
y
j
表示第
j
个用户的标签,表示
n
个用户的标签平均值;
r
i
的取值范围为
[
‑1,
1]。
[0028]可选的,在所述的用户识别方法中,所述获取用户近邻表,并利用用户近邻表得到用户拓扑特征的方法包括:
[0029]获取用户近邻表,所述用户近邻表包括当天的用户近邻表和新获取的用户近邻表;
[0030]对当天的用户近邻表做权重衰减;
[0031]利用新获取的用户近邻表对权重衰减后的当天的用户近邻表进行增量更新,以得到最新的用户近邻表;
[0032]将用户近邻表中的邻居特征和用户特征进行拼接以得到用户邻居特征;
[0033]利用自编码器对用户邻居特征进行编码以得到用户拓扑特征

[0034]可选的,在所述的用户识别方法中,所述获取用户近邻表的方法包括:
[0035]将用户与其他用户一天的通话次数作为用户与其他用户的近邻程度;
[0036]按照近邻程度从高至低的次序,对用户近邻表进行排序;
[0037]选择用户近邻表中排名前
k
的用户作为当天的用户近邻表,当天的用户近邻表表示为:
[0038][0039][0040]其中,
N
t
(u)
表示第
t
天用户
u
的近邻表,表示第
t
天用户
u
的第
i
个邻居的用户标识,
D
t
(u)
表示第
t
天用户
u
的近邻程度表,表示第
t
天用户
u
与第
i
个邻居的近邻程度

[0041]可选的,在所述的用户识别方法中,所述对当天的用户近邻表做权重衰减的方法包括:
[0042]利用衰减系数对当天的用户近邻表做权重衰减:
[0043][0044]其中,
D
t
(u)
表示权重衰减后的第
t
天用户
u
的近邻程度表,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种用户识别方法,其特征在于,包括:搭建用户识别模型,所述用户识别模型包括多个场景,每一场景具有一分类
MLP
;获取待识别用户的用户特征;将用户特征与用户识别模型中的场景进行匹配,以得到与用户特征所匹配的场景;利用该场景的分类
MLP
对待识别用户进行识别,以判断待识别用户为正常用户或诈骗用户
。2.
根据权利要求1所述的用户识别方法,其特征在于,所述搭建用户识别模型的方法包括:构建用户特征;将用户特征进行分箱,以划分到不同的场景;获取用户近邻表,并利用用户近邻表得到用户拓扑特征;利用用户特征和用户拓扑特征在每一场景中训练一个分类
MLP
以对用户进行分类
。3.
根据权利要求2所述的用户识别方法,其特征在于,所述构建用户特征的方法包括:获取用户的电信数据,并生成用户基本特征;利用所述电信数据对所述用户基本特征进行拓展,以得到用户特征
。4.
根据权利要求3所述的用户识别方法,其特征在于,所述将用户特征进行分箱,以划分到不同的场景的方法包括:确定所述用户特征与诈骗用户和正常用户的相关性;根据所述相关性将所述用户特征划分到不同场景,其中同一场景内的用户特征均落在同一个区间内
。5.
根据权利要求4所述的用户识别方法,其特征在于,所述确定所述用户特征与诈骗用户和正常用户的相关性的方法包括:计算所述用户特征相对于诈骗用户和正常用户标签的皮尔逊相关系数:其中,
i∈[1,m

1]

r
i
为第
i
个特征的皮尔逊相关系数,
n
表示用户数,表示第
j
个用户的第
i
个特征,表示
n
个用户第
i
个特征的平均值,
y
j
表示第
j
个用户的标签,表示
n
个用户的标签平均值;
r
i
的取值范围为
[

1,1]。6.
根据权利要求2所述的用户识别方法,其特征在于,所述获取用户近邻表,并利用用户近邻表得到用户拓扑特征的方法包括:获取用户近邻表,所述用户近邻表包括当天的用户近邻表和新获取的用户近邻表;对当天的用户近邻表做权重衰减;利用新获取的用户近邻表对权重衰减后的当天的用户近邻表进行增量更新,以得到最新的用户近邻表;将用户近邻表中的邻居特征和用户特征进行拼接以得到用户邻居特征;利用自编码器对用户邻居特征进行编码以得到用户拓扑特征

7.
根据权利要求6所述的用户识别方法,其特征在于,所述获取用户近邻表的方法包括:将用户与其他用户一天的通话次数作为用户与其他用户的近邻程度;按照近邻程度从高至低的次序,对用户近邻表进行排序;选择用户近邻表中排名前
k
的用户作为当天的用户近邻表,当天的用户近邻表表示为:的用户作为当天的用户近邻表,当天的用户近邻表表示为:其中,
N
t
(u)
表示第
t
天用户
u
的近邻表,表示第
t
天用户
u
的第
i
个邻居的用户标识,
D
t
(u)
表示第
t
...

【专利技术属性】
技术研发人员:曾楚轩梁飞垚邓玲程伟李支山邓诗贤王昌栋李飞鹏罗创业魏礼超胡宇杰蓝文华杨振东吴嘉润
申请(专利权)人:中国联合网络通信有限公司广东省分公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1