【技术实现步骤摘要】
欺诈用户识别方法、装置、设备及存储介质
[0001]本专利技术涉及运营商大数据
,尤其涉及一种欺诈用户识别方法、装置、设备及存储介质。
技术介绍
[0002]目前电信诈骗已成为一项重点社会治理问题,其中通过语音专线的固话类诈骗为其中重要的类别。诈骗分子通过盗取等手段获得语音专线类资源,并设计巧妙的话术引导诱骗群众以实现倾销劣质产品或非法获取群众财产的目的。为了有效抑制该种电信诈骗行为的发生,各运营商均积极响应政府的工作部署,应用业务经验或大数据技术构建自身的语音专线反欺诈模型。
[0003]但是由于样本及技术的限制,以及反欺诈模型的特殊性(建模正样本极其有限),当前各运营商均通过简单粗暴的“过采样”或者“欠采样”方法实现样本均衡,进而通过逻辑回归、决策树等简单的算法进行语音专线反欺诈模型的构建,存在反欺诈模型性能差、欺诈用户识别有效性低的技术问题。
[0004]上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。
技术实现思路
[0005]本专利技术的主要目的在于提供一种欺诈用户识别方法、装置、设备及存储介质,旨在解决现有技术中反欺诈模型性能差、欺诈用户识别有效性低的技术问题。
[0006]为实现上述目的,本专利技术提供了一种欺诈用户识别方法,所述方法包括以下步骤:
[0007]获取通信用户的用户指标数据;
[0008]将所述用户指标数据输入至预设语音专线反欺诈模型进行欺诈识别,获得识别结果,其中,所述预设语音专线反欺诈模型包含基于 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种欺诈用户识别方法,其特征在于,所述方法包括:获取通信用户的用户指标数据;将所述用户指标数据输入至预设语音专线反欺诈模型进行欺诈识别,获得识别结果,其中,所述预设语音专线反欺诈模型包含基于Stacking模型融合方式构建的第一层模型和第二层模型,所述第一层模型包含若干基模型,所述若干基模型的模型输出结果经过线性加权后输入至所述第二层模型进行拟合;根据所述识别结果判断所述通信用户是否属于欺诈用户。2.如权利要求1所述的方法,其特征在于,所述获取通信用户的用户指标数据之前,还包括:采用N折交叉验证方式将均衡化建模样本集拆分成N个数据集,其中N为大于等于2的正整数;对所述预设语音专线反欺诈模型的第一层模型中的每个基模型循环执行N次模型训练操作,所述模型训练操作为从所述N个数据集中任选N
‑
1份数据集对所述基模型分别进行模型训练,并通过剩余的一份数据集对训练后的基模型进行模型推理。3.如权利要求1所述的方法,其特征在于,所述获取通信用户的用户指标数据之前,还包括:采用分段赋值方式对所述预设语音专线反欺诈模型的第一层模型中的每个基模型进行权重赋值,所述分段赋值方式为根据各基模型输出的欺诈用户概率所处的概率区间分配不同的权重值。4.如权利要求2所述的方法,其特征在于,所述采用N折交叉验证方式将均衡化建模样本集拆分成N个数据集之前,还包括:获取建模样本数据,所述建模样本数据包括正样本数据和负样本数据,所述正样本数据为历史语音专线欺诈用户的用户指标数据,所述负样本数据为历史正常用户的用户指标数据;根据所述正样本数据和所述负样本数据的数量比例确定采样倍率;在所述正样本数据中任选一个正样本点,获取所述正样本点与剩余正样本点之间的欧式距离,根据所述欧式距离确定所述正样本点的预设近邻值K对应的K近邻样本;根据所述采样倍率从所述K近邻样本中选出M近邻样本组合,其中,K>M;根据所述M近邻样本组合和所述正样本点通过第一预设公式构建拟合样本,并且将所述拟合样本和所述建模样本数据进行合并,获得均衡化建模样本集,其中,所述第一预设公式为:X
new
=X+rand(0,1)*(X
n
‑
X),式中,X
new
表示拟合样本,X表示所述正样本点,X
n
表示所述M近邻样本组合中的近邻组样本点的维度。5.如权利要求4所述的方法,其特征在于,所述根据所述M近邻样本组合和所述正样本点构建拟合样本,并且将所述拟合样本和所述建模样本数据进行合并,获得均衡化建模样本集,包括:通过第二预设公式计算每个所述M近邻样本组合与所述正样本点之间的距离,并选择距离最小的所述M近邻样本组合作为最优近邻样本组合;
其中,所述第二预设公式为:式中,k表示样本的维度、p表示所述M近邻样本组合中的样本序号,A、M_group分别为N维空间的所述正样本点和所述M近邻样本组合的近邻组样本点,A点坐标为a(x
11
,x
12
,x
13
,...,x
技术研发人员:刘亮,顾强,孙小娟,屈林波,庞振,王学亮,蒋强,
申请(专利权)人:中国移动通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。