一种基于AI和数据挖掘的诈骗号码识别预警方法技术

技术编号:36516509 阅读:58 留言:0更新日期:2023-02-01 15:48
本发明专利技术提供一种基于AI和数据挖掘的诈骗号码识别预警方法,涉及电信诈骗识别技术领域,包括:根据入网时长选取目标用户;对目标用户进行原始特征收集;针对原始特征进行新特征提取,根据各原始特征及新特征的信息价值,获取一组训练特征;根据训练特征获取训练数据集,训练获取朴素贝叶斯分类器;将所有目标用户的特征数据输入朴素贝叶斯分类器,获得各目标用户的诈骗号码风险概率。本发明专利技术添加更具备事实依据的AI稽核识别的标签,在基础数据质量标签基础上使数据更完整更具备实际价值,由事后方式转为事前识别方式,提前干预提前进行管控,使管控更及时。使管控更及时。使管控更及时。

【技术实现步骤摘要】
一种基于AI和数据挖掘的诈骗号码识别预警方法


[0001]本专利技术涉及电信诈骗识别
,尤其是涉及一种基于AI和数据挖掘的诈骗号码识别预警方法。

技术介绍

[0002]近年来电信诈骗异常猖獗,除了给受骗群众带来经济损失以外,还涉及部分案件对于社会的恶劣影响,以及用户对于运营商的误解,因此对于诈骗电话的识别,及时通过封号等手段来割掉电信诈骗的毒瘤,也是当前运营商行业内一项重要工作。
[0003]目前诈骗电话治理主要基于大数据分析模型和高危漫游地的管控,该模式已在全国推广。
[0004]诈骗电话大数据分析模型主要是通过业务分析的几类场景进行分析,常用的判别场景主要如下几点:一是号码复用率低,终端复用率高;二是号码使用时间多为集中在工作日白天;三是使用地区相对集中;四是主叫占比高,被叫相对较离散。通过以上四种业务场景,设计对应指标,对于发生交叉场景涉及指标越多,则作为诈骗号码风险越高。
[0005]传统关于诈骗电话识别流程是,通过对于号码复用率低终端复用率高 IMEI号构建高风险IMEI号终端库,通过对号码使用终端进行识别是否高风险终端,对于高风险终端判别是否使用地区漫游地区为高风险诈骗地区,且主叫占比高,通过逐级筛选最终判别为诈骗号码满足3

4个条件为高风险用户,满足其中1

2个为中风险用户。
[0006]在传统诈骗号码识别过程中,主要是通过业务知识结合数据分析一些风险临界值判别验证,将风险结果进行封号等处理;这种诈骗号码识别主要是一些常态化业务规则判别、人为的数据统计分析模型来进行事后的稽核判别,这一类的模型最大的缺点一是滞后性,通过事后判别事件延迟,其次是识别方法欠缺一定科学合理性。

技术实现思路

[0007]针对上述问题,本专利技术提供了一种基于AI和数据挖掘的诈骗号码识别预警方法,添加更具备事实依据的AI稽核识别的标签,在基础数据质量标签基础上使数据更完整更具备实际价值,由事后方式转为事前识别方式,提前干预提前进行管控,使管控更及时。
[0008]为实现上述目的,本专利技术公开了一种基于AI和数据挖掘的诈骗号码识别预警方法,包括:
[0009]根据入网时长选取目标用户;
[0010]对所述目标用户进行原始特征收集;
[0011]针对所述原始特征进行新特征提取,根据各所述原始特征及所述新特征的信息价值,获取一组训练特征;
[0012]根据所述训练特征获取训练数据集,训练获取朴素贝叶斯分类器;
[0013]将所有所述目标用户的特征数据输入所述朴素贝叶斯分类器,获得各所述目标用户的诈骗号码风险概率。
[0014]作为本专利技术的进一步改进,对所述目标用户进行原始特征收集;包括:
[0015]收集目标用户的基本属性、消费属性、活动属性、行为属性、稽核属性。
[0016]作为本专利技术的进一步改进,所述基本属性包括:姓名、年龄、性别、号码、状态、归属、品牌、资费套餐、入网时间、存量客户或新增客户、是否高端客户、是否集团客户;
[0017]所述消费属性包括:当月账户金额、近3月ARPU值;
[0018]所述活动属性包括:积分、手机IMEI、手机型号、手机网络制式、使用时长、是否新增、是否支持5G、是否支持4G;
[0019]所述行为属性包括通话行为和业务属性,所述通话行为包括主被叫次数、通话时长、本地通话时长、网内通话次数、网外通话时长、长途通话次数、网内通话时长、网外通话次数、呼转次数、投诉次数,长途通话时长、漫游次数、漫游时长;所述业务属性包括:基于各种业务的订购和使用反应客户的业务行为属性;
[0020]所述稽核属性包括实名制稽核和基础业务AI稽核,所述实名制稽核包括同身份证件开卡数、异地身份证开卡识别,所述基础业务AI稽核包括入网现场采集的人像照片是否异常。
[0021]作为本专利技术的进一步改进,所述针对所述原始特征进行新特征提取,根据各所述原始特征及所述新特征的信息价值,获取一组训练特征;包括:
[0022]将所述原始特征转换为具有物理意义或统计意义或核的新特征;
[0023]计算各原始特征和新特征的IV值,根据IV值从高到低挑选一组最具预测能力的训练特征。
[0024]作为本专利技术的进一步改进,根据所述训练特征获取训练数据集,训练获取朴素贝叶斯分类器;包括:
[0025]计算训练数据集中每个训练特征的先验概率;
[0026]通过朴素贝叶斯算法及所述先验概率计算训练数据所属的各风险等级的后验概率;
[0027]通过K

近邻算法找到各训练数据的k个邻居,通过线性方法给每个邻居加权,在加权后的邻域内构建朴素贝叶斯分类器。
[0028]作为本专利技术的进一步改进,通过朴素贝叶斯算法及所述先验概率计算训练数据所属的各风险等级的后验概率;公式为:
[0029][0030][0031]其中:
[0032]X表示训练特征向量,X={x1,x2,...,xn};
[0033]P(Ci)表示先验概率;
[0034]P(C
i
|X)表示后验概率;
[0035]P(X)对所有训练特征为常数;
[0036]若训练特征为分类属性,则P(x
k
|C
i
)是训练集中该训练特征的特征值为 x
k
且属于
C
i
类的个数,除以C
i
类的总个数;
[0037]若训练特征为连续值属性,则假设连续值属性服从均值为η、标准差为σ的高斯分布,表示为:
[0038][0039]则P(x
k
|C
i
)=g(x
k
,ηC
i
,σC
i
)。
[0040]作为本专利技术的进一步改进,在计算P(X|C
i
)过程中,当任一特征x
i
未出现时,则根据P(X|C
i
)=0,为使结果合理,则采用拉普拉斯算法,在分子分母上分别加1和风险等级的总个数。
[0041]作为本专利技术的进一步改进,所述通过K

近邻算法找到各训练数据的k个邻居,通过线性方法给每个邻居加权,在加权后的邻域内构建朴素贝叶斯分类器;包括:
[0042]选择不同的k值,构建多个朴素贝叶斯分类器;
[0043]选择分类准确度最高的朴素贝叶斯分类器作为最终的分类器。
[0044]与现有技术相比,本专利技术的有益效果为:
[0045]本专利技术在传统的业务识别的方法基础上,通过训练提取诈骗号码通信行为特征,结合基础业务AI稽核结果、异动监控、实名违规稽核结果,应用机器学习算法进行预判,识别诈骗高风险电话号码,在作案前,就能根据号码的风险等级采取有针对性的管控措施。推进诈骗电话“事后治理”向“事前管控”的模式转变,实现诈骗电话管控手段前本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于AI和数据挖掘的诈骗号码识别预警方法,其特征在于,包括:根据入网时长选取目标用户;对所述目标用户进行原始特征收集;针对所述原始特征进行新特征提取,根据各所述原始特征及所述新特征的信息价值,获取一组训练特征;根据所述训练特征获取训练数据集,训练获取朴素贝叶斯分类器;将所有所述目标用户的特征数据输入所述朴素贝叶斯分类器,获得各所述目标用户的诈骗号码风险概率。2.根据权利要求1所述的诈骗号码识别预警方法,其特征在于:对所述目标用户进行原始特征收集;包括:收集目标用户的基本属性、消费属性、活动属性、行为属性、稽核属性。3.根据权利要求1所述的诈骗号码识别预警方法,其特征在于:所述基本属性包括:姓名、年龄、性别、号码、状态、归属、品牌、资费套餐、入网时间、存量客户或新增客户、是否高端客户、是否集团客户;所述消费属性包括:当月账户金额、近3月ARPU值;所述活动属性包括:积分、手机IMEI、手机型号、手机网络制式、使用时长、是否新增、是否支持5G、是否支持4G;所述行为属性包括通话行为和业务属性,所述通话行为包括主被叫次数、通话时长、本地通话时长、网内通话次数、网外通话时长、长途通话次数、网内通话时长、网外通话次数、呼转次数、投诉次数,长途通话时长、漫游次数、漫游时长;所述业务属性包括:基于各种业务的订购和使用反应客户的业务行为属性;所述稽核属性包括实名制稽核和基础业务AI稽核,所述实名制稽核包括同身份证件开卡数、异地身份证开卡识别,所述基础业务AI稽核包括入网现场采集的人像照片是否异常。4.根据权利要求1所述的诈骗号码识别预警方法,其特征在于:所述针对所述原始特征进行新特征提取,根据各所述原始特征及所述新特征的信息价值,获取一组训练特征;包括:将所述原始特征转换为具有物理意义或统计意义或核的新特征;计算各原始特征和新特征的IV值,根据IV值从高到低挑选一组最具预测能力的训练特征。5.根据权利要求1所述的诈骗号码识别预警方法,其特征在于:根据所述训练特征获取训练数据集,训练获取朴素贝叶斯...

【专利技术属性】
技术研发人员:王川川
申请(专利权)人:北京思特奇信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1