一种诈骗电话动态识别区间构建方法技术

技术编号:29412107 阅读:22 留言:0更新日期:2021-07-23 22:53
本发明专利技术公开了一种诈骗电话动态识别区间构建方法。本发明专利技术创新提出了超参数优化和梯度提升机相结合的方式构建诈骗电话识别模型,利用超参数优化算法对梯度提升机的参数进行优化,提升模型识别效果。本发明专利技术使用随机森林算法进行数据特征选择,选取特征重要度大于0.8的维度构建诈骗电话特征向量。用户话单数据是典型的不平衡数据,本发明专利技术提出使用欠采样与过采样相结合混合采样的方法对数据进行采样,缓解了数据分布的不平衡,经过实验验证是一种可行的方法。本发明专利技术提出了一种基于概率预测模型的参数化方法,以分类器输出的概率作为样本的置信度,根据模型输出的样本置信度,构建诈骗电话动态识别区间。

【技术实现步骤摘要】
一种诈骗电话动态识别区间构建方法
本专利技术涉及互联网通信领域、人工智能领域,是一种诈骗电话动态识别区间构建方法,可应用于电信反欺诈领域。
技术介绍
诈骗电话严重扰乱了正常通信秩序,妨害公民通信自由,干扰人民群众正常工作生活,已成为当今社会一个严重的问题。如何有效识别和拦截诈骗电话在电信反欺诈机制中起着重要作用,引起了学术界、工业界和政府资助机构的广泛关注。相关技术中,利用众包标注的方法进行诈骗电话识别是较常用的方法,但是众包标注成本高,效率低下。随着人工智能技术得飞速发展,在相关技术中,也利用机器学习方法构建诈骗电话识别模型,但是大多数研究者只用模型输出的正确率评价模型的好坏,然而对于诈骗电话话单数据这种典型的不平衡数据集,模型识别存在较大偏差,正确率并不能准确反映模型的识别效果。因此,本专利技术基于多种评价指标的机器学习算法,提出一种诈骗电话动态识别区间。
技术实现思路
本专利技术的目的在于提供了一种诈骗电话识别动态区间构建方法,旨在解决电信领域反欺诈场景中诈骗电话识别准确率不高的问题,即电信运营商可运用该模型完成诈骗电话识别并采取相应的控制措施,减少用户损失,提高用户体验。将用户话单日志数据作为模型输入,经过模型分析判别,输出每条用户话单日志数据为诈骗电话的置信度,根据置信度与诈骗电话动态区间的上下界阙值,判断该样本是否为可疑诈骗电话,为运营商进行用户分析和管理提供了重要参考。一种诈骗电话动态识别区间构建方法,其特征在于,包括如下步骤,步骤1:提出了基于随机森林进行诈骗电话用户话单数据进行特征提取的方法;步骤2:根据步骤1处理的数据,利用混合采样方法对数据进行再平衡处理,减少由于数据不平衡分布对模型带来的影响;步骤3:根据诈骗电话用户话单数据的特点,构建诈骗电话识别模型,并用多种评价指标衡量模型识别效果;步骤4:根据步骤3,利用诈骗电话识别模型判读数据样本为诈骗电话的概率,构建诈骗电话动态识别区间。1、本专利技术利用随机森林诈骗电话用户话单数据特征提取方法,计算数据集中每个维度特征的信息增益,根据信息增益构建每棵树的节点分裂,最后计算每个维度数据的得分。用原始诈骗电话用户话单数据作为输入,本专利技术使用VIM表示变量的重要性度量,GI表示基尼指数。具有n个示例的训练数据集S定义为:S={si},i=1,2,...,n(1)其中si表示样本集中任意一个样本点,n表示该样本集中包含n个样本点,si的定义如式2所示。si=(xi,yi),i=1,2,...,n(2)其中,xi={v1,v2,...,vw}表示是一个实例,vj表示是xi样本的特征,yi={1,2,...,C}表示相对应的xi的标签,在本专利技术中数据分为正常电话用户话单数据和诈骗电话用户话单数据即C=2。本专利技术中使用的数据维度为数据脱敏手机号v1、被呼叫的手机号v2、通话频率v3、成功连接的比率v4、平均通话持续时间v5、铃声的平均持续时间v6、呼叫类型v7、呼叫时间v8、呼叫持续时间v9、被挂断电话的比率v10、手机的状况v11、通话时间v12字段。因此在本专利技术中w=12。GI基尼指数定义为:其中,K表示K个类别,pmk表示类别k在节点m中所占的比例,pmk'表示类别不为k的节点m所占的比例。VIM变量重要性定义为:其中,GIleft和GIright分别表示m节点的左右两个新分支节点的GI索引。最后,标准化所有变量的重要度度量。对于任意一个诈骗电话特征vi,其重要度为VIMi,这期重要度的标准化计算公式如式(5)所示。其中,∑VIM表示本专利技术中的12个特征的特征重要度之和。根据重要度得分对数据进行排序,选出得分大于0.8的前9个特征构建数据的特征向量,得到新的可用于后续实验的诈骗电话用户话单数据集。2、根据用户话单数据是典型的不平衡数据,本专利技术提出使用混合采样的方法对数据进行采样,用1处理后的数据作为输入。根据正常电话与诈骗电话样本不平衡比例设置采样比率r,设正常电话样本数量为p,诈骗电话样本数量为q,则选取其中一个样本点si,利用欧氏距离计算si到它附近的r少数类样本点的距离,得到其r近邻;对于每个少数类诈骗电话样本sc,从其r个最近邻样本中随机抽取若干样本其中r∈{1,2,3,...a},表示样本sc周围除了sc以外的其他样本点,对每一个选取的近邻样本与原始样本按照snew=sc+rand(0,1)×(sc'-sc)合成新样本snew,其中rand(0,1)是生成0到1之间的随机数函数,sc'表示每一个随机选出的近邻样本。将新合成的样本snew加入到原来的数据集中,形成新的样本集;在本专利技术中正常电话为107,935条,诈骗电话8,448条,共计116,383条,经过上述方法处理后的正常电话为107,007条,诈骗电话104,059条,共计211,066条。3、根据诈骗电话用户话单数据的特点,本专利技术创新提出一种结合基于梯度的单边采样和特征捆绑的提升树算法构建诈骗电话识别模型,同时用基于随机森林的超参数优化算法对梯度提升机的参数进行优化,构建诈骗电话识别模型,并用准确率、召回率、F1值和AUC值多种指标判断模型性能。其中真阳性(TP)表示诈骗电话被预测为诈骗电话的个数,假阳性是正常电话被预测为诈骗电话得数量,假阴性是诈骗电话被预测为正常电话,真阴性是正常电话被预测为正常电话。准确率(Precision)是指预测为诈骗电话的样本中,原本就是诈骗电话的比例,用数学公式表示如下式(6)所示。召回率(Recall)是指原本为诈骗电话的样本中,预测为诈骗电话的比例,用数学公式表示如下式(7)所示。F1是调和准确率和召回率的一个新的评价指标F-measure简称F1,具体数学公式如下式(8)所示。AUC是指ROC曲线下的面积,ROC曲线是根据算法预测的结果中,原本是正常电话的样本被预测为诈骗电话的比率与原本是诈骗电话被预测为诈骗电话的比率做出的曲线,具体数学公式如下式(9)所示。其中Smin表示诈骗电话的数量,Smaj表示正常电话数量,代表第i条样本的序号,表示把诈骗电话序号加起来。4、根据步骤3所述的诈骗电话识别模型,其特征在于,模型可以输出每个样本的置信度,根据模型输出的置信度可以判断其为诈骗电话的可能性,根据样本为诈骗电话的置信度与样本真实标签数据结果,设置诈骗电话判别阈值,构建诈骗电话动态识别区间。诈骗电话动态识别区间模型工作流程如下,步骤4.1:准备利用1,2处理后的得到的107,007条正常电话,104,059条正常电话,共计211,066条的数据;步骤4.2:对步骤4.1得到的数据随机分为10份,取其中的8份用于训练模型,2份用于测试模型;步骤4.3:用基于随机森林的超参优化算法不断优化模型,当模型在训练集和测试集上的正确率,召回率,F1值和AUC值多个评价指标均大于0本文档来自技高网...

【技术保护点】
1.一种诈骗电话动态识别区间构建方法,其特征在于,包括如下步骤,/n步骤1:提出了基于随机森林进行诈骗电话用户话单数据进行特征提取的方法;/n步骤2:根据步骤1处理的数据,利用混合采样方法对数据进行再平衡处理,减少由于数据不平衡分布对模型带来的影响;/n步骤3:根据诈骗电话用户话单数据的特点,构建诈骗电话识别模型,并用多种评价指标衡量模型识别效果;/n步骤4:根据步骤3,利用诈骗电话识别模型判读数据样本为诈骗电话的概率,构建诈骗电话动态识别区间;/n其中利用随机森林诈骗电话用户话单数据特征提取方法,计算数据集中每个维度特征的信息增益,根据信息增益构建每棵树的节点分裂,最后计算每个维度数据的得分;用原始诈骗电话用户话单数据作为输入,使用VIM表示变量的重要性度量,GI表示基尼指数;/n具有n个示例的训练数据集S定义为:/nS={s

【技术特征摘要】
1.一种诈骗电话动态识别区间构建方法,其特征在于,包括如下步骤,
步骤1:提出了基于随机森林进行诈骗电话用户话单数据进行特征提取的方法;
步骤2:根据步骤1处理的数据,利用混合采样方法对数据进行再平衡处理,减少由于数据不平衡分布对模型带来的影响;
步骤3:根据诈骗电话用户话单数据的特点,构建诈骗电话识别模型,并用多种评价指标衡量模型识别效果;
步骤4:根据步骤3,利用诈骗电话识别模型判读数据样本为诈骗电话的概率,构建诈骗电话动态识别区间;
其中利用随机森林诈骗电话用户话单数据特征提取方法,计算数据集中每个维度特征的信息增益,根据信息增益构建每棵树的节点分裂,最后计算每个维度数据的得分;用原始诈骗电话用户话单数据作为输入,使用VIM表示变量的重要性度量,GI表示基尼指数;
具有n个示例的训练数据集S定义为:
S={si},i=1,2,...,n(1)
其中si表示样本集中任意一个样本点,n表示该样本集中包含n个样本点,si的定义如式2所示;
si=(xi,yi),i=1,2,...,n(2)
其中,xi={v1,v2,...,vw}表示是一个实例,vj表示是xi样本的特征,yi={1,2,...,C}表示相对应的xi的标签,数据分为正常电话用户话单数据和诈骗电话用户话单数据即C=2;
使用的数据维度为数据脱敏手机号v1、被呼叫的手机号v2、通话频率v3、成功连接的比率v4、平均通话持续时间v5、铃声的平均持续时间v6、呼叫类型v7、呼叫时间v8、呼叫持续时间v9、被挂断电话的比率v10、手机的状况v11、通话时间v12字段;即w=12;
GI基尼指数定义为:



其中,K表示K个类别,pmk表示类别k在节点m中所占的比例,pmk'表示类别不为k的节点m所占的比例;
VIM变量重要性定义为:



其中,GIleft和GIright分别表示m节点的左右两个新分支节点的GI索引;
最后,标准化所有变量的...

【专利技术属性】
技术研发人员:林绍福常晴晴刘希亮
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1