一种诈骗电话动态识别区间构建方法技术

技术编号：29412107 阅读：40 留言：0更新日期：2021-07-23 22:53

本发明专利技术公开了一种诈骗电话动态识别区间构建方法。本发明专利技术创新提出了超参数优化和梯度提升机相结合的方式构建诈骗电话识别模型，利用超参数优化算法对梯度提升机的参数进行优化，提升模型识别效果。本发明专利技术使用随机森林算法进行数据特征选择，选取特征重要度大于0.8的维度构建诈骗电话特征向量。用户话单数据是典型的不平衡数据，本发明专利技术提出使用欠采样与过采样相结合混合采样的方法对数据进行采样，缓解了数据分布的不平衡，经过实验验证是一种可行的方法。本发明专利技术提出了一种基于概率预测模型的参数化方法，以分类器输出的概率作为样本的置信度，根据模型输出的样本置信度，构建诈骗电话动态识别区间。

全部详细技术资料下载

【技术实现步骤摘要】
一种诈骗电话动态识别区间构建方法
本专利技术涉及互联网通信领域、人工智能领域，是一种诈骗电话动态识别区间构建方法，可应用于电信反欺诈领域。
技术介绍
诈骗电话严重扰乱了正常通信秩序，妨害公民通信自由，干扰人民群众正常工作生活，已成为当今社会一个严重的问题。如何有效识别和拦截诈骗电话在电信反欺诈机制中起着重要作用，引起了学术界、工业界和政府资助机构的广泛关注。相关技术中，利用众包标注的方法进行诈骗电话识别是较常用的方法，但是众包标注成本高，效率低下。随着人工智能技术得飞速发展，在相关技术中，也利用机器学习方法构建诈骗电话识别模型，但是大多数研究者只用模型输出的正确率评价模型的好坏，然而对于诈骗电话话单数据这种典型的不平衡数据集，模型识别存在较大偏差，正确率并不能准确反映模型的识别效果。因此，本专利技术基于多种评价指标的机器学习算法，提出一种诈骗电话动态识别区间。
技术实现思路
本专利技术的目的在于提供了一种诈骗电话识别动态区间构建方法，旨在解决电信领域反欺诈场景中诈骗电话识别准确率不高的问题，即电信...

【技术保护点】
1.一种诈骗电话动态识别区间构建方法，其特征在于，包括如下步骤，/n步骤1：提出了基于随机森林进行诈骗电话用户话单数据进行特征提取的方法；/n步骤2：根据步骤1处理的数据，利用混合采样方法对数据进行再平衡处理，减少由于数据不平衡分布对模型带来的影响；/n步骤3：根据诈骗电话用户话单数据的特点，构建诈骗电话识别模型，并用多种评价指标衡量模型识别效果；/n步骤4：根据步骤3，利用诈骗电话识别模型判读数据样本为诈骗电话的概率，构建诈骗电话动态识别区间；/n其中利用随机森林诈骗电话用户话单数据特征提取方法，计算数据集中每个维度特征的信息增益，根据信息增益构建每棵树的节点分裂，最后计算每个维度数据的得分...

【技术特征摘要】
1.一种诈骗电话动态识别区间构建方法，其特征在于，包括如下步骤，
步骤1：提出了基于随机森林进行诈骗电话用户话单数据进行特征提取的方法；
步骤2：根据步骤1处理的数据，利用混合采样方法对数据进行再平衡处理，减少由于数据不平衡分布对模型带来的影响；
步骤3：根据诈骗电话用户话单数据的特点，构建诈骗电话识别模型，并用多种评价指标衡量模型识别效果；
步骤4：根据步骤3，利用诈骗电话识别模型判读数据样本为诈骗电话的概率，构建诈骗电话动态识别区间；
其中利用随机森林诈骗电话用户话单数据特征提取方法，计算数据集中每个维度特征的信息增益，根据信息增益构建每棵树的节点分裂，最后计算每个维度数据的得分；用原始诈骗电话用户话单数据作为输入，使用VIM表示变量的重要性度量，GI表示基尼指数；
具有n个示例的训练数据集S定义为：
S＝{si},i＝1,2,...,n(1)
其中si表示样本集中任意一个样本点，n表示该样本集中包含n个样本点，si的定义如式2所示；
si＝(xi,yi),i＝1,2,...,n(2)
其中，xi＝{v1,v2,...,vw}表示是一个实例，vj表示是xi样本的特征，yi＝{1,2,...,C}表示相对应的xi的标签，数据分为正常电话用户话单数据和诈骗电话用户话单数据即C＝2；
使用的数据维度为数据脱敏手机号v1、被呼叫的手机号v2、通话频率v3、成功连接的比率v4、平均通话持续时间v5、铃声的平均持续时间v6、呼叫类型v7、呼叫时间v8、呼叫持续时间v9、被挂断电话的比率v10、手机的状况v11、通话时间v12字段；即w＝12；
GI基尼指数定义为:

其中，K表示K个类别，pmk表示类别k在节点m中所占的比例，pmk'表示类别不为k的节点m所占的比例；
VIM变量重要性定义为：

其中，GIleft和GIright分别表示m节点的左右两个新分支节点的GI索引；
最后，标准化所有变量的...

【专利技术属性】
技术研发人员：林绍福，常晴晴，刘希亮，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人