一种网络诈骗号码检测方法、系统、存储介质及终端设备技术方案

技术编号:30641480 阅读:23 留言:0更新日期:2021-11-04 00:39
本申请涉及一种网络诈骗号码检测方法,所述方法包括:首先针对信息诈骗行为设计相应特征并对用户行为日志进行特征提取,以构建原始特征矩阵并进行数据预处理;然后根据数据预处理后原始特征矩阵中正常用户与风险用户比例的不平衡度,采用自调节过采样算法进行少数类样本过采样,重构训练集;接着通过XGBoost模型进行预训练及特征重要性评估和特征筛选;然后对重构后的特征矩阵使用XGBoost和LightGBM模型进行模型训练;最后通过Stacking多模型融合方式提高模型性能,得到二层模型Logistic,完成移动网络风险用户识别模型。本发明专利技术能够提高对网络通信中诈骗号码识别的准确度及鲁棒性,满足了实际应用需求。满足了实际应用需求。满足了实际应用需求。

【技术实现步骤摘要】
一种网络诈骗号码检测方法、系统、存储介质及终端设备


[0001]本申请涉及机器学习和网络安全领域,特别是涉及一种网络诈骗号码检测方法、系统、存储介质及终端设备。

技术介绍

[0002]随着信息技术及通信技术的不断发展,信息通信诈骗等网络风险行为越来越频繁,技术也越来越先进且多样性,严重影响人们生活和工作。利用大数据,人工智能实现诈骗号码的识别是提升防范打击通信诈骗技术能力的重要方向。
[0003]目前,对诈骗号码的的检测,通常是基于特定的约束条件约束,或者采用随机森林算法进行的。然而,基于规则的检测方法不利于诈骗行为变化多端的情况,且基于人工设计特定的规则,不够灵活,效果比较有限;随机森林算法其预测准确度较低,因此在对于诈骗风险用户的检出率也相对较低。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够提高对网络通信中诈骗号码识别的准确度及鲁棒性的网络诈骗号码检测方法、系统、存储介质及终端设备。
[0005]本专利技术实施例提供了一种网络诈骗号码检测方法,所述方法包括以下步骤:
[0006]通过自调节过采样算法进行少数类样本的过采样,并将过采样得到的过采样矩阵与特征工程矩阵融合后得到训练特征矩阵;
[0007]通过所述训练特征矩阵分别对XGBoost模型和LightGBM模型进行训练;
[0008]将所述XGBoost模型和LightGBM模型的预测结果通过Stacking的方式进行模型融合,以得到Logistic模型;
[0009]通过所述Logistic模型对通信过程中的网络风险用户进行识别。
[0010]进一步地,所述特征工程矩阵的获取方法包括:
[0011]对实际数据集中通信网络用户的原始数据进行特征提取,并根据提取到的特征数据构建原始特征矩阵;
[0012]对所述原始特征矩阵进行特征工程处理,以得到特征工程矩阵。
[0013]进一步地,对实际数据集中通信网络用户的原始数据进行特征提取,并根据提取到的特征数据构建原始特征矩阵的方法包括:
[0014]对通信网络用户的通话日志、短信日志和网络原始日志进行特征提取;
[0015]将提取到的所述通话日志、短信日志和网络原始日志的特征信息与用户基础数据进行合并,以得到原始特征矩阵。
[0016]进一步地,对所述原始特征矩阵进行特征工程处理,以得到特征工程矩阵的方法包括:
[0017]统计所述原始特征矩阵中正常用户群体和诈骗用户群体的特征维度信息;
[0018]通过可视化工具获取正常用户群体和诈骗用户群体差异度大于目标值的多个特
征;
[0019]计算各个特征维度在原始特征矩阵的方差,根据方差选择法提取出方差大于阈值的特征,并删除正常用户和诈骗用户群体差异度小于目标值的特征,从而得到特征工程矩阵。
[0020]进一步地,通过自调节过采样算法进行少数类样本的过采样,并将过采样得到的过采样矩阵与特征工程矩阵融合后得到训练特征矩阵的方法包括:
[0021]根据距离度量计算每个少数类样本的K近邻样本;其中,K为计算近邻样本的个数;
[0022]根据同类系数模型计算每个少数类样本K近邻样本的同类系数C,并筛选出C>C_method的少数类样本作为采样少数样本;其中,C_method为同类系数阈值;
[0023]所述采样少数样本与其对应的近邻少数类样本通过随机样本生成模型得到过采样数据集,过采样数据集结合分类器模型采用“嵌入法”进行样本筛选,得到符合的少数类过采样矩阵,并与所述特征工程矩阵融合后得到训练特征矩阵。
[0024]进一步地,通过所述训练特征矩阵分别对XGBoost模型和LightGBM模型进行训练的方法包括:
[0025]将所述训练特征矩阵所对应的数据集划分为训练集和测试集;其中,所述训练集为用于模型训练的训练数据,所述测试集为用于模型测试的测试数据;
[0026]将所述训练集及测试集分别输入所述XGBoost模型和LightGBM模型进行5折交叉验证训练,使得测试集覆盖整个训练集。
[0027]进一步地,在交叉验证训练的过程中,
[0028]设置超参数:损失函数为AUC,评估函数为fs_score,模型决策树节点分裂的最大深度参数为6,学习率参数为0.08,正则化参数为2,最大迭代次数为10000轮,早停为100轮;
[0029][0030][0031][0032]其中,Precision为精确率,Recall为召回率,TP为真正例,FP为假正例,th
k
为阈值,K为常数。
[0033]本专利技术的另一实施例提出一种网络诈骗号码检测系统,解决了现有对诈骗号码的的检测,通常是基于特定的约束条件约束,或者采用随机森林算法进行的;然而,基于规则的检测方法不利于诈骗行为变化多端的情况,且基于人工设计特定的规则,不够灵活,效果比较有限;随机森林算法其预测准确度较低,因此在对于诈骗风险用户的检出率也相对较低的问题。
[0034]根据本专利技术实施例的网络诈骗号码检测系统,包括:
[0035]采样模块,用于通过自调节过采样算法进行少数类样本的过采样,并将过采样得到的过采样矩阵与特征工程矩阵融合后得到训练特征矩阵;
[0036]训练模块,用于通过所述训练特征矩阵分别对XGBoost模型和LightGBM模型进行训练;
[0037]融合模块,用于将所述XGBoost模型和LightGBM模型的预测结果通过Stacking的方式进行模型融合,以得到Logistic模型;
[0038]识别模块,用于通过所述Logistic模型对通信过程中的网络风险用户进行识别。
[0039]本专利技术的另一个实施例还提出一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如上所述的网络诈骗号码检测方法。
[0040]本专利技术的另一个实施例还提出一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现如上所述的网络诈骗号码检测方法。
[0041]上述网络诈骗号码检测方法,通过自调节过采样算法进行少数类样本的过采样,并将过采样得到的过采样矩阵与特征工程矩阵融合后得到训练特征矩阵;通过所述训练特征矩阵分别对XGBoost模型和LightGBM模型进行训练;将所述XGBoost模型和LightGBM模型的预测结果通过Stacking的方式进行模型融合,以得到Logistic模型;通过所述Logistic模型对通信过程中的网络风险用户进行识别。相比现有技术,本专利技术能够提高对网络通信中诈骗号码识别的准确度及鲁棒性,满足了实际应用需求。
附图说明
[0042]图1为本专利技术实施例提供的网络诈骗号码检测方法的一种流程示意图;
[0043]图2为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网络诈骗号码检测方法,其特征在于,所述方法包括以下步骤:通过自调节过采样算法进行少数类样本的过采样,并将过采样得到的过采样矩阵与特征工程矩阵融合后得到训练特征矩阵;通过所述训练特征矩阵分别对XGBoost模型和LightGBM模型进行训练;将所述XGBoost模型和LightGBM模型的预测结果通过Stacking的方式进行模型融合,以得到Logistic模型;通过所述Logistic模型对通信过程中的网络风险用户进行识别。2.根据权利要求1所述的网络诈骗号码检测方法,其特征在于,所述特征工程矩阵的获取方法包括:对实际数据集中通信网络用户的原始数据进行特征提取,并根据提取到的特征数据构建原始特征矩阵;对所述原始特征矩阵进行特征工程处理,以得到特征工程矩阵。3.根据权利要求2所述的网络诈骗号码检测方法,其特征在于,对实际数据集中通信网络用户的原始数据进行特征提取,并根据提取到的特征数据构建原始特征矩阵的方法包括:对通信网络用户的通话日志、短信日志和网络原始日志进行特征提取;将提取到的所述通话日志、短信日志和网络原始日志的特征信息与用户基础数据进行合并,以得到原始特征矩阵。4.根据权利要求2所述的网络诈骗号码检测方法,其特征在于,对所述原始特征矩阵进行特征工程处理,以得到特征工程矩阵的方法包括:统计所述原始特征矩阵中正常用户群体和诈骗用户群体的特征维度信息;通过可视化工具获取正常用户群体和诈骗用户群体差异度大于目标值的多个特征;计算各个特征维度在原始特征矩阵的方差,根据方差选择法提取出方差大于阈值的特征,并删除正常用户和诈骗用户群体差异度小于目标值的特征,从而得到特征工程矩阵。5.根据权利要求4所述的网络诈骗号码检测方法,其特征在于,通过自调节过采样算法进行少数类样本的过采样,并将过采样得到的过采样矩阵与特征工程矩阵融合后得到训练特征矩阵的方法包括:根据距离度量计算每个少数类样本的K近邻样本;其中,K为计算近邻样本的个数;根据同类系数模型计算每个少数类样本K近邻样本的同类系数C,并筛选出C>C_method的少数类样本作为采样少数样本;其中,C_method为同类系数阈值;所述采样少数样本与其对应的近邻少数类样本通过随机样本生成模型得到过采样数据集,过采样数据集结合分类器模型采用“嵌入法”进行样本筛选,得到...

【专利技术属性】
技术研发人员:杨伟志衣杨赵小蕾张海曾青青刘少江黎丹雨王玉娟
申请(专利权)人:中山大学新华学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1