基于个体标识级评价的涉诈号码检测方法、设备及介质技术

技术编号：43321036 阅读：28 留言：0更新日期：2024-11-15 20:21

本发明专利技术公开了一种基于个体标识级评价的涉诈号码检测方法、设备及介质。方法包括以下步骤：获取预设号码集，根据预设号码集构建样本数据集；建立个体标识级评价指标；以样本数据集为输入对LightGBM模型进行训练，得到完成训练的LightGBM模型；使用完成训练的LightGBM模型对现实场景的电话号码进行分类检测评估，根据电话号码的个体标识级评价指标判断电话号码是否属于涉诈号码。本发明专利技术通过考虑号码的重复性和错误分类的影响，能够更准确地评估个体标识在整体上的分类准确性。本发明专利技术特别适用于处理涉诈电话号码等极端不平衡的数据集，能够提供更真实的性能衡量，不会因大量非涉诈号码而显示出误导性的高分数，更全面客观地衡量模型性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机器学习与数据分析，具体涉及一种基于个体标识级评价的涉诈号码检测方法、设备及介质。

技术介绍

1、机器学习模型能够从大量数据中自动学习并提取出有效的特征。在各种目标分类检测任务中，相比传统的手动特征提取方法，机器学习能够自动学习并适应各种复杂场景和目标形态，通过学习大量的训练数据来逐渐适应并改进分类检测的准确性。当机器学习模型完成目标的分类检测后，通过准确率、召回率等指标对目标的分类检测效果进行评价，据此来衡量模型的性能。

2、然而在诈骗电话号码识别等特定任务中，由于正负样本的极端不均衡，传统评价指标可能无法完全准确地反映模型性能。例如，涉诈号码(正样本号码)极其稀少，只有当诈骗活动实际发生或被举报后，相关号码才被确认为涉诈；而非涉诈号码(负样本号码)则极为常见，但在样本选取时也可能混入疑似涉诈的号码。因此，电话号码诈骗检测场景中，如果模型按照传统的机器学习评价方法进行评价，则可能无法精准地反映模型的性能，导致对模型的涉诈号码检测效果产生误判，增加训练成本。

技术实现思路p>

1、有鉴于本文档来自技高网...

【技术保护点】

1.一种基于个体标识级评价的涉诈号码检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于个体标识级评价的涉诈号码检测方法，其特征在于，所述正常号码指不涉嫌诈骗风险的电话号码；所述涉诈号码指涉嫌诈骗风险的电话号码。

3.根据权利要求1所述的一种基于个体标识级评价的涉诈号码检测方法，其特征在于，所述根据预设号码集构建样本数据集，具体包括以下步骤：

4.根据权利要求1所述的一种基于个体标识级评价的涉诈号码检测方法，其特征在于，所述个体标识级准确率用于表征模型对每个电话号码进行分类检测的准确率；

5.根据权利要求1所述的一种基于个...

【技术特征摘要】

1.一种基于个体标识级评价的涉诈号码检测方法，其特征在于，包括以下步骤：

3.根据权利要求1所述的一种基于个体标识级评价的涉诈号码检测方法，其特征在于，所述根据预设号码集构建样本数据集，具体包括以下步骤：

5.根据权利要求1所述的一种基于个体标识级评价的涉诈号码检测方法，其特征在于，所述lightgbm模型采用混淆矩阵进行电话号码的分类检测；其中，涉诈号码被作为正样本处理，正常号码被作为负样本处理；所述混淆矩阵包括第一区域、第二区域、第三区域和第四区域；每...

【专利技术属性】
技术研发人员：王一茸，
申请(专利权)人：广州市申迪计算机系统有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人