System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于机器学习的电话引流方法、系统及存储介质技术方案_技高网

一种基于机器学习的电话引流方法、系统及存储介质技术方案

技术编号:45065986 阅读:11 留言:0更新日期:2025-04-25 18:10
本发明专利技术公开了一种基于机器学习的电话引流方法、系统及存储介质,包括构建有害和正常号码的样本特征库;对样本特征库中的特征数据进行预处理,并划分为特征训练集和特征测试集;基于特征训练集,构建决策树;基于特征测试集,对决策树中的决策规则进行筛选,获得在测试集上表现最优的特征组合及特征组合对应的分割阈值;收集新批次呼叫号码,并获取呼叫号码的特征数据,基于最优特征组合及特征组合对应的分割阈值对呼叫号码的特征数据进行识别,从而预测出该呼叫号码是有害号码还是正常号码;定时更新最优特征组合及其对应的分割阈值,确保在有害号码特征发生变化时,同样能实现较好的引流效果。本发明专利技术利用机器学习算法对样本特征数据进行分类,并筛选出引流效果最好的特征组合和分割阈值,能够更准确地识别出有害电话,减少误判和漏判。

【技术实现步骤摘要】

本专利技术涉及电信网安全,特别是涉及一种基于机器学习的电话引流方法、系统及存储介质


技术介绍

1、有害电话引流是指从全量通话中根据主叫号码或者被叫号码筛选出高危通话,给后面的意图分析研判平台做通话意图检测分析,检测通话是否有诈骗行为,如有诈骗行为,对该通话及时做管控,避免受害人被诈骗。当前有害电话引流分析方法主要包括:黑白名单引流策略,特定规则引流策略以及人工分析下发灰名单号码引流策略。

2、其中,基于黑白名单引流策略的方法优势在于实现简单、识别速度快,但存在黑白名单号码覆盖不全,更新不及时的缺点。基于特定规则引流策略优势在于可以根据最新的有害电话形势灵活配置对应规则,但缺点在于特定规则的覆盖面较广,无法对该规则中的正常用户的呼叫做过滤剔除,会造成一定引流资源的浪费。基于人工分析下发灰名单号码引流策略可以实现有害号码特征分析和引流号码准确下发,但基于人工的灰名单号码分析机制,其分析周期较长,对参与分析的人员有较高的经验要求,且不能做到及时自动迭代更新,前期分析出的有效灰名单引流策略会随着有害呼叫的特征变化而导致引流效果变差。因此如何精准高效构建智能电话引流策略,实现通话动态监测,并主动发现有害电话,亟需得到解决。


技术实现思路

1、专利技术目的:本专利技术的目的是提供一种基于机器学习的电话引流方法、系统及存储介质,能够有效识别出有害电话。

2、技术方案:为实现上述目的,本专利技术所述的一种基于机器学习的电话引流方法,包括以下步骤:

3、s1:构建包括有害和正常号码的样本特征库;

4、s2:对样本特征库中的特征数据进行预处理,并划分为特征训练集和特征测试集;

5、s3:基于特征训练集,构建决策树;

6、s4:基于特征测试集,对决策树中的决策规则进行筛选,获得在测试集上表现最优的特征组合及特征组合对应的分割阈值;

7、s5:收集新批次呼叫号码,并获取呼叫号码的特征数据,基于最优特征组合及特征组合对应的分割阈值对呼叫号码的特征数据进行识别,从而预测出该呼叫号码是有害号码还是正常号码;

8、s6:重复步骤s1-s5,以定时更新最优特征组合及其对应的分割阈值。

9、其中,s1中构建样本特征库的方法为:通过系统接口或文件同步方式完成案件系统对接,从案件系统中提取出有害呼叫的主叫号码和被叫号码分别做为有害号码样本、正常号码样本,以动态构建样本特征库,样本特征库包括基于通信行为的基础特征和对基础特征进行分析得到的统计特征。

10、其中,s2中预处理的方法包括清洗数据、缺失值处理。

11、其中,s3中生成的决策树包含一系列从根节点到叶节点的路径,每条路径代表一条决策规则,每一条决策规则均包含多个特征组合,每个特征组合都有对应的分割阈值。

12、其中,所述决策树构建过程包括:

13、s3.1:特征选择,从特征训练集中选择一个最具有区分性的特征,作为根节点或内部节点;

14、s3.2:阈值选择,对选择的最具有区分性的特征确定一个分割阈值;

15、s3.3:递归分裂,从根节点开始基于选定的特征和分割阈值,将特征训练集分裂成若干个内部节点,对于每个内部节点,从剩余的特征训练集中选择一个最具有区分性的特征和相应的分割阈值进一步分裂,重复这一特征选择和阈值选择过程,直到满足停止条件;对于每个内部节点分裂后的子节点,进一步从剩余的特征训练集中进行特征选择和阈值选择,并重复这一过程,直到满足停止条件;

16、s3.4:对决策树剪枝优化。

17、其中,选择具有最低基尼指数的特征作为最具有区分性的特征,基尼指数的计算公式为:

18、

19、其中,m为节点上的样本数,n为类别数,类别i的样本数量为ci。

20、其中,所述停止条件为达到预定的最大树深,或节点样本数量小于某个设定阈值,或节点内样本纯度达到某个设定标准。

21、其中,s4中筛选方法为:通过交叉验证的筛选方法,选择在多个测试集上表现最好的特征组合作为最优特征组合,其中每条测试数据从决策树的根节点开始,根据测试数据的特征进行路径选择,直到到达某个叶节点,叶节点给出最终的分类预测结果,如正常或有害,基于测试数据的实际标签,计算各路径预测结果准确率,筛选出准确率高的最优特征组合。

22、本专利技术提供一种基于机器学习的电话引流系统,包括以下模块:

23、样本特征库构建模块:构建包括有害和正常号码的样本特征库;

24、数据预处理模块:对样本特征库中的特征数据进行预处理,并划分为特征训练集和特征测试集;

25、决策树构建模块:基于特征训练集,构建决策树;

26、决策规则筛选模块:基于特征测试集,对决策树中的决策规则进行筛选,获得在测试集上表现最优的特征组合及特征组合对应的分割阈值;

27、呼叫号码识别模块:收集新批次呼叫号码,并获取呼叫号码的特征数据,基于最优特征组合及特征组合对应的分割阈值对呼叫号码的特征数据进行识别,从而预测出该呼叫号码是有害号码还是正常号码;

28、特征定时更新模块:定时更新最优特征组合及其对应的分割阈值。

29、本专利技术提供一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行上述基于机器学习的电话引流方法中的任一方法。

30、有益效果:本专利技术具有如下优点:1、本专利技术利用机器学习算法对样本特征数据进行分类,并筛选出引流效果最好的特征组合和分割阈值,能够更准确地识别出有害电话,减少误判和漏判;2、通过定时更新最优特征组合等,确保在有害号码特征发生变化时,同样能实现较好的引流效果,以检测尽可能少的通话发现尽可能多的有害呼叫。

本文档来自技高网...

【技术保护点】

1.一种基于机器学习的电话引流方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于机器学习的电话引流方法,其特征在于,S1中构建样本特征库的方法为:通过系统接口或文件同步方式完成案件系统对接,从案件系统中提取出有害呼叫的主叫号码和被叫号码分别做为有害号码样本、正常号码样本,以动态构建样本特征库,样本特征库包括基于通信行为的基础特征和对基础特征进行分析得到的统计特征。

3.根据权利要求1所述的基于机器学习的电话引流方法,其特征在于,S2中预处理的方法包括清洗数据、缺失值处理。

4.根据权利要求1所述的基于机器学习的电话引流方法,其特征在于,S3中生成的决策树包含一系列从根节点到叶节点的路径,每条路径代表一条决策规则,每一条决策规则均包含多个特征组合,每个特征组合都有对应的分割阈值。

5.根据权利要求4所述的基于机器学习的电话引流方法,其特征在于,所述决策树构建过程包括:

6.根据权利要求5所述的基于机器学习的电话引流方法,其特征在于,选择具有最低基尼指数的特征作为最具有区分性的特征,基尼指数的计算公式为:

7.根据权利要求5所述的基于机器学习的电话引流方法,其特征在于,所述停止条件为达到预定的最大树深,或节点样本数量小于某个设定阈值,或节点内样本纯度达到某个设定标准。

8.根据权利要求1所述的基于机器学习的电话引流方法,其特征在于,S4中筛选方法为:通过交叉验证的筛选方法,选择在多个测试集上表现最好的特征组合作为最优特征组合,其中每条测试数据从决策树的根节点开始,根据测试数据的特征进行路径选择,直到到达某个叶节点,叶节点给出最终的分类预测结果,如正常或有害,基于测试数据的实际标签,计算各路径预测结果准确率,筛选出准确率高的最优特征组合。

9.一种基于机器学习的电话引流系统,其特征在于,包括以下模块:

10.一种存储一个或多个程序的计算机可读存储介质,其特征在于,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据权利要求1至8所述的方法中的任一方法。

...

【技术特征摘要】

1.一种基于机器学习的电话引流方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于机器学习的电话引流方法,其特征在于,s1中构建样本特征库的方法为:通过系统接口或文件同步方式完成案件系统对接,从案件系统中提取出有害呼叫的主叫号码和被叫号码分别做为有害号码样本、正常号码样本,以动态构建样本特征库,样本特征库包括基于通信行为的基础特征和对基础特征进行分析得到的统计特征。

3.根据权利要求1所述的基于机器学习的电话引流方法,其特征在于,s2中预处理的方法包括清洗数据、缺失值处理。

4.根据权利要求1所述的基于机器学习的电话引流方法,其特征在于,s3中生成的决策树包含一系列从根节点到叶节点的路径,每条路径代表一条决策规则,每一条决策规则均包含多个特征组合,每个特征组合都有对应的分割阈值。

5.根据权利要求4所述的基于机器学习的电话引流方法,其特征在于,所述决策树构建过程包括:

6.根据权利要求5所述的基于机器学习的电话引流方法,其特征在于...

【专利技术属性】
技术研发人员:胡官荣汪荆琪肖林焱许云
申请(专利权)人:南京中新赛克科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1