基于支持向量机的大数据分析中置信度评价方法、系统、设备及存储介质技术方案

技术编号:31308907 阅读:16 留言:0更新日期:2021-12-12 21:34
本发明专利技术公开了一种基于支持向量机的大数据分析中置信度评价方法及系统,应用于互联网骚扰电话的分析领域,对骚扰电话进行评价;本方法基于支持向量机实现了自动分类的置信度评价,提出了海量数据分析领域中分类评价的解决方案,从而高效、直观对骚扰电话的分类。本方法提供对分析样本进行高效、准确的分类置信度评价。评价。评价。

【技术实现步骤摘要】
基于支持向量机的大数据分析中置信度评价方法、系统、设备及存储介质


[0001]本专利技术应用于互联网骚扰电话的分析领域,涉及大数据处理、分析领域,结合机器学习改进方法,尤其是一种用于在大数据分析过程中,通过典型数据特征进行评价分类。

技术介绍

[0002]近年来,随着移动互联网的高速发展,智能终端的普及率在逐年上升,互联网骚扰电话出现的频率也在急剧增加,网络环境的净化手段也在逐步提升,在海量数据的基础上,各类数据分析评价模型和分类模型也应运而生。
[0003]在传统的机器学习方法中,由于支持向量机

SVM有着良好的分类效果,而且具有良好的“鲁棒”性,基本不涉及大数定律,实现了高效的从训练样本到预测样本的“转导推理”。更重要的SVM在求解最终分类过程中,会输出向量点到最优超平面的距离,这就为我们的置信度评价方法提供了基础。
[0004]在大多数及机器学习算法都无法直接提供置信度评价方法,而无法达到量化直观的度量,更多的提供的是标签标记,已确定好分类结果,在这种情况下,就无法结合更多数据过滤算法,和对已确定的分类进行容错矫正。
[0005]在这样的背景下,需要一种方法,在现有机器学习算法下,更有效用于骚扰电话分析工程项目中。

技术实现思路

[0006]本专利技术所要解决的技术问题在于,如何能够实现了从简单的分类标签到量化、直观的置信度评价,用以达到快速、直观的对骚扰电话的分类效果。
[0007]为解决上述技术问题,本专利技术提供一种基于支持向量机的大数据分析中置信度评价方法,包括以下步骤:
[0008]步骤1,整理数据集特征:选取的数据集特征包括呼叫成功率、振铃造早释率、通话时长小于设定通话时长阈值的比例、被叫号码总共小于设定接通阈值次数接通占比、被叫号码地理位置离散度、区号号码,通过上述数据集特征确定特征向量;
[0009]步骤2,通过特征向量提取原始数据集,分为训练向量集和预测向量集;
[0010]步骤3,训练向量集应用拉格朗日函数,求解对偶问题;
[0011]步骤4:通过求解获得支持向量机超平面w
*
.x
i
+b
*

±
1,并确定超平面参数;其中w
*
为向量参数,b
*
为常量参数;x
i
为向量点;
[0012]步骤5:确定最优分类超平面w
*
.x
i
+b
*
=0;
[0013]步骤6:预测向量函数
[0014]其中计算超平面(w
*
,b
*
)关于样本点(x
i
,y
i
)的几何间隔,获得几何间隔γ
i
,其中x
i
是向量点,y
i
是分类标记,y
i
取值为+1,

1;
[0015]针对预测向量中y
i
取值为+1的部分向量,即该向量点x
i
在超平面正的一侧,使用公式获得置信度:且γ
max
大于0;此时为向量点x
i
在超平面正侧距离分类边界的距离;γ
max
为超平面正侧距离分类边界的的最大距离;
[0016]步骤8:针对预测向量中y
i
取值为

1的部分向量,即该向量点x
i
在超平面负的一侧,使用公式获得置信度:且γ
min
小于0;此时是向量点xi在超平面负侧距离分类边界的距离;γ
min
是超平面负侧距离分类边界的的最大距离;
[0017]步骤9:针对输出置信度Pi大于设定值的预测数据,标记为骚扰数据,置信度Pi小于设定值的预测数据标记为正常数据。
[0018]有益效果:本专利技术结合机器学习分类算法中计算置信度评价,从而高效、直观对骚扰电话的分类。从适用性上,不依赖现有数据分析平台,适用于各类编程语言;从功能性看,在海量数据分析中,缺少直接的分类算法置信度评价方法,本方法提供对分析样本进行高效、准确的分类置信度评价。
[0019]对应上述基于支持向量机的大数据分析中置信度评价方法,本专利技术还提供一种基于支持向量机的大数据分析中置信度评价系统,包括:
[0020]第一模块,用以整理数据集特征:选取的数据集特征包括呼叫成功率、振铃造早释率、通话时长小于10s的比例、被叫号码总共小于2次接通占比、被叫号码地理位置离散度、是否为001+区号号码等特征维度,通过上述数据集特征确定特征向量;
[0021]第二模块,用以通过特征向量提取原始数据集,分为训练向量集和预测向量集;
[0022]第三模块,用以对训练向量集应用拉格朗日函数,求解对偶问题;
[0023]第四模块:用以通过求解获得支持向量机超平面w
*
.x
i
+b
*

±
1,并确定超平面参数;其中w
*
为向量参数,b
*
为常量参数;x
i
为向量点;
[0024]第五模块:用以确定最优分类超平面w
*
.x
i
+b
*
=0;
[0025]第六模块:用以预测向量函数
[0026]其中计算超平面(w
*
,b
*
)关于样本点(x
i
,y
i
)的几何间隔,获得几何间隔γ
i
,其中x
i
是向量点,y
i
是分类标记,y
i
取值为+1,

1;
[0027]第七模块:用以针对预测向量中y
i
取值为+1的部分向量,即该向量点x
i
在超平面正的一侧,使用公式获得置信度:且γ
max
大于0;此时为向量点x
i
在超平面正侧距离分类边界的距离;γ
max
为超平面正侧距离分类边界的的最大距离;
[0028]第八模块:用以针对预测向量中y
i
取值为

1的部分向量,即该向量点x
i
在超平面负的一侧,使用公式获得置信度:且γ
min
小于0;此时是向量点xi在超平面负侧距离分类边界的距离;γ
min
是超平面负侧距离分类边界的的最大距离;
[0029]第九模块:针对输出置信度Pi大于设定值的预测数据,标记为骚扰数据;置信度Pi小于设定值的预测数据标记为正常数据。
附图说明
[0030]图1是本专利技术的通用置信度方法的流程实现示意图。
[0031]图2是本专利技术的数学实现置信度评价本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于支持向量机的大数据分析中置信度评价方法,其特征在于,包括以下步骤:步骤1,整理数据集特征:选取的数据集特征包括呼叫成功率、振铃造早释率、通话时长小于设定通话时长阈值的比例、被叫号码总共小于设定接通阈值次数接通占比、被叫号码地理位置离散度、区号号码,通过上述数据集特征确定特征向量;步骤2,通过特征向量提取原始数据集,分为训练向量集和预测向量集;步骤3,训练向量集应用拉格朗日函数,求解对偶问题;步骤4:通过求解获得支持向量机超平面w
*
.x
i
+b
*

±
1,并确定超平面参数;其中w
*
为向量参数,b
*
为常量参数;x
i
为向量点;步骤5:确定最优分类超平面w
*
.x
i
+b
*
=0;步骤6:预测向量函数其中计算超平面(w
*
,b
*
)关于样本点(x
i
,y
i
)的几何间隔,获得几何间隔γ
i
,其中x
i
是向量点,y
i
是分类标记,y
i
取值为+1,

1;步骤7:针对预测向量中y
i
取值为+1的部分向量,即该向量点x
i
在超平面正的一侧,使用公式获得置信度:且γ
max
大于0;此时为向量点x
i
在超平面正侧距离分类边界的距离;γ
max
为超平面正侧距离分类边界的的最大距离;步骤8:针对预测向量中y
i
取值为

1的部分向量,即该向量点x
i
在超平面负的一侧,使用公式获得置信度:且γ
min
小于0;此时是向量点xi在超平面负侧距离分类边界的距离;γ
min
是超平面负侧距离分类边界的的最大距离;步骤9:针对输出置信度Pi大于设定值的预测数据,标记为骚扰数据,置信度Pi小于设定值的预测数据标记为正常数据。2.根据权利要求1所述的大数据分析中置信度评价方法,其特征在于,步骤1中,通话时长阈值为通话时长小于10s,设定接通阈值次数为2次,区号号码为是否为001+区号号码等特征维度。3.根据权利要求1或2所述的大数据分析中置信度评价方法,其特征在于,用以对拨打电话是否为骚扰电话的评价。4.一种基于支持向量机的大数据分析中置信度评价系统,其特征在于,包括:第一模块,用以整理数据集特征:选取的数据集特征包括呼叫成功率、振铃造早释率、通话时长小于设定通话时长阈值的比例、被叫号...

【专利技术属性】
技术研发人员:李扬曦王佩刘科栋彭成维肖林焱王亚箭黄自强
申请(专利权)人:南京中新赛克科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1