一种基于信令的非频率特征快速识别骚扰电话系统和方法技术方案

技术编号:32241200 阅读:42 留言:0更新日期:2022-02-09 17:45
本发明专利技术涉及电信技术及大数据等领域,特别是一种基于信令的非频率特征快速识别骚扰电话系统,由信令采集单元、历史信令全量数据库单元、信令特征分类建模单元和信令监控与骚扰电话拦截单元构成。信令采集单元用于采集原始信令,转换为呼叫详细记录,然后传输至历史信令全量数据库单元保存。信令特征分类建模单元利用样本数据,形成非频率特征骚扰电话判别库。信令监控与骚扰电话拦截单元,实时监控信令,结合非频率特征骚扰电话识别库骚扰电话并拦截或提醒。本发明专利技术还包含方法。本发明专利技术用全特征训练建模,在识别阶段,采集非频率特征判断识别骚扰电话,从而避免了识别阶段的二次采样、重复计算特征向量的工作,进而做到实时识别,提高识别准确率。提高识别准确率。提高识别准确率。

【技术实现步骤摘要】
一种基于信令的非频率特征快速识别骚扰电话系统和方法


[0001]本专利技术涉及电信技术、机器学习以及大数据等领域,特别是一种基于信令的非频率特征快速识别骚扰电话系统和方法。

技术介绍

[0002]骚扰电话是当今网络社会、现实社会的一颗毒瘤,对个人乃至整个社会造成的伤害是巨大的。除此以外,大量的非法呼叫,会占用宝贵的通信资源,直接导致接通率下降、网络设备拥塞等问题,大大降低了合法移动用户的体验。
[0003]当前对骚扰电话的治理方案,从
基本上可以分为三大类:
[0004]第一、通过用户标识
[0005]这种方法是通过用户投诉的方式,包括电话投诉,APP举报等手段,对主叫号码进行标记,后续通过运营商在通信通道上拦截或者APP拦截
[0006]第二、引入语音识别技术
[0007]这种方法通过音频比对的方式,与现有的骚扰电话语音库中有匹配上的,则判断为骚扰电话,如果匹配不上,进一步提交人工甄别。
[0008]第三、机器学习分类算法
[0009]这是近年来,随着大数据技术、机器学习、人工智能算法日趋成熟,被业界越来越多采用的方法,具体有无监督的聚类算法k

means,决策树算法、朴素贝叶斯分类算法等,对通话信令特征进行训练建模,达到分类、甄别骚扰电话的目的。
[0010]但是以上三种类型的方法,都有缺陷甚至无法解决的问题:
[0011]对于第一种方法,通过用户投诉,或者APP举报,大大增加了人工客服的工作量与人工成本,还有的号码被恶意举报的可能,导致大量误判。
[0012]对于第二种方法,语音识别,音频比对的方法,必须监听主被叫通话记录,侵入性太强,涉嫌侵犯用户隐私,同时需要增加大量存储设备,技术实现起来复杂度高,大大增加了软硬件成本,识别周期长。
[0013]对于第三种方法,大数据+机器学习算法对信令特征建模的方法来识别骚扰电话,是目前最有前途的方法,但是目前基于机器学习对信令特征建模的识别骚扰电话识别都存在一个严重的缺陷,即:对骚扰电话的建模,严重依赖于信令的频率特征,当一个新的从未在全量训练集、测试集种出现过的号码到来时,因为只有一条记录,无法计算该条信令的频率特征,比如呼叫频率、接通率、被叫离散度等特征,这些频率特征是建立在大量数据的统计基础上经过统计而衍生出来的特征,因此无法快速的判断出该信令的所属类别。就目前机器学习算法+信令特征的识别骚扰电话的方法,基本上都是黑名单库的形成方法,做的稍微好的,是基于短时间重新采样,比如5分钟粒度,基于5分钟内的样本量,统计出频率特征,然而,5分钟内出现的信令数量显然是远远不够的,因为5分钟内每条信令出现的次数依然可能只有一条,从而无法做到在线快速识别与拦截骚扰电话的目的。

技术实现思路

[0014]本专利技术的目的在于提供一种基于信令的非频率特征快速识别骚扰电话系统和方法,主要解决上述现有技术存在的问题,能在已经通过机器学习算法+ 信令特征建立起来的分类模型的基础上,在线快速识别骚扰电话与拦截的目的。
[0015]为了实现上述目的,本专利技术所采用的技术方案是提供一种基于信令的非频率特征快速识别骚扰电话系统,其特征在于,由信令采集单元、历史信令全量数据库单元、信令特征分类建模单元和信令监控与骚扰电话拦截单元构成;
[0016]所述信令采集单元用于采集通信网络中的原始信令,并转换为呼叫详细记录,然后传输至所述历史信令全量数据库单元作为样本数据保存;所述信令特征分类建模单元,利用所述历史信令全量数据库单元提供的所述样本数据,形成仅依赖信令原始属性的非频率特征骚扰电话判别库;所述信令监控与骚扰电话拦截单元,实时监控通信网络中信令里的非频率特征向量,结合所述非频率特征骚扰电话库识别骚扰电话并拦截,或向客户发出提醒。
[0017]进一步地,所述信令采集单元从采集的原始信令中得到一级信息,包含码号信息、通话时长信息、接通信息和释放信息;其中,所述接通信息包含接通率和应答率;所述释放信息包含主叫挂机和被叫挂机;所述信令采集单元利用所述一级信息计算出二级信息,包含呼叫频率,呼出呼入比,被叫离散度;所述信令采集单元生成包含所述一级信息和所述二级信息的所述呼叫详细记录。
[0018]本专利技术还提供一种使用如上所述的系统进行基于信令的非频率特征快速识别骚扰电话的方法,其特征在于,
[0019]利用所述信令采集单元采集日常业务中的原始信令,转换为所述呼叫详细记录后作为所述样本数据,保存至所述历史信令全量数据库单元中;
[0020]利用所述信令特征分类建模单元,基于所述样本数据,建立特征向量集,再使用机器学习形成全特征骚扰电话判别库;所述全特征骚扰电话判别库中的特征向量,包含频率特征和非频率特征,还包含所属主叫号码和号码类别;
[0021]在所述全特征骚扰电话判别库中剔除所述频率特征,形成所述非频率特征骚扰电话判别库;
[0022]利用所述信令监控与骚扰电话拦截单元,实时监控信令中的非频率特征向量,与所述非频率特征骚扰电话判别库中的所述特征向量进行相似度计算,根据所述特征向量的所述号码类别,识别出骚扰电话;
[0023]拦截识别出的所述骚扰电话,或向客户发出骚扰电话提醒。
[0024]进一步地,在利用所述信令特征分类建模单元,基于所述样本数据,建立特征向量集,再使用机器学习形成全特征骚扰电话判别库过程中,包含步骤:
[0025]从所述样本数据中提取信令特征,建立所述特征向量集;
[0026]对所述特征向量集合进行归一化,构建特征矩阵;
[0027]利用所述特征矩阵,使用机器学习聚类建模,生成所述全特征骚扰电话判别库。
[0028]进一步地,所述特征向量集中的所述特征向量,包含一个或者多个所述信令特征,包含主叫呼叫频次、接通率、通话时长比值、主叫呼出呼入比、被叫离散程度、被叫号码等差分布占比、主叫释放次数、呼叫间隔固定占比以及外省号码占比。
[0029]进一步地,对所述特征向量集合进行归一化时,针对每个特征变量包含的每个所述信令特征,如果所述信令特征的取值是连续取值的,采用离散标准化进行线性变换,使得归一化后的取值大于等于0小于等于1;如果所述信令特征的取值是布尔类型或者离散取值的,采用独热编码进行变换,使得归一化后的取值大于等于0小于等于1。
[0030]进一步地,采用无监督机器学习算法K

Means算法对所述特征矩阵聚类建模,生成所述全特征骚扰电话判别库;在所述K

Means算法中,不同所述特征向量之间的距离计算采用余弦距离。
[0031]进一步地,利用所述信令特征分类建模单元,在所述全特征骚扰电话判别库中剔除所述频率特征,形成所述非频率特征骚扰电话判别库,包含步骤:
[0032]在所述全特征骚扰电话判别库中的所述特征向量中,删除所述频率特征;
[0033]以所述号码类别分组,两两比较不同分组中的所述特征向量之间的余弦距离,当所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于信令的非频率特征快速识别骚扰电话系统,其特征在于,由信令采集单元、历史信令全量数据库单元、信令特征分类建模单元和信令监控与骚扰电话拦截单元构成;所述信令采集单元用于采集通信网络中的原始信令,并转换为呼叫详细记录,然后传输至所述历史信令全量数据库单元作为样本数据保存;所述信令特征分类建模单元,利用所述历史信令全量数据库单元提供的所述样本数据,形成仅依赖信令原始属性的非频率特征骚扰电话判别库;所述信令监控与骚扰电话拦截单元,实时监控通信网络中信令里的非频率特征向量,结合所述非频率特征骚扰电话库识别骚扰电话并拦截,或向客户发出提醒。2.根据权利要求1所述的基于信令的非频率特征快速识别骚扰电话系统,其特征在于,所述信令采集单元从采集的原始信令中得到一级信息,包含码号信息、通话时长信息、接通信息和释放信息;其中,所述接通信息包含接通率和应答率;所述释放信息包含主叫挂机和被叫挂机;所述信令采集单元利用所述一级信息计算出二级信息,包含呼叫频率,呼出呼入比,被叫离散度;所述信令采集单元生成包含所述一级信息和所述二级信息的所述呼叫详细记录。3.一种使用如权利要求1所述的基于信令的非频率特征快速识别骚扰电话系统进行基于信令的非频率特征快速识别骚扰电话的方法,其特征在于,利用所述信令采集单元采集日常业务中的原始信令,转换为所述呼叫详细记录后作为所述样本数据,保存至所述历史信令全量数据库单元中;利用所述信令特征分类建模单元,基于所述样本数据,建立特征向量集,再使用机器学习形成全特征骚扰电话判别库;所述全特征骚扰电话判别库中的特征向量,包含频率特征和非频率特征,还包含所属主叫号码和号码类别;在所述全特征骚扰电话判别库中剔除所述频率特征,形成所述非频率特征骚扰电话判别库;利用所述信令监控与骚扰电话拦截单元,实时监控信令中的非频率特征向量,与所述非频率特征骚扰电话判别库中的所述特征向量进行相似度计算,根据所述特征向量的所述号码类别,识别出骚扰电话;拦截识别出的所述骚扰电话,或向客户发出骚扰电话提醒。4.根据权利要求3所述的基于信令的非频率特征快速识别骚扰电话方法,其特征在于,在利用所述信令特征分类建模单元,基于所述样本数据,建立特征向量集,再使用机器学习形成全特征骚扰电话判别库过程中,包含步骤:从所述样本数据中提取信令特征,建立所述特征向量集;对所述特征向量集合进行归一化,构建特征矩阵;利用所述特征矩阵,使用机器学习聚类建模,生成所...

【专利技术属性】
技术研发人员:李宏图崔隆吴仲文柏京贾泉臻卢丹郭心如杨晓宇孙永学王荣辉
申请(专利权)人:号百信息服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1