一种基于卷积神经网络的诈骗号码识别方法及系统技术方案

技术编号:24353764 阅读:86 留言:0更新日期:2020-06-03 02:07
本发明专利技术公开了一种基于卷积神经网络的诈骗号码识别方法以及识别系统,其中识别方法包括:1、建立训练样本集:获取已知为客服号码、私人号码与诈骗号码三种类别的多个号码,获取每个号码连续N天的通话数据和M个通话特征,构建N*M的特征矩阵并转换为特征图,特征图以及号码类别构成一个训练样本;2、建立诈骗号码识别模型,采用训练样本集对诈骗号码识别模型进行训练;3、获取待识别电话号码连续N天的通话数据和M个通话特征,构建N*M的特征矩阵,并转换为特征图;4、采用训练好的模型对待识别号码的特征图进行分类识别,得到类别标签。该方法通过深度学习提取出诈骗号码与客服号码和普通私人号码的区别特征以及区别特征的组合,能够准确识别出诈骗号码。

A method and system of fraud number recognition based on convolutional neural network

【技术实现步骤摘要】
一种基于卷积神经网络的诈骗号码识别方法及系统
本专利技术属于通信中主叫号码安全识别
,具体涉及一种诈骗号码的识别方法及系统。
技术介绍
随着移动电话的普及,电话诈骗层出不穷。尽管政府有关部门已经向社会发出提醒,各类新闻媒体也频频报道,然而,每天仍有大量用户上当受骗,且经济损失呈逐年上升趋势。现有技术中,对诈骗号码的识别和触发流程通常如下:先将全网所有呼叫统一触发至SCP,再由SCP对大量呼叫逐一识别,将其中的少数疑似诈骗电话转至防诈骗平台,最后由防诈骗平台对疑似诈骗电话进行录音取证,如果是正常号码,则对主、被叫进行正常接通;如果确认是诈骗电话,则直接中断呼叫。由于现有技术采用的是全量触发方式,即将全网呼叫都统一触发至SCP进行处理,这样,往往为了拦截少量几个诈骗号码,却导致了SCP和关口局等核心网元的触发资源被大量消耗。对于海量通话数据的诈骗号码识别,主要有以下几个难点:1、通话数据量大,计算所需要的时间成本高;2、诈骗号码的识别难度大:由于犯罪手段日益“高明”,甚至出现“岗前培训”和“在职教育”等现象,诈骗号码的特征复杂,单纯的统计分析方案难以得到其深度特征;因此,在减少系统触发资源的大量消耗的前提下,如何提取号码的深度特征,从而实现诈骗号码的精准识别和触发,是一个值得深入研究的技术问题。
技术实现思路
专利技术目的:本专利技术旨在提供一种诈骗号码识别方法,该方法通过深度学习提取出诈骗号码与客服号码和普通私人号码的区别特征以及区别特征的组合,能够准确识别出诈骗号码。技术方案:本专利技术一方面公开了一种基于卷积神经网络的诈骗号码识别方法,包括:(1)建立训练样本集和验证样本集:获取已知为客服号码、私人号码与诈骗号码三种类别的多个号码,获取每个号码连续N天的通话数据,其中一天的通话数据包括M个通话特征,对每个号码构建N*M的特征矩阵;将每个号码的特征矩阵转换为特征图,所述特征图以及相应号码的类别标签构成一个样本;将所获取的样本分为训练样本集和验证样本集;(2)建立诈骗号码识别模型,采用训练样本集对诈骗号码识别模型进行训练;(3)获取待识别电话号码连续N天的通话数据,根据每天通话数据的M个通话特征,构建N*M的特征矩阵,并转换为待识别电话号码的特征图;(4)采用训练好的模型对待识别号码的特征图进行分类识别,得到类别标签。具体地,所述通话数据包括19个通话特征,具体为:通话次数,被挂断次数,不同被叫个数,不同被叫地区个数,未接通次数,通话30s以下次数,30s~10分钟以内次数,通话10分钟以上次数,通话时间在0~8点次数,时间在8~18点次数,时间在18~24点次数,通话时长平均数,通话时长标准差,主叫被叫比例,主交通话未接通比例,呼叫通话被挂断比例,本号码被呼叫次数,本号码不同主叫个数,本号码不同主叫地区个数。优选地,在对号码构建N*M的特征矩阵后,还包括对构建的特征矩阵进行标准化,具体步骤为:设标准化前的特征矩阵为Φ=(φ1,…,φM),φi为Φ的第i列向量,i=1,2,…,M,则标准化后的特征矩阵为为的第i列向量:其中ui为N*1的列向量,其每个元素均为φi中元素的均值;σi为φi中元素的方差。另一方面,本专利技术还公开了实现上述诈骗号码识别方法的识别系统,包括:训练样本集构建模块,用于获取已知为客服号码、私人号码与诈骗号码三种类别的多个号码,获取每个号码连续N天的通话数据,其中一天的通话数据包括M个通话特征,对每个号码构建N*M的特征矩阵;将每个号码的特征矩阵转换为特征图,所述特征图以及相应号码的类别标签构成一个训练样本;诈骗号码识别模型建立与训练模块,用于建立诈骗号码识别模型,采用训练样本集对诈骗号码识别模型进行训练;待识别电话号码特征图生成模块,用于获取待识别电话号码连续N天的通话数据,根据每天通话数据的M个通话特征,构建N*M的特征矩阵,并转换为待识别电话号码的特征图;分类识别模块,用于采用训练好的模型对待识别号码的特征图进行分类识别,得到类别标签。有益效果:本专利技术公开的基于卷积神经网络的诈骗号码识别方法和识别系统通过深度学习提取出诈骗号码与客服号码和普通私人号码的区别特征以及区别特征的组合,基于提取的区别特征以及区别特征的组合来做分类识别,能够得到准确的识别结果。附图说明图1为本专利技术公开的诈骗号码识别方法的流程图;图2为本专利技术建立的诈骗号码识别模型的结构图示意图;图3为本专利技术公开的诈骗号码识别系统的组成图。具体实施方式下面结合附图和具体实施方式,进一步阐明本专利技术。如图1所示,本专利技术公开了一种基于卷积神经网络的诈骗号码识别方法,包括:步骤1、建立训练样本集和验证样本集:获取已知为客服号码、私人号码与诈骗号码三种类别的多个号码,获取每个号码连续N天的通话数据,其中一天的通话数据包括M个通话特征,对每个号码构建N*M的特征矩阵;将每个号码的特征矩阵转换为特征图,所述特征图以及相应号码的类别标签构成一个样本;将所获取的样本分为训练样本集和验证样本集;本实施例中,获取每个号码连续15天的通话数据,对获取的通话数据进行清洗,删除其中损坏的数据,包括关键字段为空、字段格式错误、不符合业务场景逻辑等类型的数据。对清洗后的通话数据提取通话特征,一天的通话数据采集19个通话特征,具体如表1:表1特征名称计算方式通话次数计算每日该号码的主叫播出次数被挂断次数计算每日该号码的被挂断次数不同被叫个数统计每日该号码有多少个不同的被叫不同被叫地区个数统计每日该号码拨给多少个不同地区未接通次数计算每日该号码的未接通次数通话30s以下次数计算每日该号码的主叫通话时长在30s以下的次数30s~10分钟以内次数计算每日该号码的主叫通话时长在30s~10分钟以内的次数通话10分钟以上次数计算每日该号码的主叫通话时长在10分钟以上的次数通话时间在0~8点次数计算每日该号码的主叫通话时间在0~8点之间的次数时间在8~18点次数计算每日该号码的主叫通话时间在8~18点之间的次数时间在18~24点次数计算每日该号码的主叫通话时间在18~24点之间的次数通话时长平均数计算每日该号所有主叫通话的平均通话时长通话时长标准差计算每日该号所有主叫通话的通话时长标准差主叫被叫比例统计每日该号码的主叫通话、被叫通话的比例主交通话未接通比例统计每日该号码的主叫通话中,未接通通话的比例呼叫通话被挂本文档来自技高网...

【技术保护点】
1.一种基于卷积神经网络的诈骗号码识别方法,其特征在于,包括:/n(1)建立训练样本集和验证样本集:获取已知为客服号码、私人号码与诈骗号码三种类别的多个号码,获取每个号码连续N天的通话数据,其中一天的通话数据包括M个通话特征,对每个号码构建N*M的特征矩阵;将每个号码的特征矩阵转换为特征图,所述特征图以及相应号码的类别标签构成一个样本;将所获取的样本分为训练样本集和验证样本集;/n(2)建立诈骗号码识别模型,采用训练样本集对诈骗号码识别模型进行训练;/n(3)获取待识别电话号码连续N天的通话数据,根据每天通话数据的M个通话特征,构建N*M的特征矩阵,并转换为待识别电话号码的特征图;/n(4)采用训练好的模型对待识别号码的特征图进行分类识别,得到类别标签。/n

【技术特征摘要】
1.一种基于卷积神经网络的诈骗号码识别方法,其特征在于,包括:
(1)建立训练样本集和验证样本集:获取已知为客服号码、私人号码与诈骗号码三种类别的多个号码,获取每个号码连续N天的通话数据,其中一天的通话数据包括M个通话特征,对每个号码构建N*M的特征矩阵;将每个号码的特征矩阵转换为特征图,所述特征图以及相应号码的类别标签构成一个样本;将所获取的样本分为训练样本集和验证样本集;
(2)建立诈骗号码识别模型,采用训练样本集对诈骗号码识别模型进行训练;
(3)获取待识别电话号码连续N天的通话数据,根据每天通话数据的M个通话特征,构建N*M的特征矩阵,并转换为待识别电话号码的特征图;
(4)采用训练好的模型对待识别号码的特征图进行分类识别,得到类别标签。


2.根据权利要求1所述的诈骗号码识别方法,其特征在于,所述通话数据包括19个通话特征,具体为:
通话次数,被挂断次数,不同被叫个数,不同被叫地区个数,未接通次数,通话30s以下次数,30s~10分钟以内次数,通话10分钟以上次数,通话时间在0~8点次数,时间在8~18点次数,时间在18~24点次数,通话时长平均数,通话时长标准差,主叫被叫比例,主交通话未接通比例,呼叫通话被挂断比例,本号码被呼叫次数,本号码不同主叫个数,本号码不同主叫地区个数。


3.根据权利要求1所述的诈骗号码识别方法,其特征在于,在对号码构建N*M的特征矩阵后,还包括对构建的特征矩阵进行标准化,具体步骤为:
设标准化前的特征矩阵为Φ=(φ1,…,φM),φi为Φ的第i列向量,i=1,2,…,M,则标准化后的特征矩阵为为的第i列向量:



其中ui为N*1的列向量,其每个元素均为φi中元素的均值;σi为φi中元素的方差。


4.根据权利要求1所述的诈骗号码识别方法,其特征在于,所述诈骗号码识别模型包括:
时间维度特征提取支路,包括时间维度卷积层、时间维度池化层;所述时间维度卷积层的卷积核为N*3,共1024个;所述时间维度卷积层对输入的特征图在横向做一维卷积;所述时间维度池化层对时间维度卷积层的输出进行全局最大池化;
通话特征维度特征提取支路,包括通话特征维度卷积层、通话特征维度池化层;所述通话特征维度卷积层的卷积核为M*3,共1024个;所述通话特征维度卷积层首先对输入的特征图进行转置,然后在横向做一维卷积;所述通话特征维度池化层对通话特征维度卷积层的输出进行全局最大池化;
全连接层,将时间维度特征提取支路的输出与通话特征维度特征提取支路的输出进行reshape,并连接在一起,即为输入特征图的特征向量;
Softmax与分类层:对输入特征图的特征向量进行类别判断,得到分类结果。


5.一种基于卷积神经网络的诈骗号码识...

【专利技术属性】
技术研发人员:王子斌鹿林卓可秋
申请(专利权)人:南京中新赛克科技有限责任公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1