一种利用深度学习识别诈骗短信的方法及系统技术方案

技术编号:19011860 阅读:146 留言:0更新日期:2018-09-22 11:12
本发明专利技术公开了一种利用深度学习识别诈骗短信的方法及系统,用以解决诈骗短信的特征千变万化导致算法识别准确率不高的问题。该方法包括:获取短信样本的文本数据并进行分词处理;采用Word2Vec对分词后的文本数据转化为词向量;采用LSTM算法将所述词向量转化为句向量;将所述句向量作为softmax分类器的输入向量以训练深度学习模型;根据训练后的所述深度学习的softmax分类器的输出结果识别诈骗短信。本发明专利技术提供一种利用深度学习对诈骗短信进行识别的方法及系统,提高了对诈骗短信准确识别的能力。

【技术实现步骤摘要】
一种利用深度学习识别诈骗短信的方法及系统
本专利技术涉及通信安全
,尤其涉及一种利用深度学习识别诈骗短信的方法及系统。
技术介绍
短信作为海量客户间传递信息的载体,为彼此间的沟通架起有效的通道。伴随着短信的广泛使用,通过短信传播的诈骗信息内容的现象也越来越严重,为手机用户正常进行信息交流带来了极大的不方便,越来越多的用户因此上当受骗,苦不堪言。短信在创造经济效益的同时,也给运营商带来了严重的社会代价和文化损失。目前,在诈骗短信识别方面的研究主要为特征提取与传统机器学习算法相结合的方式,但在特征提取方面需要大量的人力物力,并且伴随着信息快速的更新迭代,诈骗短信的特征也会千变万化,导致算法识别的准确率严重下降。另外,短信属于短文本,长度较短,特征稀疏,尤其是诈骗短信为逃避过滤机制,其结构和内容常常不规范,所以传统的文本特征提取办法并不能完全适用于短信分类。公开号为CN102547709A的专利提供了了一种诈骗短信的确认方法及手机,所述方法包括:将收到的短信内容与预置关键词数据库进行对比,若关键词匹配或者部分匹配,再将短信内容与预置诈骗短信数据库进行对比,若关键词匹配,则确认该短信为诈骗短信,并过滤掉该短信,若关键词部分匹配,则确认该短信为疑似诈骗短信,提示用户防范该短信。所述手机包括第一对比单元、第二对比单元、过滤单元和显示单元。该专利技术所述一种诈骗短信的确认方法及手机,使得手机自身就可以确认短信是否是诈骗短信,并可以对诈骗短信进行过滤和防范提示。但是该专利技术在面对千变万化不规则的诈骗短信时,识别率很低。
技术实现思路
本专利技术要解决的技术问题目的在于提供一种利用深度学习识别诈骗短信的方法及系统,用以解决诈骗短信的特征千变万化导致算法识别准确率不高的问题。为了实现上述目的,本专利技术采用的技术方案为:一种利用深度学习识别诈骗短信的方法,包括步骤:获取短信样本的文本数据并进行分词处理;采用Word2Vec对分词后的文本数据转化为词向量;采用LSTM算法将所述词向量转化为句向量;将所述句向量作为softmax分类器的输入向量以训练深度学习模型;根据训练后的所述深度学习的softmax分类器的输出结果识别诈骗短信。进一步地,所述采用获取的短信的文本数据并进行分词处理的步骤具体包括:采集所有短信样本的文本数据;采用正则化方法去除所述文本数据中非文本部分;将所述短信样本分为负样本和正样本并按照预设比例划分为训练样本和测试样本;采用结巴分词工具对所述短信样本进行分词处理;引入停用词以去除文本中无效的词。进一步地,所述训练深度学习模型的步骤具体包括:选择概率值最大的结果作为输出短信类别;计算损失函数并进行反向传播;调整所述深度学习模型的权值至预设阈值;将所述测试样本输入所述深度学习模型,计算准确率、召回率和F值;利用神经网络的自学习能力对所述深度学习模型进行调优。进一步地,所述采用Word2Vec对分词后的文本数据转化为词向量的步骤具体包括:统计诈骗短信特种库中的关键词个数m;利用one-hot-vector将一个词转换成一个n维的词向量x;建立n*m的权重矩阵w以把n维的向量映射到维度为1*m的隐藏神经元;通过反向传递求得向量w并通过与所述词向量x相乘得到1*m的词向量W(i);将每条短信出现的诈骗关键词对应的词向量相加以得到所述短信的文本向量d。进一步地,所述采用LSTM算法将所述词向量转化为句向量的步骤具体包括:将所述词向量按预设顺序排列,假设有m个词向量xt构成;初始化模型参数Wf,Uf,bf,Wa,Ua,ba,Wi,Ui,bi,Wo,Uo,bo;将xt传入遗忘门ft+1并更新所述遗忘门的权值Wt+1,Ut+1,bt+1;其中,ft+1=σ(Wt+1ht+Ut+1xt+1+bt+1);其中Wf,Uf,bf为线性关系的系数和偏倚;σ为sigmoid激活函数;更新输入门参数it和at;其中,it=σ(Wiht-1+Uixt+bi);at=tanh(Waht-1+Uaxt+ba);Wa,Ua,ba,Wi,Ui,bi为线性关系的系数和偏倚;σ为sigmoid激活函数;更新模型输出状态Ct,其中,Ct=Ct-1⊙ft+it⊙at;⊙为Hadarmard积;更新输出门参数σt和ht并输出当前序列索引预测值其中,σt=σ(Woht-1+Uoxt+bo);ht=ot⊙tanh(Ct);进一步地,所述softmax函数公式为:其中,为最后一层第L层第j个神经元的输出,表示当前层的第j个神经元的输出;其中,进一步地,还包括步骤:若判定为诈骗短信,则对短信进行拦截。一种利用深度学习识别诈骗短信的系统,包括:处理模块,用于获取短信样本的文本数据并进行分词处理;词向量模块,用于采用Word2Vec对分词后的文本数据转化为词向量;句向量模块,用于采用LSTM算法将所述词向量转化为句向量;训练模块,用于将所述句向量作为softmax分类器的输入向量以训练深度学习模型;识别模块,用于根据训练后的所述深度学习的softmax分类器的输出结果识别诈骗短信。进一步地,所述处理模块具体包括:采集单元,用于采集所有短信样本的文本数据;去除单元,用于采用正则化方法去除所述文本数据中非文本部分;划分单元,用于将所述短信样本分为负样本和正样本并按照预设比例划分为训练样本和测试样本;分词单元,用于采用结巴分词工具对所述短信样本进行分词处理;引入单元,用于引入停用词以去除文本中无效的词。进一步地,所述训练模块具体包括:选择单元,用于选择概率值最大的结果作为输出短信类别;计算单元,用于计算损失函数并进行反向传播;调整单元,用于调整所述深度学习模型的权值至预设阈值;输入单元,用于将所述测试样本输入所述深度学习模型,计算准确率、召回率和F值;调优单元,用于利用神经网络的自学习能力对所述深度学习模型进行调优。本专利技术与传统的技术相比,有如下优点:本专利技术提供一种利用深度学习对诈骗短信进行识别的方法及系统,提高了对诈骗短信准确识别的能力。附图说明图1是实施例一提供的一种利用深度学习识别诈骗短信的方法流程图;图2是实施例一提供的LSTM算法用于诈骗短信识别图;图3是实施例二提供的一种利用深度学习识别诈骗短信的系统结构图。具体实施方式以下是本专利技术的具体实施例并结合附图,对本专利技术的技术方案作进一步的描述,但本专利技术并不限于这些实施例。实施例一本实施例提供了一种利用深度学习识别诈骗短信的方法,如图1所示,包括步骤:S11:获取短信样本的文本数据并进行分词处理;S12:采用Word2Vec对分此后的文本数据转化为词向量;S13:采用LSTM算法将词向量转化为句向量;S14:将句向量作为softmax分类器的输入向量以训练深度学习模型;S15:根据训练后的深度学习的softmax分类器的输出结果识别诈骗短信;S16:若判定为诈骗短信,则对短信进行拦截。近年来,深度学习算法被应用到了自然语言处理领域,获得了比传统模型更优秀的成果。在自然语言处理中,通常用到的方法是递归神经网络或循环神经网络(RNNs)。它们的作用是将矩阵形式的输入编码为较低纬度的一维向量,而保留大多数有用信息。RNNs有很多变种,比如普通的RNNs,以及GRU、LSTM等。本实施例提供一种在海量数据下利用深度学习算法对诈骗本文档来自技高网...
一种利用深度学习识别诈骗短信的方法及系统

【技术保护点】
1.一种利用深度学习识别诈骗短信的方法,其特征在于,包括步骤:获取短信样本的文本数据并进行分词处理;采用Word2Vec对分词后的文本数据转化为词向量;采用LSTM算法将所述词向量转化为句向量;将所述句向量作为softmax分类器的输入向量以训练深度学习模型;根据训练后的所述深度学习的softmax分类器的输出结果识别诈骗短信。

【技术特征摘要】
1.一种利用深度学习识别诈骗短信的方法,其特征在于,包括步骤:获取短信样本的文本数据并进行分词处理;采用Word2Vec对分词后的文本数据转化为词向量;采用LSTM算法将所述词向量转化为句向量;将所述句向量作为softmax分类器的输入向量以训练深度学习模型;根据训练后的所述深度学习的softmax分类器的输出结果识别诈骗短信。2.根据权利要求1所述的一种利用深度学习识别诈骗短信的方法,其特征在于,所述采用获取的短信的文本数据并进行分词处理的步骤具体包括:采集所有短信样本的文本数据;采用正则化方法去除所述文本数据中非文本部分;将所述短信样本分为负样本和正样本并按照预设比例划分为训练样本和测试样本;采用结巴分词工具对所述短信样本进行分词处理;引入停用词以去除文本中无效的词。3.根据权利要求2所述的一种利用深度学习识别诈骗短信的方法,其特征在于,所述训练深度学习模型的步骤具体包括:选择概率值最大的结果作为输出短信类别;计算损失函数并进行反向传播;调整所述深度学习模型的权值至预设阈值;将所述测试样本输入所述深度学习模型,计算准确率、召回率和F值;利用神经网络的自学习能力对所述深度学习模型进行调优。4.根据权利要求1所述的一种利用深度学习识别诈骗短信的方法,其特征在于,所述采用Word2Vec对分词后的文本数据转化为词向量的步骤具体包括:统计诈骗短信特种库中的关键词个数m;利用one-hot-vector将一个词转换成一个n维的词向量x;建立n*m的权重矩阵w以把n维的向量映射到维度为1*m的隐藏神经元;通过反向传递求得向量w并通过与所述词向量x相乘得到1*m的词向量W(i);将每条短信出现的诈骗关键词对应的词向量相加以得到所述短信的文本向量d。5.根据权利要求1所述的一种利用深度学习识别诈骗短信的方法,其特征在于,所述采用LSTM算法将所述词向量转化为句向量的步骤具体包括:将所述词向量按预设顺序排列,假设有m个词向量xt构成;初始化模型参数Wf,Uf,bf,Wa,Ua,ba,Wi,Ui,bi,Wo,Uo,bo;将xt传入遗忘门ft+1并更新所述遗忘门的权值Wt+1,Ut+1,bt+1;其中,ft+1=σ(Wt+1ht+Ut+1xt+1+bt+1);其中,Wf,Uf,bf为线性关系的系数和偏倚;...

【专利技术属性】
技术研发人员:陈晓莉刘亭丁一帆徐菁林建洪徐佳丽
申请(专利权)人:浙江鹏信信息科技股份有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1