一种利用深度学习识别诈骗短信的方法及系统技术方案

技术编号：19011860 阅读：146 留言：0更新日期：2018-09-22 11:12

本发明专利技术公开了一种利用深度学习识别诈骗短信的方法及系统，用以解决诈骗短信的特征千变万化导致算法识别准确率不高的问题。该方法包括：获取短信样本的文本数据并进行分词处理；采用Word2Vec对分词后的文本数据转化为词向量；采用LSTM算法将所述词向量转化为句向量；将所述句向量作为softmax分类器的输入向量以训练深度学习模型；根据训练后的所述深度学习的softmax分类器的输出结果识别诈骗短信。本发明专利技术提供一种利用深度学习对诈骗短信进行识别的方法及系统，提高了对诈骗短信准确识别的能力。

全部详细技术资料下载

【技术实现步骤摘要】
一种利用深度学习识别诈骗短信的方法及系统
本专利技术涉及通信安全
，尤其涉及一种利用深度学习识别诈骗短信的方法及系统。
技术介绍
短信作为海量客户间传递信息的载体，为彼此间的沟通架起有效的通道。伴随着短信的广泛使用，通过短信传播的诈骗信息内容的现象也越来越严重，为手机用户正常进行信息交流带来了极大的不方便，越来越多的用户因此上当受骗，苦不堪言。短信在创造经济效益的同时，也给运营商带来了严重的社会代价和文化损失。目前，在诈骗短信识别方面的研究主要为特征提取与传统机器学习算法相结合的方式，但在特征提取方面需要大量的人力物力，并且伴随着信息快速的更新迭代，诈骗短信的特征也会千变万化，导致算法识别的准确率严重下降。另外，短信属于短文本，长度较短，特征稀疏，尤其是诈骗短信为逃避过滤机制，其结构和内容常常不规范，所以传统的文本特征提取办法并不能完全适用于短信分类。公开号为CN102547709A的专利提供了了一种诈骗短信的确认方法及手机，所述方法包括：将收到的短信内容与预置关键词数据库进行对比，若关键词匹配或者部分匹配，再将短信内容与预置诈骗短信数据库进行对比，若关键词匹配，则确认该短信为诈骗短信，并过滤掉该短信，若关键词部分匹配，则确认该短信为疑似诈骗短信，提示用户防范该短信。所述手机包括第一对比单元、第二对比单元、过滤单元和显示单元。该专利技术所述一种诈骗短信的确认方法及手机，使得手机自身就可以确认短信是否是诈骗短信，并可以对诈骗短信进行过滤和防范提示。但是该专利技术在面对千变万化不规则的诈骗短信时，识别率很低。
技术实现思路
本专利技术要解决的技术问题目的在于...
一种利用深度学习识别诈骗短信的方法及系统

【技术保护点】
1.一种利用深度学习识别诈骗短信的方法，其特征在于，包括步骤：获取短信样本的文本数据并进行分词处理；采用Word2Vec对分词后的文本数据转化为词向量；采用LSTM算法将所述词向量转化为句向量；将所述句向量作为softmax分类器的输入向量以训练深度学习模型；根据训练后的所述深度学习的softmax分类器的输出结果识别诈骗短信。

【技术特征摘要】
1.一种利用深度学习识别诈骗短信的方法，其特征在于，包括步骤：获取短信样本的文本数据并进行分词处理；采用Word2Vec对分词后的文本数据转化为词向量；采用LSTM算法将所述词向量转化为句向量；将所述句向量作为softmax分类器的输入向量以训练深度学习模型；根据训练后的所述深度学习的softmax分类器的输出结果识别诈骗短信。2.根据权利要求1所述的一种利用深度学习识别诈骗短信的方法，其特征在于，所述采用获取的短信的文本数据并进行分词处理的步骤具体包括：采集所有短信样本的文本数据；采用正则化方法去除所述文本数据中非文本部分；将所述短信样本分为负样本和正样本并按照预设比例划分为训练样本和测试样本；采用结巴分词工具对所述短信样本进行分词处理；引入停用词以去除文本中无效的词。3.根据权利要求2所述的一种利用深度学习识别诈骗短信的方法，其特征在于，所述训练深度学习模型的步骤具体包括：选择概率值最大的结果作为输出短信类别；计算损失函数并进行反向传播；调整所述深度学习模型的权值至预设阈值；将所述测试样本输入所述深度学习模型，计算准确率、召回率和F值；利用神经网络的自学习能力对所述深度学习模型进行调优。4.根据权利要求1所述的一种利用深度学习识别诈骗短信的方法，其特征在于，所述采用Word2Vec对分词后的文本数据转化为词向量的步骤具体包括：统计诈骗短信特种库中的关键词个数m；利用one-hot-vector将一个词转换成一个n维的词向量x；建立n*m的权重矩阵w以把n维的向量映射到维度为1*m的隐藏神经元；通过反向传递求得向量w并通过与所述词向量x相乘得到1*m的词向量W(i)；将每条短信出现的诈骗关键词对应的词向量相加以得到所述短信的文本向量d。5.根据权利要求1所述的一种利用深度学习识别诈骗短信的方法，其特征在于，所述采用LSTM算法将所述词向量转化为句向量的步骤具体包括：将所述词向量按预设顺序排列，假设有m个词向量xt构成；初始化模型参数Wf，Uf，bf，Wa，Ua，ba，Wi，Ui，bi，Wo，Uo，bo；将xt传入遗忘门ft+1并更新所述遗忘门的权值Wt+1，Ut+1，bt+1；其中，ft+1＝σ(Wt+1ht+Ut+1xt+1+bt+1)；其中，Wf，Uf，bf为线性关系的系数和偏倚；...

【专利技术属性】
技术研发人员：陈晓莉，刘亭，丁一帆，徐菁，林建洪，徐佳丽，
申请(专利权)人：浙江鹏信信息科技股份有限公司，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人