当前位置: 首页 > 专利查询>同济大学专利>正文

一种基于深度学习算法的异常垃圾短信识别方法及系统技术方案

技术编号:20272689 阅读:27 留言:0更新日期:2019-02-02 03:43
本发明专利技术涉及一种基于深度学习算法的异常垃圾短信识别方法及系统,其中方法,包括:步骤S1:基于预配置的符号库去除短信文本中的干扰符号;步骤S2:将去除了干扰符号的短信文本进行文字转拼音,得到对应的拼音文本;步骤S3:将步骤S2中得到的拼音文本和短信文本同时作为卷积神经网络的输入进行识别以判断是否为垃圾短信。与现有技术相比,本发明专利技术先对短信文本进行预处理,然后将拼音和文字同时作为识别的依据,可以大大提高识别的效率和精确度。

【技术实现步骤摘要】
一种基于深度学习算法的异常垃圾短信识别方法及系统
本专利技术涉及一种信息识别技术,尤其是涉及一种基于深度学习算法的异常垃圾短信识别方法及系统。
技术介绍
在互联网大数据时代,对于用户行为的实时性处理和分析更为重要。以短信文本处理为例,由于垃圾短信的泛滥,比如欺诈短信、广告推销、反动短信等,给用户带了很大危害,因此,需要运营商通过对短信内容的识别来过滤垃圾短信。而短信的及时性特点决定了对短信的处理和下发必须在较短的时间内完成,这样,无疑要求短信处理系统具有较高的实时性。让机器来处理我们人类的语言属于自然语言处理的范畴。NLP的经典任务之一是文本分类,也称为文档分类。这个任务旨在为文档分配一个预定义的标签。通常,这个过程涉及三个阶段,即文本表示、特征提取和标签分类。在第一阶段,是将无结构化的文本内容转化成结构化的特征向量形式。目前文本表示模型主要是GerardSalton和McGill于1969年提出的向量空间模。在第二阶段要进行特征提取,选取最具有区分性和表达能力的特征建立特征空间,实现特征空间降维;或者,进行特征转换(FeatureTransformation),将高维特征向量映射到低维向量空间。特征选择、提取或转换是构建有效文本特征向量的关键问题。这些特征向量在第三阶段可以最大限度地提高任务的准确性。针对文本分类问题,从上个世纪开始,就不断有研究人员提出基于机器学习,统计学等多个学科的文本分类模型。比如说朴素贝叶斯分类算法,决策分类树算法,感知机,支持向量机分类算法,KNN算法等。但不同于普通的文本分类问题,本专利技术要对“异常”垃圾短信进行分类。这一类的短信有以下几个特点:1、短信的字数常常很少,会导致特征信息共现不足;2、因为手机运营商会过滤一部分垃圾短信,所以我们能够接触到的真实的垃圾短信的数量不多;3、为了逃过现有的垃圾短信分类器的识别,垃圾短信的发送者常常将一些敏感词汇使用一些近音词或者是形近词进行替换,比如用“薇信”替换“微信”,“开发酉示”替换“开发票”等。以上这些特点,使得传统的垃圾短信过滤器不能正确的识别对于这一类短信。近年来,文本分类模型研究层出不穷,特别是随着深度学习的发展,越来越多的研究者开始将深度神经网络的相关技术应用到自然语言处理领域中来。深度神经网络模型能够通过多层网络,不断组合低层文本信息,形成更加抽象的高层文本表示,从而提高模型的准确性。比如卷积神经网络(CNN)具有优异的特征自抽取能力,能够显著降低文本分类中人工抽取特征的难度。而基于神经网络模型的单词嵌入(WordEmbedding)技术则为短文本进行语义化向量表示提供了新的思路。针对中文短文本同音词、拼写错误多的语言现象,以及特征信息共现不足与人工抽取特征困难的问题,基于神经网络的深度学习可以很好的进行特征学习。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于深度学习算法的异常垃圾短信识别方法及系统。本专利技术的目的可以通过以下技术方案来实现:一种基于深度学习算法的异常垃圾短信识别方法,包括:步骤S1:基于预配置的符号库去除短信文本中的干扰符号;步骤S2:将去除了干扰符号的短信文本进行文字转拼音,得到对应的拼音文本;步骤S3:将步骤S2中得到的拼音文本和短信文本同时作为卷积神经网络的输入进行识别以判断是否为垃圾短信。所述步骤S1具体为:识别短信文本中存在被收录入符号库中的干扰符号,并去除识别得到的干扰符号。所述干扰符号为与语义无关联的标点和特殊字符。所述步骤S3具体包括:步骤S31:将步骤S2中得到的拼音文本和短信文本分别作为卷积神经网络的输入,得到两个卷积层的特征向量;步骤S32:将两个卷积层的特征向量分别进行池化操作,得到两个池化层的特征向量;步骤S33:将两个池化层的特征向量拼接后作为该短信的结构化文本表示;步骤S34:基于该短信的结构化文本判断是否为垃圾短信。所述步骤S34具体为:采用异常检测分类器对基于该短信的结构化文本进行异常检测,并将检测结果为异常的短信作为垃圾短信。所述异常检测分类器的训练过程的样本分类不均,进行过采样过程平衡样本。所述过采样过程包括:步骤S51:任意选定一个少数类的样本集中的样本;步骤S52:从少数类的样本集中提取选定样本的多个近邻;步骤S53:从提取的近邻样本中随机选择一个样本,与选定样本进行合成得到一个新样本:xi1=xi+ζ1·(xi(nn)-xi)其中:xi1为合成得到的新样本,xi为选定样本,xi(nn)为从提取的近邻样本中随机选择得到的样本,ζ1为0~1之间的随机数;步骤S54:重复步骤S43设定次数后,从原始少数类的样本集中选定一个新样本,并重复步骤S42。所述方法还包括:步骤S4:计算识别结果的准确率、正确率、召回率和综合评分进行评价,其中所述综合评分为:F1Score=P*R/2(P+R)其中:F1Score为综合评分,P为正确率,R为召回率。一种用于实现所述的基于深度学习算法的异常垃圾短信识别方法的系统,其特征在于,包括:文本预处理模块(1),用于对短信文本进行预处理,去除其中的干扰符号;汉字转拼音模块(2),与文本预处理模块(1)连接,用于将经过文本预处理模块(1)处理后的短信文本转化为拼音;文本表示模块(3),分别与文本预处理模块(1)和汉字转拼音模块(2)连接,基于经过文本预处理模块(1)处理后的短信文本以及对应的拼音形式得到短信文本的结构化文本表示;异常检测模块(4),与文本表示模块(3)连接,基于短信的结构化文本判断是否为垃圾短信。所述系统还包括累不平衡问题处理模块,用于对训练器训练用样本的少数类的样本进行过采样处理。与现有技术相比,本专利技术具有以下有益效果:1)先对短信文本进行预处理,然后将拼音和文字同时作为识别的依据,可以大大提高识别的效率和精确度。2)将词嵌入与卷积神经网络结合的方法用于短文本分类问题,可以解决短文本特征信息共现不足与人工抽取特征困难的问题。3)对变异短文本进行规范化,将变异短文本进行转化,去掉所有可能对检测结果产生影响的干扰信,使得产生的结果可以直接对其进行分析。附图说明图1为本专利技术方法的主要步骤流程示意图;图2为本专利技术系统的结构示意图;图3为文本结构化处理部分的整体逻辑框图;图4为词向量生成模型示意图;图5为识别结果的工作特征曲线示意图。具体实施方式下面结合附图和具体实施例对本专利技术进行详细说明。本实施例以本专利技术技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本专利技术的保护范围不限于下述的实施例。一种基于深度学习算法的异常垃圾短信识别方法,为了解决短文本特征信息共现不足与人工抽取特征困难的问题,本专利技术拟将词嵌入与卷积神经网络结合的方法用于短文本分类问题。考虑到实际中文短文本中噪声大、拼写错误和同音词多的特征,拟采用一种拼音和字结合的双输入卷积神经网络模型。本专利技术先对变异短文本进行规范化,拟将变异短文本进行转化,去掉所有可能对检测结果产生影响的干扰信息。使得产生的结果可以直接对其进行分析。具体说来:本专利技术首先应该清除所有的干扰字符,这里干扰字符包括诸如标点、特殊字符等,比如*,&,^_^,因为这些字符对于短文本来说没有什么实际意义,而且还会造成对文本表示的干扰。所以第一步将它们都去本文档来自技高网
...

【技术保护点】
1.一种基于深度学习算法的异常垃圾短信识别方法,其特征在于,包括:步骤S1:基于预配置的符号库去除短信文本中的干扰符号;步骤S2:将去除了干扰符号的短信文本进行文字转拼音,得到对应的拼音文本;步骤S3:将步骤S2中得到的拼音文本和短信文本同时作为卷积神经网络的输入进行识别以判断是否为垃圾短信。

【技术特征摘要】
1.一种基于深度学习算法的异常垃圾短信识别方法,其特征在于,包括:步骤S1:基于预配置的符号库去除短信文本中的干扰符号;步骤S2:将去除了干扰符号的短信文本进行文字转拼音,得到对应的拼音文本;步骤S3:将步骤S2中得到的拼音文本和短信文本同时作为卷积神经网络的输入进行识别以判断是否为垃圾短信。2.根据权利要求1所述的一种基于深度学习算法的异常垃圾短信识别方法,其特征在于,所述步骤S1具体为:识别短信文本中存在被收录入符号库中的干扰符号,并去除识别得到的干扰符号。3.根据权利要求1所述的一种基于深度学习算法的异常垃圾短信识别方法,其特征在于,所述干扰符号为与语义无关联的标点和特殊字符。4.根据权利要求1所述的一种基于深度学习算法的异常垃圾短信识别方法,其特征在于,所述步骤S3具体包括:步骤S31:将步骤S2中得到的拼音文本和短信文本分别作为卷积神经网络的输入,得到两个卷积层的特征向量;步骤S32:将两个卷积层的特征向量分别进行池化操作,得到两个池化层的特征向量;步骤S33:将两个池化层的特征向量拼接后作为该短信的结构化文本表示;步骤S34:基于该短信的结构化文本判断是否为垃圾短信。5.根据权利要求4所述的一种基于深度学习算法的异常垃圾短信识别方法,其特征在于,所述步骤S34具体为:采用异常检测分类器对基于该短信的结构化文本进行异常检测,并将检测结果为异常的短信作为垃圾短信。6.根据权利要求4所述的一种基于深度学习算法的异常垃圾短信识别方法,其特征在于,所述异常检测分类器的训练过程的样本分类不均,进行过采样过程平衡样本。7.根据权利要求6所述的一种基于深度学习算法的异常垃圾短信识别方法,其特征...

【专利技术属性】
技术研发人员:赵生捷姜倩云杨恺
申请(专利权)人:同济大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1