一种基于深度学习算法的异常垃圾短信识别方法及系统技术方案

技术编号：20272689 阅读：27 留言：0更新日期：2019-02-02 03:43

本发明专利技术涉及一种基于深度学习算法的异常垃圾短信识别方法及系统，其中方法，包括：步骤S1：基于预配置的符号库去除短信文本中的干扰符号；步骤S2：将去除了干扰符号的短信文本进行文字转拼音，得到对应的拼音文本；步骤S3：将步骤S2中得到的拼音文本和短信文本同时作为卷积神经网络的输入进行识别以判断是否为垃圾短信。与现有技术相比，本发明专利技术先对短信文本进行预处理，然后将拼音和文字同时作为识别的依据，可以大大提高识别的效率和精确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习算法的异常垃圾短信识别方法及系统
本专利技术涉及一种信息识别技术，尤其是涉及一种基于深度学习算法的异常垃圾短信识别方法及系统。
技术介绍
在互联网大数据时代，对于用户行为的实时性处理和分析更为重要。以短信文本处理为例，由于垃圾短信的泛滥，比如欺诈短信、广告推销、反动短信等，给用户带了很大危害，因此，需要运营商通过对短信内容的识别来过滤垃圾短信。而短信的及时性特点决定了对短信的处理和下发必须在较短的时间内完成，这样，无疑要求短信处理系统具有较高的实时性。让机器来处理我们人类的语言属于自然语言处理的范畴。NLP的经典任务之一是文本分类，也称为文档分类。这个任务旨在为文档分配一个预定义的标签。通常，这个过程涉及三个阶段，即文本表示、特征提取和标签分类。在第一阶段，是将无结构化的文本内容转化成结构化的特征向量形式。目前文本表示模型主要是GerardSalton和McGill于1969年提出的向量空间模。在第二阶段要进行特征提取，选取最具有区分性和表达能力的特征建立特征空间，实现特征空间降维；或者，进行特征转换(FeatureTransformation)，将高维特征向量映射到低维向量空间。特征选择、提取或转换是构建有效文本特征向量的关键问题。这些特征向量在第三阶段可以最大限度地提高任务的准确性。针对文本分类问题，从上个世纪开始，就不断有研究人员提出基于机器学习，统计学等多个学科的文本分类模型。比如说朴素贝叶斯分类算法，决策分类树算法，感知机，支持向量机分类算法，KNN算法等。但不同于普通的文本分类问题，本专利技术要对“异常”垃圾短信进行分类。这一类...

【技术保护点】
1.一种基于深度学习算法的异常垃圾短信识别方法，其特征在于，包括：步骤S1：基于预配置的符号库去除短信文本中的干扰符号；步骤S2：将去除了干扰符号的短信文本进行文字转拼音，得到对应的拼音文本；步骤S3：将步骤S2中得到的拼音文本和短信文本同时作为卷积神经网络的输入进行识别以判断是否为垃圾短信。

【技术特征摘要】
1.一种基于深度学习算法的异常垃圾短信识别方法，其特征在于，包括：步骤S1：基于预配置的符号库去除短信文本中的干扰符号；步骤S2：将去除了干扰符号的短信文本进行文字转拼音，得到对应的拼音文本；步骤S3：将步骤S2中得到的拼音文本和短信文本同时作为卷积神经网络的输入进行识别以判断是否为垃圾短信。2.根据权利要求1所述的一种基于深度学习算法的异常垃圾短信识别方法，其特征在于，所述步骤S1具体为：识别短信文本中存在被收录入符号库中的干扰符号，并去除识别得到的干扰符号。3.根据权利要求1所述的一种基于深度学习算法的异常垃圾短信识别方法，其特征在于，所述干扰符号为与语义无关联的标点和特殊字符。4.根据权利要求1所述的一种基于深度学习算法的异常垃圾短信识别方法，其特征在于，所述步骤S3具体包括：步骤S31：将步骤S2中得到的拼音文本和短信文本分别作为卷积神经网络的输入，得到两个卷积层的特征向量；步骤S32：将两个卷积层的特征向量分别进行池化操作，得到两个池化层的特征向量；步骤S33：将两个池化层的特征向量拼接后作为该短信的结构化文本表示；步骤S34：基于该短信的结构化文本判断是否为垃圾短信。5.根据权利要求4所述的一种基于深度学习算法的异常垃圾短信识别方法，其特征在于，所述步骤S34具体为：采用异常检测分类器对基于该短信的结构化文本进行异常检测，并将检测结果为异常的短信作为垃圾短信。6.根据权利要求4所述的一种基于深度学习算法的异常垃圾短信识别方法，其特征在于，所述异常检测分类器的训练过程的样本分类不均，进行过采样过程平衡样本。7.根据权利要求6所述的一种基于深度学习算法的异常垃圾短信识别方法，其特征...

【专利技术属性】
技术研发人员：赵生捷，姜倩云，杨恺，
申请(专利权)人：同济大学，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人