垃圾短消息的分类方法技术

技术编号：4219804 阅读：304 留言：0更新日期：2012-04-11 18:40

本发明专利技术提出了一种垃圾短消息的分类方法，能够应用支持矢量机(SVM)和人工神经网络(ANN)对自学习，并通过有效算法SVM分类器和ANN分类器这两种分类器有机的结合起来。该算法为：将分类样本发送到人工神经网络分类器，并将人工神经网络分类器的输出值M进行排序；如果输出值M的最大值大于预设定值r，则该最大值对应的分类即为该短消息的分类，否则所述输出值M是否小于等于预定值s，如果是则将该分类样本归入拒识类；如果M在r和s之间则利用先前的训练结果再使用支持矢量机分类器进行分类。本发明专利技术能够在容许的拒识率下，对垃圾短信的分类效果更好。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种移动通信
，特别涉及一种。
技术介绍
随着短消息业务的快速发展，垃圾短消息的问题也日益泛滥。垃圾短消息中的广告短消息不但影响了客户感知、损害客户利益，而且部分违法的垃圾信息还影响了社会稳定和国家安全。因此对垃圾短消息智能识别分类和拦截的研究成了目前移动运营商重要的课题。目前对垃圾信息的识别和治理方式是先通过过滤系统对每一短消息进行粗略筛选，然后将过滤后的可疑信息交由人工判定作为精确筛选。粗略筛选时是由垃圾信息过滤系统对某一节点的发送流量和每一短消息的关键字等条件进行分析。这种过滤方式存在以下问题(1) 分类效果不明显。由于没有从短消息的语义入手提取特征，往往采用关键词、流量、号码等个别的、不全面的特征，因此造成漏屏蔽、误拦截严重的问题；(2) 目前实时拦截主要靠人工判断处理，分类及时性差、效率低，并且不能实时分析和处理垃圾短信，客户感知不高。使用过滤系统粗略筛选时，主要通过关键词筛选或是号码筛选。关键词筛选是判断短消息中是否有预先设定的关键词；号码篩选是根据圭叫号码、被叫号码，如果有5位的数字号码是连续的，则认为是群发的垃圾短消息。由于这两者方法是单独使用，因此，都同样存在着分类不够精确、及时性差等问题
技术实现思路
针对现有技术中的上述缺陷和问题，本专利技术的目的是提出一种垃圾短消息的分类方法，能够应用支持矢量机(SVM)和人工神经网络(ANN)自学习，在使用本专利技术提出的方法生成的本类样本进行过滤时，比现有的过滤系统的过滤效果明显提高，同时又比人工判定效率明显提高。为了达到上述目的，本专利技术提出了...

【技术保护点】
一种垃圾短消息的分类方法，包括：　步骤１、根据垃圾短信息的原始特征生成特征向量，所述原始特征至少包括垃圾短信息的关键词；　步骤２、将所述特征向量作为输入向量，输入人工神经网络进行训练，得到训练结果１；将所述特征向量作为输入向量，输入支持矢量机进行训练，得到训练结果２；将所述特征向量作为输入向量，输入人工神经网络进行分类，得到分类结果，并将该分类结果输入人工神经网络进行训练，得到训练结果３；　步骤３、将分类样本发送到人工神经网络分类器，并将人工神经网络分类器的输出值Ｍ进行排序；如果输出值Ｍ的最大值大于预设定值ｒ，则该最大值对应的分类即为该短消息的分类，步骤结束；如果输入值Ｍ的最大值不大于预设定值ｒ，则进入步骤４；　步骤４、判断所述输出值Ｍ是否小于等于预定值ｓ，如果是则将该分类样本归入拒识类，步骤结束；否则进入步骤５；　步骤５、将分类样本分别发送到生成训练结果２和生成训练结果３的支持矢量机分类器进行分类，如果两分类器的结果一致，则该分类结果即为该分类样本对应的类别，否则将该分类样本归入拒识类，步骤结束。

【技术特征摘要】

【专利技术属性】
技术研发人员：秦大斌，刘瑛，杜燕春，谢志远，袁锐，刘建胜，唐兵，何蔓微，佘安娅，
申请(专利权)人：秦大斌，刘瑛，杜燕春，谢志远，袁锐，刘建胜，唐兵，何蔓微，佘安娅，
类型：发明
国别省市：85

全部详细技术资料下载我是这个专利的主人