当前位置: 首页 > 专利查询>秦大斌专利>正文

垃圾短消息的分类方法技术

技术编号:4219804 阅读:304 留言:0更新日期:2012-04-11 18:40
本发明专利技术提出了一种垃圾短消息的分类方法,能够应用支持矢量机(SVM)和 人工神经网络(ANN)对自学习,并通过有效算法SVM分类器和ANN分类器这两 种分类器有机的结合起来。该算法为:将分类样本发送到人工神经网络分类器, 并将人工神经网络分类器的输出值M进行排序;如果输出值M的最大值大于预 设定值r,则该最大值对应的分类即为该短消息的分类,否则所述输出值M是否 小于等于预定值s,如果是则将该分类样本归入拒识类;如果M在r和s之间则 利用先前的训练结果再使用支持矢量机分类器进行分类。本发明专利技术能够在容许的 拒识率下,对垃圾短信的分类效果更好。

【技术实现步骤摘要】

本专利技术涉及一种移动通信
,特别涉及一种。
技术介绍
随着短消息业务的快速发展,垃圾短消息的问题也日益泛滥。垃圾短消息 中的广告短消息不但影响了客户感知、损害客户利益,而且部分违法的垃圾信 息还影响了社会稳定和国家安全。因此对垃圾短消息智能识别分类和拦截的研 究成了目前移动运营商重要的课题。目前对垃圾信息的识别和治理方式是先通过过滤系统对每一短消息进行 粗略筛选,然后将过滤后的可疑信息交由人工判定作为精确筛选。粗略筛选时 是由垃圾信息过滤系统对某一节点的发送流量和每一短消息的关键字等条件进 行分析。这种过滤方式存在以下问题(1) 分类效果不明显。由于没有从短消息的语义入手提取特征,往往采用 关键词、流量、号码等个别的、不全面的特征,因此造成漏屏蔽、误拦截严重 的问题;(2) 目前实时拦截主要靠人工判断处理,分类及时性差、效率低,并且不 能实时分析和处理垃圾短信,客户感知不高。使用过滤系统粗略筛选时,主要通过关键词筛选或是号码筛选。关键词筛 选是判断短消息中是否有预先设定的关键词;号码篩选是根据圭叫号码、被叫 号码,如果有5位的数字号码是连续的,则认为是群发的垃圾短消息。由于这 两者方法是单独使用,因此,都同样存在着分类不够精确、及时性差等问题
技术实现思路
针对现有技术中的上述缺陷和问题,本专利技术的目的是提出一种垃圾短消息的分类方法,能够应用支持矢量机(SVM)和人工神经网络(ANN)自学习,在 使用本专利技术提出的方法生成的本类样本进行过滤时,比现有的过滤系统的过滤 效果明显提高,同时又比人工判定效率明显提高。为了达到上述目的,本专利技术提出了 一种中分类样本 的生成方法,包括步骤l、根据垃圾短信息的原始特征生成特征向量,所述原始特征至少包括 垃圾短信息的关键词;步骤2、将所述特征向量作为输入向量,输入人工神经网络进行训练,得到 训练结果l;将所述特征向量作为输入向量,输入支持矢量机进行训练,得到训 练结果2;将所述特征向量作为输入向量,输入人工神经网络进行分类,得到分 类结果,并将该分类结果输入人工神经网络进行训练,得到训练结果3;步骤3、将分类样本发送到人工神经网络分类器,并将人工神经网络分类器 的输出值M进行排序;如果输出值M的最大值大于预设定值r,则该最大值对应 的分类即为该短消息的分类,步骤结束;如果输入值M的最大值不大于所设定 的阈值r,则进入步骤4;步骤4、判断所述输出值M是否小于等于预定值s,如果是则将该分类样本 归入拒识类,步骤结束;否则进入步骤5;步骤5、将分类样本分别发送到生成训练结果2和生成训练结果3的支持矢 量机分类器进行分类,如果两分类器的结果一致,则该分类结果即为该分类样 本对应的类别,否则将该分类样本归入拒识类,步骤结束。作为上述技术方案的优选,所述人工神经网络为BP神经网络。作为上述技术方案的优选,所述步骤1中,所迷原始特征还包括呼入号码、 呼出号码、高度敏感关键词库。作为上述技术方案的优选,所述步骤l具体为步骤11、对垃圾短消息进行分类,并根据分类生成一个或一个以上关键词 库,并为每一关键词设定一权值,以得到一矩阵,所述矩阵每一行对应一关键词库,其每行中的每一列对应该关键词库中的一关键词的权值;步骤12、根据主叫号码、被叫号码特性形成一向量;步骤13、形成高度敏感关键词库,并根据该高度敏感关键词库形成一向量;步骤14、根据步骤11 ~ 13的原始特征所得生成一特征向量。本专利技术提出的垃圾短信息的分类方法,将SVM和BP神经网络的优势通过有效的算法结合起来,在容许的拒识率下达到对短消息的更好的分类。同时,还可以使用SVM和BP神经网络进行自学习。 本专利技术的效果是(1) 通过对垃圾信息语义和结构的分析,提取了垃圾信息的内容和号码特 征,采用时间序列理论,多角度重构了多组特征。(2) 融合SVM、子空间和神经网络等先进的模式识別技术,形成多层次、 交叉学习、并行学习的自动学习架构。采用多分类器集成,对垃圾信息进行识 别和分类(政治、涉黄、违法犯罪、SP诱骗、商业信息等),大大提高识别准确 率,减少漏判误判。(3) 采用了实时处理技术,能实时分析和处理垃圾信息。 附图说明图1为BP神经网络的结构示意图2为本专利技术优选实施例中利用BP神经网络和支持矢量机自学习的流程示 意图3为本专利技术的原理图。具体实施例方式下面结合附图对本专利技术做进一步说明。本专利技术的设计思想如图3所示,是把垃圾系统的处理分成了学习模块、分类识别模块。根据以前垃圾信息治理的经验,输入垃圾短信分类样本,对取得的样本进行特征提取,对特征进行学习,取得分类经验;按照经验进行垃圾信 息辨别和分类。同时,通过与短信中心或信令设备等网元建立连接,取得新的 数据样本进行样本库的完善。在学习模块中采用BP神经网络和支持矢量机 (Support Vector Machine,以下简称SVM)。BP (Back Propagation)神经网络是1986年由R腦lhart和McCel land为 首的科学家小组提出,是一种按误差逆传播算法训练的多层前馈网络,是目前 应用最广泛的神经网络模型之一。BP神经网络能学习和存贮大量的输入-输出 模式映射关系,而无需事前揭示描述这种映射关系的数学方程。它的学习规则 是使用最速下降法,通过反向传播来不断调整网络的权值和阈值,使网络的误 差平方和最小。BP神经网络模型拓朴结构包括输入层(i叩ut )、隐层(hide layer) 和输出层(output layer)。支持矢量机(SVM)是近年机器学习、识别方面公认比较好的算法。在解决 小样本、非线性及高维模式识别问题中表现出许多特有的优势。因此很适合垃 圾短信内容隐蔽、变化快的特点。SVM根据结构风险最小化准则,在使训练样本 分类误差极小化的前提下,尽量提高分类器的泛化推广能力,它能保证得到的 解为全局最优解。相应的判别函数也应变为f(x)=sgn{ fai*yik(xi 'x)+b*}。 支持矢量机的基本思想可以概括为首先通过非线性变换将输入空间变换到一 个高维空间,然后在这个新空间中求取最优线性分类面,而这种非线性变换是通 过定义适当的内积函数实现的。常用的核函数有线性内积函数K(x,y)-x y;多项式内积函数K (x, y) = d;径向基内积函数K (x, y) -exp {-1 x-y 12/ cj 2);二层神经网络内积函数K(x,y)-tanh(k(x . y)+c)。步骤A、对短信样本进行分析,并将垃圾短消息分为六大类,即政治、涉 黄、违法犯罪、SP诱骗、商业信息;并根据这六大类建立关4走词库;步骤B、在关键词库中,将每一关键词按照出现的几率排序,并为每一关键 词设置一4又值;这样就得到一个短消息到权值矩阵Q的一个对应关系Q=(qi, j): 权值矩阵是一个6行3200列的矩阵;该权值可以为0 ~ 1之间的数字,例如"中 奖"这个关键词,在"违法犯罪"关键词库中的权值为0.6;步骤C、根据主叫号码、被叫号码连续超过5位的数字号码,并根据这些号 码的特性(比如省内、省外、连号、外网等)形成一个固定维数为30的向量; 其中1到10维表示连号;11到12表示省内、省外;其他表示外网;当然该向 量的维数可以根据具体需要进行步本文档来自技高网...

【技术保护点】
一种垃圾短消息的分类方法,包括: 步骤1、根据垃圾短信息的原始特征生成特征向量,所述原始特征至少包括垃圾短信息的关键词; 步骤2、将所述特征向量作为输入向量,输入人工神经网络进行训练,得到训练结果1;将所述特征向量作为输入向量, 输入支持矢量机进行训练,得到训练结果2;将所述特征向量作为输入向量,输入人工神经网络进行分类,得到分类结果,并将该分类结果输入人工神经网络进行训练,得到训练结果3; 步骤3、将分类样本发送到人工神经网络分类器,并将人工神经网络分类器的 输出值M进行排序;如果输出值M的最大值大于预设定值r,则该最大值对应的分类即为该短消息的分类,步骤结束;如果输入值M的最大值不大于预设定值r,则进入步骤4; 步骤4、判断所述输出值M是否小于等于预定值s,如果是则将该分类样本归入拒识类 ,步骤结束;否则进入步骤5; 步骤5、将分类样本分别发送到生成训练结果2和生成训练结果3的支持矢量机分类器进行分类,如果两分类器的结果一致,则该分类结果即为该分类样本对应的类别,否则将该分类样本归入拒识类,步骤结束。

【技术特征摘要】

【专利技术属性】
技术研发人员:秦大斌刘瑛杜燕春谢志远袁锐刘建胜唐兵何蔓微佘安娅
申请(专利权)人:秦大斌刘瑛杜燕春谢志远袁锐刘建胜唐兵何蔓微佘安娅
类型:发明
国别省市:85

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1