当前位置: 首页 > 专利查询>北京大学专利>正文

一种垃圾邮件检测方法技术

技术编号:4174468 阅读:277 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种垃圾邮件检测方法,包括步骤:获取分类为正常邮件和垃圾邮件的训练样本集;根据训练样本集构建正常邮件代表词库和垃圾邮件代表词库;根据训练样本集中每封邮件在正常邮件代表词库和垃圾邮件代表词库中出现不同词的个数与邮件中不同词的个数,获取邮件的浓度特征向量;根据浓度特征向量与邮件的分类,建立浓度特征向量与分类的对应关系;获取待检测邮件的浓度特征向量;根据建立的浓度特征向量与分类的对应关系,得到待检测邮件的分类。本发明专利技术提出的垃圾邮件检测方法以二元浓度高效地表示邮件所述的类别,而且精度高,高效迅速地实现了垃圾邮件检测。

Method for detecting junk mail

The invention relates to a spam detection method comprises the following steps: obtaining classified as normal mail and spam training set; according to the training set to construct the normal mail on behalf of thesaurus and spam on behalf of lexicon; according to the number of different words in the training sample set for each message in the normal mail on behalf of thesaurus and Thesaurus of different representative spam words the number and email, concentration of feature vector of access to e-mail; mail according to the classification of vector and establish corresponding relationship between the characteristics of concentration, concentration and feature vector classification; feature vector for obtaining concentration detection mail; according to the corresponding relationship between the concentration and the feature vector classification, classification for spam detection. The spam detection method proposed by the invention uses the two yuan concentration to efficiently express the category of the mail, and has high precision, and realizes the junk mail detection efficiently and quickly.

【技术实现步骤摘要】

本专利技术涉及电子邮件处理
,具体涉及一种基于邮件浓度 特征向量的垃圾邮件检测方法
技术介绍
随着互联网的日益普及,电子邮件对于每一个人来说就已经成为 一种日常通讯的重要媒介和最为便捷的通信手段之一,基本上代替了 传统的纸质信件,人们越来越依赖于它和离不开它。但是,电子垃圾 邮件的出现却引发了日益严重的问题,严重威胁着人们的正常电子邮 件通信。垃圾邮件的膨胀不仅浪费掉大量的存储空间和通信带宽,而 且还消耗了大量的用户时间去处理和删除它们。因此,研究对这种垃 圾邮件的检测过滤方法就显得十分必要,具有重要意义。垃圾邮件分类检测在本质是一个模式识别问题。垃圾邮件的分类 大体上可以分为邮件特征提取和分类器分类两个步骤。如图1所示显 示了垃圾邮件检测的系统框架。对于一封待分类邮件,在经过预处理 后通过对邮件进行特征提取将邮件表示为分类器可以理解的方式,随 后特征提取的结果被作为分类器的输入。针对输入分类器会利用预先 积累的经验知识对邮件进行一个两类的判定,即是正常邮件或者是垃 圾邮件并将分类结果输出给用户。用户根据自身的判断对分类器的分 类结果做出反馈。分类器根据反馈的结果做出自身的动态调整。特征提取将邮件从原始形式转化为分类器可以理解的方式。在特 征提取之前需要对邮件进行一定的预处理,如主题部分和邮件体部分 的提取,分词处理,附件解码等。预处理之后通过某种提取方法对邮 件的特征进行分析。对于特征提取,将现有常用的方法将其划分为三个类别(l)简单方法,包括Mimging、列表、别名等,直接使用邮件的某些部分来 构造特征,如列表法允许白名单上的合法邮件发送者,过滤黑名单上 的垃圾邮件发送者,同时,暂时搁置灰名单上的未确定身份的发送者;(2) 词频统计方法,在许多垃圾邮件检测方法中, 一个词w被定义 为 一个特征,并且一个包含若干词的词向量x被当作特征向量来表示 邮件,有许多词频统计的方法来构建向量x,如标识一个单词在一封 邮件中出现次数的词频、标识一个词频在所有文档中出现的总次数的 -反转文档频率和标识一个单词是否在邮件中出现的二元表示法;(3) 启发式方法,和词频统计关注与候选词的选择不同,启发式的 方法挖掘邮件中的语义信息,在训练阶段生成的模式被用于在运行阶 段进行匹配,然而,挖掘出适合分类的模式通常是比较困难的,Yeh 等通过邮件头中的如下几个部分来挖掘垃圾邮件发送者的行为模式.-(1) From, ( 2 ) To, ( 3 ) Reply-To, ( 4 )Delivered-To, ( 5 ) Return-Path, (6) Received, ( 7 ) Data。在上述部分中,正常邮件具有正常的行为模式,反之,垃圾邮件具有异常的行为模式。对于分类器设计,对应地将其划分为简单方法、智能方法和混合方法。和分类器设计相比,特征构造是和应用背景密切相关的并且会对分类器的最终性能产生巨大的影响。准确定义的特征可以很好的 体现样本个体之间的差别因此可以获得良好的性能。同时,这也简化了分类器的设计并且保障了泛化性能。然而许多特征提取方法利用词频统计形成词向量并随后作为后 端分类算法的特征向量。虽然诸如停止列表,词干处理,互信息量, 信息获取等方法被用于对候选词进行选择以减低维数,但最终形成的 特征向里的维数通常还是在千位数的量级。启发式的方法在一定程度 上降低了维数巨大的问题,但是学习得到的模式集合和待分类邮件的 模式之间的匹配通常是十分耗时的,尤其是当这个模式集合比较庞大 的时候。同时,挖掘准确的模式也是十分困难的。
技术实现思路
本专利技术的目的是提供,该方法是基于垃圾 邮件浓度特征向量的,该浓度特征特征向量以二元浓度高效地表示邮 件所述的类别,不仅在训练过程与检测过程速度快,而且精度高,高 效迅速地实现了垃圾邮件检测。为实现上述目的,本专利技术釆用如下技术方案一种垃圾邮件检测的方法,包括步骤获取分类为正常邮件和垃 圾邮件的训练样本集;根据训练样本集构建正常邮件代表词库和垃圾 邮件代表词库;根据训练样本集中每封邮件在正常邮件代表词库和垃 圾邮件代表词库中出现不同词的个数与所述邮件中不同词的个数,获 取所述邮件的浓度特征向量;根据所述浓度特征向量与所述邮件的分 类,建立浓度特征向量与分类的对应关系;根据待检测邮件在正常邮 件代表词库和垃圾邮件代表词库中出现不同词的个数与所述待检测 邮件中不同词的个数,获取待检测邮件的浓度特征向量;根据建立的 浓度特征向量与分类的对应关系,得到所述待检测邮件的分类。其中,获取所述邮件的浓度特征向量的方法包括步骤根据训练 样本集中每封邮件在正常邮件代表词库出现不同词的个数与所述邮件中不同词的个数比值,得到所述邮件的自己浓度;根据训练样本集 中每封邮件在垃圾邮件代表词库中出现不同词的个数与所述邮件中 不同词的个数比值,得到所述邮件的非己浓度;由所述邮件的自己浓 度与非己浓度组成所述邮件的浓度特征向量。其中,获取所述待检测邮件的浓度特征向量的方法包括步骤根 据所述待检测邮件的在正常邮件代表词库出现不同词的个数与所述 邮件中不同词的个数比值,得到所述待检测邮件的自己浓度;根据待 检测邮件的在垃圾邮件代表词库出现不同词的个数与所述邮件中不 同词的个数比值,得到所述待检测邮件的非己浓度;由所述待检测邮 件的自己浓度与非己浓度组成所述待检测邮件的浓度特征向量。其中,构建正常邮件代表词库和垃圾邮件代表词库的方法包括步骤获取所述训练样本集中每个词在正常邮件中出现次数与在垃圾邮 件中出现次数的差值;根据所述差值选择所述词为正常邮件代表词或 垃圾邮件代表词,构成正常邮件代表词库和垃圾邮件代表词库。其中,根据所述差值构成正常邮件代表词库和垃圾邮件代表词库 的方法为根据所述训练样本集中的词在正常邮件中出现次数与在垃 圾邮件中出现次数的差值,将所述词划分为两部分,其中差值大的一 部分为正常邮件代表词库,差值小的一部分为垃圾邮件代表词库。其中,根据所述差值构成正常邮件代表词库和垃圾邮件代表词库 的方法为根据所述训练样本集中的词在正常邮件中出现次数与在垃 圾邮件中出现次数的差值,将所述词划分为三部分,其中差值大的一 部分为正常邮件代表词库,差值小的一部分为垃圾邮件代表词库,将 差值位于中间部分的词丢弃。其中,将训练样本集中词划分为正常邮件垃圾库或垃圾邮件代表 词库时,获取测试样本作为待检测样本进行分类的错误率高于设定 值,则确定所述词为丟弃词。其中,在构建正常邮件代表词库和垃圾邮件代表词库步骤前,还 包括对所述训练样本集的词进行预处理的步骤通过统计所述训练集 样本中不同词在每封邮件中是否出现,获取不同词的出现频率,丟弃 出现频率高于95%的词后得到预处理后的词。其中,该方法中采用人工神经网络法根据所述浓度特征向量与所 述邮件的分类,建立浓度特征向量与分类的对应关系。其中,该方法中采用支持向量机根据所述浓度特征向量与所述邮 件的分类,建立浓度特征向量与分类的对应关系。利用本专利技术提供的垃圾邮件检测方法进行垃圾邮件检测时,结果 表明在仅使用两个浓度特征的情况下,所提出的特征构造方法与其他 方法相比较取得了很好的性能提升。此外,这种特征构造方法极大的 简化了分类器的设计与实现,从而保证了分类器的泛化性能,具本文档来自技高网
...

【技术保护点】
一种垃圾邮件检测的方法,其特征在于,该方法包括步骤:    获取分类为正常邮件和垃圾邮件的训练样本集;    根据训练样本集构建正常邮件代表词库和垃圾邮件代表词库;    根据训练样本集中每封邮件在正常邮件代表词库和垃圾邮件代表词库中出现不同词的个数与所述邮件中不同词的个数,获取所述邮件的浓度特征向量;    根据所述浓度特征向量与所述邮件的分类,建立浓度特征向量与分类的对应关系;    根据待检测邮件在正常邮件代表词库和垃圾邮件代表词库中出现不同词的个数与所述待检测邮件中不同词的个数,获取待检测邮件的浓度特征向量;    根据建立的浓度特征向量与分类的对应关系,得到所述待检测邮件的分类。

【技术特征摘要】

【专利技术属性】
技术研发人员:谭营阮光尘
申请(专利权)人:北京大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利