一种多层次重要邮件检测方法技术

技术编号:13073833 阅读:48 留言:0更新日期:2016-03-30 09:48
本发明专利技术公开了一种利用邮件地址、邮件主题和邮件正文等信息建立的多层次重要邮件检测方法,该方法首先结合贝叶斯方法提取邮件基于邮箱地址的二级特征;然后采用LDA(隐含狄利克雷分配)和SVM(支持向量机)算法提取邮件基于邮件主题的二级特征;其次采用C4.5和SVM算法提取邮件基于邮件正文的二级特征;最后利用前面提取的邮件基于邮箱地址、邮件主题、邮件正文的三种二级特征训练神经网络模型,利用该模型对邮件进行重要性检测具有较高的准确率和召回率。

【技术实现步骤摘要】

本专利技术属于邮件检测
,更为具体地讲,设及一种多层次重要邮件的检测 方法,适用于重要邮件检测、垃圾邮件过滤等方面的应用。
技术介绍
随着互联网技术的迅速发展,通过互联网进行通信也越来越频繁。而通过邮件进 行通讯已经变成了生活、工作、学习中不可或缺的部分。然而,就在电子邮件逐渐成为一种 不可或缺的重要信息交流工具的同时,也成为了一种商业手段导致用户需要花费大量的时 间从收到大量邮件中检测出自己需要的重要邮件。针对W上问题,目前已有一些邮件检测 算法,但其方法都比较单一,运导致检测结果不够准确,尤其是在重要邮件占比较小的情况 下,更难满足应用需求。因此提高重要邮件检测的准确率,尤其是在重要邮件占比较小的情 况下,是目前研究的一个热点问题。 在现有的一些解决方案中,包括基于概率的方法、基于统计学习的方法、基于相似 度聚类的方法等。基于概率的方法,如经典的贝叶斯方法,其原理是计算各个类别在给定运 组属性值时的条件概率,并将条件概率最大的类标号作为分类的结果,采用该方法的缺点 是前提条件一般不能满足;基于统计学习的方法,如SVM、决策树等。SVM方法是目前比较好 的邮件分类方法之一,其原理是将邮件属性通过核函数映射到高维空间,在运个高维空间 里建立最大间隔超平面,根据邮件所在的平面来决定邮件所属的类别,其缺点是核函数的 选择有一定的盲目性,缺乏有效的指导,很难针对某个具体问题选择最佳的核函数;决策树 是比较有效率的一个方法,其原理是先将属性值进行离散化,然后按离散化的值进行建树, 依次进行,直到该分支满足预定的要求,否则继续下去,直到该分支为单个邮件。其缺点是 很容易过拟合。基于相似度聚类的方法,如K順,其原理是计算邮件之间的距离,样本离哪个 类别近就认为该封邮件属于哪个类别。其缺点是需要计算邮件之间的距离,分类效率较低。 运些方法都有各自的优势,同时也有各自的缺点。在一些准确率要求较高及重要 邮件与非重要邮件比例相对悬殊的情况下,运些方法还不能满足实际应用的要求。
技术实现思路
[000引针对现有技术存在的不足和缺陷,本专利技术提供了一种利用邮件邮箱地址、邮件主 题和邮件正文等信息建立的多层次邮件检测方法。该方法针对邮件邮箱地址、主题、正文等 信息分别建立二级特征提取模型并利用该模型得到二级特征,再将得到的二级特征作为神 经网络的输入训练神经网络模型。该专利技术结合使用了贝叶斯、LDA(隐含狄利克雷分配)、SVM (支持向量机)、决策树等方法,在检测重要邮件中能达到较好的效果。 本专利技术的具体步骤如下: (1)、邮件预处理 从收集到的邮件中,重要邮件和非重要邮件按一定比例随机抽取共N封邮件,并根 据邮件本身的重要性分别打上"重要邮件"或"非重要邮件"的标签。 (2)、针对每一封抽取出来的邮件,通过正则表达式匹配算法或字符串匹配算法提 取邮件中的邮箱地址、邮件主题和邮件正文等Ξ部分信息。 (3)、提取基于邮箱地址对的二级特征 (3.1 )、将第i封邮件的收发邮箱地址集合表示为Ai,则N封邮件所有邮箱地址的集 合可表示为A=Ai U A2 U.....U An。用freq+(ah,ai)表示邮箱地址对(ah,ai)在标注为重要邮 件邮箱地址对中出现的次数,用freq^ah,ai)表示邮箱地址对(ah,ai)在标注为非重要邮件 邮箱地址对中出现的次数,其中,ah,aiEA并且ah,a读自同一封邮件的邮箱地址。根据W下 公式可求出邮箱地址对(ah, ai)分别在重要邮件邮箱地址对集合和非重要邮件邮箱地址对 集合中出现的比例p+(ah,ai)和FT(ah,ai): (3.2)、用表示第i封邮件构成的邮箱地址对的集合包含在重要邮件邮箱地址对 集中的部分,表示为半=/知:,〇,月"&,〇,€4/,用本表示第巧寸邮件构成的邮箱地址对的集 合包含在所有非重要邮件邮箱地址对集合中的部分,表示为布=抑e 4;,则 第i封邮件基于邮箱地址对的二级特征f 1,1可计算为: 其中I年I代表第i封邮件中的邮箱地址对包含在重要邮件邮箱地址对集合中的数 目,141代表第i封邮件邮箱地址对包含在非重要邮件邮箱地址对集合中数目。 (4)、提取基于邮件主题的二级特征 (4.1)、采用汉字分词系统对邮件主题进行分词,从分词中选取名词、动词、形容词 和副词作为特征词,得到邮件中的F个特征词。 (4.2)、根据步骤(4.1)得到的F个特征词统计第i封邮件中出现运F个特征词的词 频并向量化,得到N个F维的向量Xi=(xi,i,xi,2,. . .,xi,F),l y如,N个F维的向量构成训练 邮件的向量矩阵(TM)nxf。先将向量矩阵(TM)nxf作为LDA(隐含狄利克雷分配)算法的建立主 题模型,识别出邮件的潜在主题信息,通过主题模型的输出得到N个T维的向量χ/ι = (χ/1,1, 厶,2,...,厶,1),构成输出矩阵巧1_5¥1^1,其中1'为预先给定的主题数。然后将得到的向 量矩阵(TM_SVM)nxt作为输入,W邮件的标签为目标,利用SVM巧持向量机)算法训练基于邮 件主题的分类模型。通过运个基于邮件主题的分类模型的输出可得到第i封邮件属于重要 邮件的概率,并将该概率作为该邮件基于邮件主题的二级特征,表示为fi,2。 (5)、提取邮件正文信息的二级特征 (5.1)、邮件正文预处理采用汉字分词器系统对邮件正文进行分词。根据词性从分词中选取名词和动词作 为候选特征词,进而得到训练邮件的候选特征词集合,然后根据w下公式: 计算每个候选特征词的卡方值,其中,t代表候选特征词,C代表类别(在运里只有 重要和非重要),A代表候选特征词t在C类别邮件中出现的次数,B代表候选特征词t在非C类 另IJ邮件中出现的次数,C代表C类别邮件中出现非候选特征词t的次数,D代表所有非C类邮件 中出现非候选特征词t的次数,N代表训练集的大小。取卡方值大的前G个候选特征词作为后 续处理的特征词,通过该方法可W过滤掉那些对分类贡献小的特征词W减小计算的复杂 度。[002引(5.2)、邮件初分类 根据(5.1)中得到的G个特征词,计算第i封邮件特征词的tf-i壯值并向量化,得到 新的向量Yi=(yi,i,yi,2,...,yi,G),l < i <N。将得到的向量Yi作为决策树算法C4.5的输入, 将每个叶子节点中的重要邮件所占的比例小于阔值α,则将该节点判断为非重要邮件节点, 通过控制每个叶子节点中阔值保证重要邮件总体的召回率处于较高水平。训练出一个 能过滤部分非重要邮件的初分类模型,通过建立的初分类模型将邮件分类分为重要邮件和 非重要邮件两类。 (5.3)、二级特征提取 通过(5.2)步骤的初分类模型将邮件分为重要邮件和非重要邮件。对于判断为重 要的邮件,计算(5.1)步骤中得到的G个特征词分别属于重要邮件和非重要邮件的贝叶斯概 率,并将特征词属于重要邮件的贝叶斯概率与属于非重要邮件的贝叶斯概率的比值作为对 应特征词的特征值并向量化;对于判断为非重要的邮件,直接将G个特征词对应当前第1页1 2 3 本文档来自技高网
...

【技术保护点】
一种多层次重要邮件的检测方法,适用于重要邮件检测、垃圾邮件过滤等具体应用,具有较高的准确率和召回率,其特征在于,包括以下步骤:(1)、邮件预处理从收集到的邮件中,随机抽取N封邮件,并根据邮件实际的重要性分别打上“重要邮件”或“非重要邮件”的标签;(2)、针对每一封抽取出来的邮件,通过正则表达式匹配算法或字符串匹配的方法,提取邮件中的邮箱地址、邮件主题和邮件正文等三部分信息;(3)提取基于邮箱地址的二级特征(3.1)、将第i封邮件的收发邮箱地址集合表示为Ai,则N封邮件所有邮箱地址的集合可表示为A=A1∪A2∪.....∪AN,用freq+(ah,al)表示邮箱地址对(ah,al)在重要邮件中形成的地址集合中出现的总次数,用freq‑(ah,al)表示邮箱地址对(ah,al)在非重要邮件中形成的地址集合中出现的总次数,其中,ah,al∈A邮箱且地址ah,al来自同一封邮件;将邮箱地址对(ah,al)分别在重要邮件邮箱地址对中和非重要邮件邮箱地址对中出现的比值p+(ah,al)和p‑(ah,al)作为基于邮箱地址的二级特征,其中p+(ah,al)=freq+(ah,al)N,p-(ah,al)=freq-(ah,al)N;]]>(3.2)、用表示第i封邮件构成的邮箱地址对的集合包含在重要邮件邮箱地址对集合中的部分,表示为用表示第i封邮件构成的邮箱地址对的集合包含在非重要邮件邮箱地址对集合中部分,表示为则第i封邮件基于邮箱地址对的二级特征fi,1可计算为:fi,1=Π(ah,al)∈Ai+p+(ah,al)|Ai+|Π(ah,al)∈Ai+p+(ah,al)|Ai+|+Π(ah,al)∈Ai-p-(ah,al)|Ai-|]]>其中代表第i封邮件中的邮箱地址对包含在重要邮件邮箱地址对集合中的数目,代表第i封邮件邮箱地址对包含在非重要邮件邮箱地址对集合中数目;(4)、提取基于邮件主题的二级特征(4.1)、采用汉字分词系统对邮件主题进行分词,从分词集合中选取名词、动词、形容词和副词作为特征词,得到邮件的F个特征词;统计每封邮件中出现这F个特征词的词频并向量化,将得到N个F维的向量构成训练邮件的向量矩阵(TM)N×F并作为LDA(隐含狄利克雷分配)算法的输入建立主题模型,识别出邮件的潜藏主题信息,并将从LDA主题模型训练得到的N个T维(T为主题数)向量(主题模型的输出)作为SVM的输入,以邮件类别标签作为目标,利用SVM(支持向量机)算法训练基于邮件主题的二级特征提取模型;通过该模型可提取第i封邮件的二级特征,表示为fi,2;(5)、提取邮件正文信息的二级特征采用汉字分词器系统对邮件正文进行分词,并计算每个分词的卡方值,通过卡方值的大小选取前G个卡方值大的分词作为特征词;计算每封邮件对应这G个特征词的tf‑idf值并向量化,将得到的向量作为决策树算法C4.5的输入,将每个叶子节点中的重要邮件所占的比例小于阈值α,则将该节点判断为非重要邮件节点,通过控制每个叶子节点中阈值α以保证重要邮件总体的召回率处于较高水平;训练出一个能过滤部分非重要邮件的过滤模型;通过使用C4.5算法建立的初分类模型将邮件分为重要邮件和非重要邮件;对于判断为重要的邮件,计算G个特征词分别属于重要邮件和非重要邮件的贝叶斯概率,并将属于重要邮件的概率与属于非重要邮件的概率的比值作为对应特征词的特征值并向量化;对于判断为非重要的邮件,将G个特征词的特征值全部赋值为0并向量化;将得到的向量作为SVM算法的输入,以邮件真实类别标签作为目标建立基于邮件正文的二级特征提取模型;通过该模型可以提取第i封邮件基于邮件正文的二级特征,表示为fi,3;(6)、利用二级特征建模将步骤(3)、步骤(4)、步骤(5)得到的特征fi,1,fi,2,fi,3组成新的向量Vi=(fi,1,fi,2,fi,3),将该向量作为神经网络算法的输入,训练出隐藏层只有一层两个节点,输出层只有一个节点的神经网络,通过输出层的输出数值大小来判断邮件是否是重要的。...

【技术特征摘要】

【专利技术属性】
技术研发人员:不公告发明人
申请(专利权)人:成都数之联科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1