一种多层次重要邮件检测方法技术

技术编号：13073833 阅读：48 留言：0更新日期：2016-03-30 09:48

本发明专利技术公开了一种利用邮件地址、邮件主题和邮件正文等信息建立的多层次重要邮件检测方法，该方法首先结合贝叶斯方法提取邮件基于邮箱地址的二级特征；然后采用LDA(隐含狄利克雷分配)和SVM(支持向量机)算法提取邮件基于邮件主题的二级特征；其次采用C4.5和SVM算法提取邮件基于邮件正文的二级特征；最后利用前面提取的邮件基于邮箱地址、邮件主题、邮件正文的三种二级特征训练神经网络模型，利用该模型对邮件进行重要性检测具有较高的准确率和召回率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于邮件检测
，更为具体地讲，设及一种多层次重要邮件的检测方法，适用于重要邮件检测、垃圾邮件过滤等方面的应用。
技术介绍
随着互联网技术的迅速发展，通过互联网进行通信也越来越频繁。而通过邮件进行通讯已经变成了生活、工作、学习中不可或缺的部分。然而，就在电子邮件逐渐成为一种不可或缺的重要信息交流工具的同时，也成为了一种商业手段导致用户需要花费大量的时间从收到大量邮件中检测出自己需要的重要邮件。针对W上问题，目前已有一些邮件检测算法，但其方法都比较单一，运导致检测结果不够准确，尤其是在重要邮件占比较小的情况下，更难满足应用需求。因此提高重要邮件检测的准确率，尤其是在重要邮件占比较小的情况下，是目前研究的一个热点问题。在现有的一些解决方案中，包括基于概率的方法、基于统计学习的方法、基于相似度聚类的方法等。基于概率的方法，如经典的贝叶斯方法，其原理是计算各个类别在给定运组属性值时的条件概率，并将条件概率最大的类标号作为分类的结果，采用该方法的缺点是前提条件一般不能满足;基于统计学习的方法，如SVM、决策树等。SVM方法是目前比较好的邮件分类方法之一，其原理是将邮件属性通过核函数映射到高维空间，在运个高维空间里建立最大间隔超平面，根据邮件所在的平面来决定邮件所属的类别，其缺点是核函数的选择有一定的盲目性，缺乏有效的指导，很难针对某个具体问题选择最佳的核函数;决策树是比较有效率的一个方法，其原理是先将属性值进行离散化，然后按离散化的值进行建树，依次进行，直到该分支满足预定的要求，否则继续下去，直到该分支为单...

【技术保护点】
一种多层次重要邮件的检测方法，适用于重要邮件检测、垃圾邮件过滤等具体应用，具有较高的准确率和召回率，其特征在于，包括以下步骤：(1)、邮件预处理从收集到的邮件中，随机抽取N封邮件，并根据邮件实际的重要性分别打上“重要邮件”或“非重要邮件”的标签；(2)、针对每一封抽取出来的邮件，通过正则表达式匹配算法或字符串匹配的方法，提取邮件中的邮箱地址、邮件主题和邮件正文等三部分信息；(3)提取基于邮箱地址的二级特征(3.1)、将第i封邮件的收发邮箱地址集合表示为Ai，则N封邮件所有邮箱地址的集合可表示为A＝A1∪A2∪.....∪AN，用freq+(ah,al)表示邮箱地址对(ah,al)在重要邮件中形成的地址集合中出现的总次数，用freq‑(ah,al)表示邮箱地址对(ah,al)在非重要邮件中形成的地址集合中出现的总次数，其中，ah,al∈A邮箱且地址ah,al来自同一封邮件；将邮箱地址对(ah,al)分别在重要邮件邮箱地址对中和非重要邮件邮箱地址对中出现的比值p+(ah,al)和p‑(ah,al)作为基于邮箱地址的二级特征，其中p+(ah,al)=freq+(ah,al)N,p-(ah,a...

【技术特征摘要】

【专利技术属性】
技术研发人员：不公告发明人，
申请(专利权)人：成都数之联科技有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人