一种结合用户关系与贝叶斯理论的邮件分类方法技术

技术编号:15441555 阅读:95 留言:0更新日期:2017-05-26 06:41
本发明专利技术公开了一种结合用户关系与贝叶斯理论的邮件分类方法,通过提取邮件内包含的用户关系构建用户关系图并结合改进的朴素贝叶斯方法,实现对电子邮件的自动分类,提高分类系统的准确率,减少误判率。本发明专利技术提出了可信因子来估算朴素贝叶斯分类器分类结果的可信度,并将朴素贝叶斯方法与用户关系图相结合,采用正常邮件内包含的用户关系来构建用户关系图,并根据用户处理邮件的一般习惯规律生成用户白名单。在新邮件分类的过程中,不断将分类结果反馈至用户关系图,同时更新用户白名单,使得分类系统能根据新邮件的变化自动调整用户关系图及白名单,从而达到更高的准确率。

A mail classification method based on user relation and Bayes theory

The invention discloses a combination of user relationship with the Bayesian classification method by mail, including the extraction of messages within user relationship building user relationship map and Naive Bayesian improved method, realize the automatic classification of email, to improve the accuracy of the classification system, reduce the misjudgment rate. The invention provides a reliable factor to estimate the classification results Naive Bayesian classifier reliability and Naive Bayesian method and user diagram combined to build user relationship contains normal mail users within the relationship, and according to the user's e-mail habits generally generate user of white list. In the process of new mail classification, the classification results will continue to feedback to the user relationship graph, and update the user white list, which makes the classification system can automatically adjust the user relationship according to the change of new mail and white list, so as to achieve higher accuracy.

【技术实现步骤摘要】
一种结合用户关系与贝叶斯理论的邮件分类方法
本专利技术属于数据挖掘
,更具体地,涉及一种结合用户关系与贝叶斯理论的邮件分类方法。
技术介绍
在互联网高速发展的今天,人们的日常生活已与网络环境融为一体,越来越多的人使用互联网进行办公、购物、消费、娱乐等活动,其中电子邮件(E-mail)更成为人们日常交际的重要手段之一。根据中国互联网络信息中心(CNNIC)在2015年2月发布的的第35次《中国互联网络发展状况统计报告》显示,截止至2014年12月中国网民规模突破6.49亿,其中电子邮件用户规模已超过2.51亿。而在国外,2013年大约有9.29亿商业邮箱账户,并且还在持续增长。然而问题也随之而来,大量的垃圾邮件充斥着人们的生活、工作,网络上更是垃圾邮件泛滥成灾。已有的资料显示,互联网上传播的垃圾邮件2002年仅占总数的36%,到2006年已增长到总数的80%,到2010年这个比例已超过95%。电子邮件如此之高的使用率及庞大的用户群体,在给人们工作生活带来便捷的同时,也给一些居心不良的人提供了平台。大部分人的邮箱中所接收的邮件超过一大半都是垃圾邮件,这些垃圾邮件不仅给人们的日常生活带来困扰,占用了用户邮箱空间,处理这些邮件又浪费了人们的精力,同时也给邮件服务器带来很大压力,消耗了很多网络资源。垃圾邮件以促销型广告、培训宣传和系统推送通知消息等为主,另外一些邮件包含反动、色情、赌博等,对于正常用户来说,这些都是需要浪费时间精力去处理的。有些垃圾邮件甚至包含病毒,严重威胁到了用户的机器及私人信息安全。邮件分类技术经历了十几年的发展,目前已有很多技术被应用在实际生活中。当前国内外主要的垃圾邮件分类技术主要有以下几种:1)关键字(词)基于关键字的垃圾邮件分类技术主要是通过构建敏感关键字(词)库来实现的,关键字(词)库包含了垃圾邮件中可能会出现的大部分敏感词汇,比如“折扣”、“促销”、“抢购”、“$”等,当一封邮件中包含关键字(词)库中的单词时,它往往是属于垃圾邮件。为了进一步提高该方法的准确率,很多人采用关键字评分技术,即邮件中每包含一个关键字(词)库中的单词就使该邮件的得分加1,当最后总得分超过某个设定的阀值后,就将它判为垃圾邮件。这种方法在反垃圾邮件技术早期应用的较多,因为实现非常简单且处理速度非常快。然而,随着互联网技术的发展,越来越多的垃圾邮件泛滥,类型也千变万化,为了继续保持分类准确率,关键字(词)库需要经常的维护更新,而且需要专业的人士来进行。另外,这种技术在实践中被证明误判率太高,局限性太大。2)黑白灰名单黑白灰名单技术针对的主要是邮件的联系人、IP地址、DNS或者域名,通过构建相应的联系人列表、IP地址列表、DNS列表或者域名列表等实现邮件分类。以面向IP地址的黑白灰名单技术为例,黑名单技术主要是构建一个黑名单列表,包含了所有垃圾邮件发送者的IP地址,当一封信邮件到来时,检查这个黑名单列表,如果该IP存在于该列表内,则被判为垃圾邮件;而白名单技术与黑名单正好相反,若该IP存在于白名单列表内,则不是垃圾邮件;灰名单技术在用户第一次发送邮件时邮件服务器会记录该邮件头信息,并要求发送者在灰名单规定的时间内重新发送才能通过。然而,使用灰名单技术由于可能会多次发送会造成额外的网络带宽开销并且加大了服务器的开销,而黑名单和白名单技术由于其比较强的判定规则限制,很容易造成误判,实践中一份完好的名单建立比较困难,一般只将黑白名单作为分类系统的辅助手段。3)指纹识别指纹识别技术是根据每个邮件的内容生成相应的指纹信息,进行分类判断时,需要将指纹信息向全球服务器提交,服务器端维护一个指纹库,根据同一指纹被报告为垃圾邮件的次数来确定是否为垃圾邮件。然而,该方法需要经常维护指纹库,并且对垃圾邮件而言,必须大量传播并被提交至全球服务器才能获得较高的识别准确率。4)KNNKNN(K-Nearest-Neighbor)方法是根据邮件在特征空间中最相似的K个样本大多数所属的某个类别进行判定。每次分类需要比较邮件与样本空间内所有样本的相似度,选取其中相似度最大的K个,最后使用多数表决法确定这K个样本大多数所属的类别作为最终待分类邮件的类别。然而,KNN计算比较耗时,只适合小规模的样本分类,并且不同样本库对K的值敏感度不一,需要非常谨慎的选择K值。5)贝叶斯贝叶斯方法是根据邮件样本的先验概率来计算邮件的后验概率,使用统计学的概率计算方法,计算邮件分别属于每个类别的概率,从中选择概率最大的类别作为该邮件的类别。贝叶斯方法首先需要训练样本生成一个分类器,然后根据这个分类器对其他的邮件进行分类。然而,贝叶斯方法分类器的性能非常依赖训练过程,样本的大小、质量对最终分类性能影响很大,并且分类器一旦完成就无法更改,难以适应邮件的动态变化。6)SVM支持向量机(SupportVectorMachine)方法是通过训练样本构造最优线性分类面,最优分类面保证了最大分类间隙,该方法比较适合小规模样本分类或者用在高维模式识别中,效果良好。7)基于社区(Community)的方法基于社区的分类方法将邮件按照相似度聚成几个社区,即类别,判断新的邮件的社区时,分别计算它与其他另外几个社区之间的相似度,选择其中相似度值最大的社区作为邮件的社区;另外,计算该邮件加入对应的社区后是否使得该社区的中心相似度有所增加,若是则将新邮件加入至该社区。这种方法首先假设了邮件按照内容能划分成几个社区,其次在进行划分时需要计算计算邮件与社区内所有样本的相似度,适合小规模的邮件分类。8)基于社会关系和URL的方法基于社会关系和URL的方法(UNIK)专门用来对包含URL的邮件进行分类,根据邮件的双方联系人及包含的共同URL构建关系图,从关系图中找出所有正常用户,逐步削减关系图,最后剩下的节点为垃圾邮件发送者。该方法要求垃圾邮件必须比正常邮件传播更多,即大量发送给他人,并且只能对包含URL的邮件进行分类,有一定的局限性。除了已列举的上述这些方法,邮件分类还有一些其他的方法,例如基于决策树的方法,Boosting方法,基于行为模式的方法,基于协议的分类方法,基于图像识别的方法等等。然而,现有的这些邮件分类方法存在以下的问题:1、处理改变垃圾邮件的格式和内容等反垃圾邮件分类技术效率不高;2、忽略邮件内包含的用户关系;3、正常邮件的误判率比较高,即将正常邮件判定为垃圾邮件的概率。
技术实现思路
针对现有技术的以上缺陷或改进需求,本专利技术提供了一种结合用户关系与贝叶斯理论的邮件分类方法,其目的在于,解决现有分类方法中存在的由于缺乏考虑用户关系导致的邮件分类准确率不高和正常邮件误判率比较高的技术问题,并将邮件内包含的用户关系与朴素贝叶斯方法相结合,提高邮件分类的准确率,减少邮件的误判率。为实现上述目的,按照本专利技术的一个方面,提供了一种结合用户关系与贝叶斯理论的邮件分类方法,包括以下步骤:(1)获取邮件样本,根据该邮件样本训练朴素贝叶斯分类器,其中训练样本中分为正常邮件和垃圾邮件,并根据训练样本中的正常邮件中的往来联系构建用户关系图graphMap;(2)根据步骤(1)构建的用户关系图graphMap提取用户白名单,其中用户白名单初始为空;(3)根据步骤(1)中构建的用户关系图以及训练好本文档来自技高网
...
一种结合用户关系与贝叶斯理论的邮件分类方法

【技术保护点】
一种结合用户关系与贝叶斯理论的邮件分类方法,其特征在于,包括以下步骤:(1)获取邮件样本,根据该邮件样本训练朴素贝叶斯分类器,其中训练样本中分为正常邮件和垃圾邮件,并根据训练样本中的正常邮件中的往来联系构建用户关系图graphMap;(2)根据步骤(1)构建的用户关系图graphMap提取用户白名单,其中用户白名单初始为空;(3)根据步骤(1)中构建的用户关系图以及训练好的朴素贝叶斯分类器和步骤(2)中提取的用户白名单对新邮件进行判定,并根据判定结果更新用户关系图和用户白名单。

【技术特征摘要】
1.一种结合用户关系与贝叶斯理论的邮件分类方法,其特征在于,包括以下步骤:(1)获取邮件样本,根据该邮件样本训练朴素贝叶斯分类器,其中训练样本中分为正常邮件和垃圾邮件,并根据训练样本中的正常邮件中的往来联系构建用户关系图graphMap;(2)根据步骤(1)构建的用户关系图graphMap提取用户白名单,其中用户白名单初始为空;(3)根据步骤(1)中构建的用户关系图以及训练好的朴素贝叶斯分类器和步骤(2)中提取的用户白名单对新邮件进行判定,并根据判定结果更新用户关系图和用户白名单。2.根据权利要求1所述的邮件分类方法,其特征在于,构建用户关系图graphMap的过程包括以下子步骤:(1-1)从邮件样本中读取一封邮件,并判断其是否是正常邮件,如果是则转入步骤(1-2),否则转入步骤(1-9);(1-2)判断该邮件的发件人是否存在于映射关系idMap中,如果不是则转入步骤(1-3),否则转入步骤(1-4);(1-3)将该发件人的账号加入idMap并同时更新id计数器,然后转入步骤(1-4);(1-4)判断邮件的收件人是否存在于idMap中,如果不在则转入步骤(1-5),否则转入步骤(1-6);(1-5)将该收件人的账号加入idMap,同时更新id计数器,并将该收件人的身份标识加入到收件人列表集合Set中,转入步骤(1-6);(1-6)判断发件人的身份标识是否在用户关系图graphMap中,如果不在则转入步骤(1-7),否则转入步骤(1-8);(1-7)将发件人id与收件人列表集合Set作为一个键值对加入到用户关系图graphMap中,然后转入步骤(1-9);(1-8)更新收件人列表集合Set中发件人对应的值,并转入步骤(1-9);(1-9)判断邮件样本中是否还有其他邮件,如果有则返回步骤(1-1),否则过程结束。3.根据权利要求2所述的邮件分类方法,其特征在于,步骤(2)具体包括以下子步骤:(2-1)从用户...

【专利技术属性】
技术研发人员:周可王桦刘庆沈慧羊
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1