一种结合用户关系与贝叶斯理论的邮件分类方法技术

技术编号：15441555 阅读：95 留言：0更新日期：2017-05-26 06:41

本发明专利技术公开了一种结合用户关系与贝叶斯理论的邮件分类方法，通过提取邮件内包含的用户关系构建用户关系图并结合改进的朴素贝叶斯方法，实现对电子邮件的自动分类，提高分类系统的准确率，减少误判率。本发明专利技术提出了可信因子来估算朴素贝叶斯分类器分类结果的可信度，并将朴素贝叶斯方法与用户关系图相结合，采用正常邮件内包含的用户关系来构建用户关系图，并根据用户处理邮件的一般习惯规律生成用户白名单。在新邮件分类的过程中，不断将分类结果反馈至用户关系图，同时更新用户白名单，使得分类系统能根据新邮件的变化自动调整用户关系图及白名单，从而达到更高的准确率。

A mail classification method based on user relation and Bayes theory

The invention discloses a combination of user relationship with the Bayesian classification method by mail, including the extraction of messages within user relationship building user relationship map and Naive Bayesian improved method, realize the automatic classification of email, to improve the accuracy of the classification system, reduce the misjudgment rate. The invention provides a reliable factor to estimate the classification results Naive Bayesian classifier reliability and Naive Bayesian method and user diagram combined to build user relationship contains normal mail users within the relationship, and according to the user's e-mail habits generally generate user of white list. In the process of new mail classification, the classification results will continue to feedback to the user relationship graph, and update the user white list, which makes the classification system can automatically adjust the user relationship according to the change of new mail and white list, so as to achieve higher accuracy.

全部详细技术资料下载

【技术实现步骤摘要】
一种结合用户关系与贝叶斯理论的邮件分类方法
本专利技术属于数据挖掘
，更具体地，涉及一种结合用户关系与贝叶斯理论的邮件分类方法。
技术介绍
在互联网高速发展的今天，人们的日常生活已与网络环境融为一体，越来越多的人使用互联网进行办公、购物、消费、娱乐等活动，其中电子邮件(E-mail)更成为人们日常交际的重要手段之一。根据中国互联网络信息中心(CNNIC)在2015年2月发布的的第35次《中国互联网络发展状况统计报告》显示，截止至2014年12月中国网民规模突破6.49亿，其中电子邮件用户规模已超过2.51亿。而在国外，2013年大约有9.29亿商业邮箱账户，并且还在持续增长。然而问题也随之而来，大量的垃圾邮件充斥着人们的生活、工作，网络上更是垃圾邮件泛滥成灾。已有的资料显示，互联网上传播的垃圾邮件2002年仅占总数的36％，到2006年已增长到总数的80％，到2010年这个比例已超过95％。电子邮件如此之高的使用率及庞大的用户群体，在给人们工作生活带来便捷的同时，也给一些居心不良的人提供了平台。大部分人的邮箱中所接收的邮件超过一大半都是垃圾邮件，这些垃圾邮件不仅给人们的日常生活带来困扰，占用了用户邮箱空间，处理这些邮件又浪费了人们的精力，同时也给邮件服务器带来很大压力，消耗了很多网络资源。垃圾邮件以促销型广告、培训宣传和系统推送通知消息等为主，另外一些邮件包含反动、色情、赌博等，对于正常用户来说，这些都是需要浪费时间精力去处理的。有些垃圾邮件甚至包含病毒，严重威胁到了用户的机器及私人信息安全。邮件分类技术经历了十几年的发展，目前已有很多技术被应用在实...
一种结合用户关系与贝叶斯理论的邮件分类方法

【技术保护点】
一种结合用户关系与贝叶斯理论的邮件分类方法，其特征在于，包括以下步骤：(1)获取邮件样本，根据该邮件样本训练朴素贝叶斯分类器，其中训练样本中分为正常邮件和垃圾邮件，并根据训练样本中的正常邮件中的往来联系构建用户关系图graphMap；(2)根据步骤(1)构建的用户关系图graphMap提取用户白名单，其中用户白名单初始为空；(3)根据步骤(1)中构建的用户关系图以及训练好的朴素贝叶斯分类器和步骤(2)中提取的用户白名单对新邮件进行判定，并根据判定结果更新用户关系图和用户白名单。

【技术特征摘要】
1.一种结合用户关系与贝叶斯理论的邮件分类方法，其特征在于，包括以下步骤：(1)获取邮件样本，根据该邮件样本训练朴素贝叶斯分类器，其中训练样本中分为正常邮件和垃圾邮件，并根据训练样本中的正常邮件中的往来联系构建用户关系图graphMap；(2)根据步骤(1)构建的用户关系图graphMap提取用户白名单，其中用户白名单初始为空；(3)根据步骤(1)中构建的用户关系图以及训练好的朴素贝叶斯分类器和步骤(2)中提取的用户白名单对新邮件进行判定，并根据判定结果更新用户关系图和用户白名单。2.根据权利要求1所述的邮件分类方法，其特征在于，构建用户关系图graphMap的过程包括以下子步骤：(1-1)从邮件样本中读取一封邮件，并判断其是否是正常邮件，如果是则转入步骤(1-2)，否则转入步骤(1-9)；(1-2)判断该邮件的发件人是否存在于映射关系idMap中，如果不是则转入步骤(1-3)，否则转入步骤(1-4)；(1-3)将该发件人的账号加入idMap并同时更新id计数器，然后转入步骤(1-4)；(1-4)判断邮件的收件人是否存在于idMap中，如果不在则转入步骤(1-5)，否则转入步骤(1-6)；(1-5)将该收件人的账号加入idMap，同时更新id计数器，并将该收件人的身份标识加入到收件人列表集合Set中，转入步骤(1-6)；(1-6)判断发件人的身份标识是否在用户关系图graphMap中，如果不在则转入步骤(1-7)，否则转入步骤(1-8)；(1-7)将发件人id与收件人列表集合Set作为一个键值对加入到用户关系图graphMap中，然后转入步骤(1-9)；(1-8)更新收件人列表集合Set中发件人对应的值，并转入步骤(1-9)；(1-9)判断邮件样本中是否还有其他邮件，如果有则返回步骤(1-1)，否则过程结束。3.根据权利要求2所述的邮件分类方法，其特征在于，步骤(2)具体包括以下子步骤：(2-1)从用户...

【专利技术属性】
技术研发人员：周可，王桦，刘庆，沈慧羊，
申请(专利权)人：华中科技大学，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人