一种过滤垃圾邮件的方法、装置及邮件服务器制造方法及图纸

技术编号:16219390 阅读:43 留言:0更新日期:2017-09-16 01:52
本发明专利技术实施例公开了一种过滤垃圾邮件的方法、装置及邮件服务器。该方法包括通过预设规则库包括的第一规则对新接收的邮件进行预判定,得到邮件的参考垃圾评分;获取以历史邮件为机器学习的训练样本,对第一规则进行训练生成的第一垃圾概率值;基于聚类算法,根据第一垃圾概率值计算得到邮件的第二垃圾概率值;根据第二垃圾概率值的取值范围生成对应的聚合规则,并对聚合规则进行数据挖掘得到聚合规则对应的垃圾分值;根据参考垃圾评分和垃圾分值的和,判断邮件是否为垃圾邮件,解决垃圾邮件误判或漏判的问题,可以提升反垃圾引擎过滤垃圾邮件的能力,减少垃圾邮件误判或漏判的可能性。

Method, device and mail server for filtering junk mail

The embodiment of the invention discloses a method, a device and a mail server for filtering junk mail. The method includes the first preset rules include rules through to new incoming mail pre judgment, junk mail to obtain the reference score obtained by mail for history; machine learning training samples, the first rule for the first garbage generated value probability training; clustering algorithm based on probability value is calculated according to the first second garbage landfill the probability value of the message; according to the aggregation rules range of second garbage to generate the corresponding probability value, and the aggregation rules for data mining by aggregation rules corresponding garbage value; according to the reference score and the score of garbage and waste, to determine whether a message is spam, spam falsepositives solve problems, ability can improve the anti waste engine to filter spam, spam or reduce misjudgment possibility of missing.

【技术实现步骤摘要】
一种过滤垃圾邮件的方法、装置及邮件服务器
本专利技术实施例涉及通信
,尤其涉及一种过滤垃圾邮件的方法、装置及邮件服务器。
技术介绍
随着网络用户的迅速增加,收发邮件已成为用户进行交流联系的主要手段。由于无需事前征求用户同意就可以在短时间内发送大量邮件给一个或者多个用户,因此邮件为广告宣传提供了成本低廉、传播面广的传播平台;正是由于这种非法利益的驱使,近年来垃圾邮件快速增长,所以迫切需要一个有效的方式来过滤垃圾邮件。邮件过滤的核心问题是如何使用已知的邮件文本数据集合建立一个文本分类模型,然后使用这个模型对邮件类型进行判别,从而过滤出垃圾邮件。由于垃圾邮件过滤实际上是一个二分类问题,所以传统的分类方法虽然可以达到目的,但是效果并不好。目前邮件过滤主要采用的方法是给予规则过滤的方法,这种方法对于规则的依赖性很强,只要规则选取的好,相应的过滤结果也会非常好。但是垃圾邮件的特征也会不断的变化,导致传统的垃圾邮件过滤技术存在缺陷,对于垃圾邮件误判或漏判的可能性大大增加。
技术实现思路
本专利技术实施例提供一种过滤垃圾邮件的方法、装置及邮件服务器,可以提升反垃圾引擎过滤垃圾邮件的能力,减少垃圾邮本文档来自技高网...
一种过滤垃圾邮件的方法、装置及邮件服务器

【技术保护点】
一种过滤垃圾邮件的方法,其特征在于,包括:通过预设规则库包括的第一规则对新接收的邮件进行预判定,得到所述邮件的参考垃圾评分;获取以历史邮件为机器学习的训练样本,对所述第一规则进行训练生成的第一垃圾概率值;基于聚类算法,根据所述第一垃圾概率值计算得到所述邮件的第二垃圾概率值,其中,第一垃圾概率值包括由第一规则判定所述邮件为垃圾邮件的概率,以及由第一规则判定所述邮件为正常邮件的概率;根据所述第二垃圾概率值的取值范围生成对应的聚合规则,并对所述聚合规则进行数据挖掘得到所述聚合规则对应的垃圾分值,其中,所述垃圾分值为正值或负值;根据所述参考垃圾评分和垃圾分值的和,判断所述邮件是否为垃圾邮件。

【技术特征摘要】
1.一种过滤垃圾邮件的方法,其特征在于,包括:通过预设规则库包括的第一规则对新接收的邮件进行预判定,得到所述邮件的参考垃圾评分;获取以历史邮件为机器学习的训练样本,对所述第一规则进行训练生成的第一垃圾概率值;基于聚类算法,根据所述第一垃圾概率值计算得到所述邮件的第二垃圾概率值,其中,第一垃圾概率值包括由第一规则判定所述邮件为垃圾邮件的概率,以及由第一规则判定所述邮件为正常邮件的概率;根据所述第二垃圾概率值的取值范围生成对应的聚合规则,并对所述聚合规则进行数据挖掘得到所述聚合规则对应的垃圾分值,其中,所述垃圾分值为正值或负值;根据所述参考垃圾评分和垃圾分值的和,判断所述邮件是否为垃圾邮件。2.根据权利要求1所述的方法,其特征在于,在通过预设规则库包括的第一规则对新接收的邮件进行预判定之前,还包括:应用设定的垃圾过滤技术对邮件进行判定后生成相应的规则,将所述垃圾过滤技术对应的规则存入所述预设规则库。3.根据权利要求1或2所述的方法,其特征在于,在通过预设规则库包括的第一规则对新接收的邮件进行预判定之前,还包括:获取研发人员或运维人员输入的基于垃圾邮件的特征和发信行为的组合规则,将所述组合规则存入所述预设规则库。4.根据权利要求1所述的方法,其特征在于,在获取以历史邮件为机器学习的训练样本,对所述第一规则进行训练生成的第一垃圾概率值之前,还包括:在规则训练功能开启时,将设定时间段内完成判定的邮件作为机器学习训练的样本,对所述第一规则进行训练,生成所述第一规则对应的第一垃圾概率,并根据所述第一垃圾概率更新原第一规则的垃圾概率数据库。5.根据权利要求1所述的方法,其特征在于,基于聚类算法,根据所述第一垃圾概率值计算得到所述邮件的第二垃圾概率值,包括:基于贝叶斯算法,根据由第一规则判定所述邮件为垃圾邮件的概率,以及由第一规则判定所述邮件为正常邮件的概率,计算得到所述邮件的第二垃圾概率值。6.根据权利要求1所述的方法,其特征在于,根据所述参考垃圾评分和垃圾分值的和,判断所述邮件是否为垃圾邮件,包括:根据所述第二垃圾分值调整所述参考垃圾评分,得到所述邮件的实际垃圾评分;将所述实际垃圾评分与预设阈值进行比较,根据比较结果判断所述邮件是否为垃圾邮件。7.一种过滤垃圾邮件的装置,其特征在于,包括:邮件预判定模块,用于通过预设规则库包括的第一规则对新接收的邮件进行预判定,得到所述邮件的参考垃圾评分;获取模块,用于获取以历史邮件为机器学习的训练样本,对所述第一规则进行训练生成的第一垃圾概率值;计算模块,用于基于聚类算法,根据所述第一垃圾概率值计算得到所述邮件的第二垃圾概率值,其中,第一垃圾概率值包括由第一规则判定所述邮件为垃...

【专利技术属性】
技术研发人员:杨良志刘再元汪志新丁德平
申请(专利权)人:彩讯科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1