垃圾邮件过滤的方法和系统技术方案

技术编号:2863501 阅读:235 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及文本处理技术领域,尤其是一种垃圾邮件过滤的方法和系统。方法包括:对原始邮件库进行转换;对于新到达的邮件进行统计;计算新到达的邮件与原始邮件库的近似度,判断其所属类别;将新到达的邮件加入到所属类别;将过时的邮件从原始语料库中删除。装置包括:用于对原始邮件库进行转换的装置;用于对于新到达的邮件进行统计的装置;用于计算新到达的邮件与原始邮件库的近似度的装置;用于将新到达的邮件加入到所属类别的装置;用于将过时的邮件从原始语料库中删除的装置。此外,系统中的邮件库修改装置可以实时修改邮件库中的邮件。(*该技术在2024年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及文本处理
,尤其是一种垃圾邮件过滤的方法和系统
技术介绍
当前,有很多技术可用于区分垃圾邮件。比如,白名单和黑名单过滤,这种方法简单易行,但是需要实时更新白名单和黑名单,而且很难保证只有有限、固定的几个用户在发送垃圾邮件。比较常用的还有基于规则的过滤方法,即设置一些规则,只要符合这些规则的一条或几条,就认为是垃圾邮件。这些规则通常有信头分析、群发过滤、关键字匹配、邮件内容的其他特征等。采用基于规则的过滤技术,确实能够在一定时间内很好地防范了垃圾邮件。但其不足之处在于规则都是人工指定的,需要人们不断去发现和总结、更新,人为因素比较多,一些没有经验的用户可能很难提供有效的规则。而且,手工制定规则比较耗时,准确率也受到了限制。
技术实现思路
互联网世界中垃圾邮件的泛滥,已经给人们带来了极大的不便,并极大地消耗了网络资源。因此,人们迫切需要一种能够发现垃圾邮件的过滤方法,该方法必须满足实时性,准确性,并且和语种无关。本专利技术的目的就是提供这样一种能够实时发现垃圾邮件的过滤方法。将原始邮件库中的垃圾邮件和合法邮件分别表示为通用后缀树(GST)结构。对于新到达的邮件,通过本文档来自技高网...

【技术保护点】
一种垃圾邮件过滤的方法,包括步骤:    S1,对原始邮件库进行转换,表示为通用后缀树结构的邮件库;    S2,对于新到达的邮件,对其在原始邮件库中的出现频率进行统计;    S3,计算新到达的邮件与原始邮件库的近似度,判断其所属类别;    S4,将新到达的邮件加入到所属类别;    S5,将过时的邮件从原始语料库中删除。

【技术特征摘要】
1.一种垃圾邮件过滤的方法,包括步骤S1,对原始邮件库进行转换,表示为通用后缀树结构的邮件库;S2,对于新到达的邮件,对其在原始邮件库中的出现频率进行统计;S3,计算新到达的邮件与原始邮件库的近似度,判断其所属类别;S4,将新到达的邮件加入到所属类别;S5,将过时的邮件从原始语料库中删除。2.根据权利要求1的方法,其特征在于对原始邮件库进行转换的步骤和将新到达的邮件加入到所属类别的步骤包括构建通用后缀树的步骤;在后缀树节点上记录统计信息的步骤;限定后缀树深度的步骤。3.根据权利要求1的方法,其特征在于统计新到达邮件在原始邮件库中出现频率的统计的步骤包括在每个邮件内容位置开始的不定长字串在通用后缀树上进行匹配的步骤;4.根据权利要求1的方法,其特征在于计算新到达的邮件与原始邮件库的近似度的步骤包括在对得到的出现频率进行加权统计的步骤;5.根据权利要求1的方法,其特征在于将过时的邮件从原始语料库中删除的步骤包括删除通用后缀树的步骤;从通用后缀树节点上删除对应统计信息的步骤。6.一种垃圾邮件过滤的系统,包括用于对原始邮件库进行转换,表示为通用后缀树结构的邮件库的装置;用于对于新到达的邮件,对其在原始邮件库中的出现频率进行统计的装置;用于计算新到达的邮件与原始邮件库的近似度,判断其所属类别的装置;用于将新到达的邮件加入到所属类别的装置;用于将过时的邮件从原始语料库中删除的装置。7.根据权利要求6的系统,其特征在于用于对原始邮件库进行转换的装置和用于将新到达的邮件加入到所属类别的装置包括构建通用后缀树的装置;在后缀树节点上记录统计信息的装置;限定后缀树深度的装置。8.根据权利要求6的系统,其特征在于用于统计新到达邮件在原始邮件库中出现频率的统计的装置包括在每个邮件内容位置开始的不定长字串在通用后缀树上进行匹配的装置...

【专利技术属性】
技术研发人员:谭建龙张吉郭莉
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1