对垃圾邮件进行拦截的方法和装置制造方法及图纸

技术编号:4334303 阅读:164 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种对垃圾邮件进行拦截的方法和装置。该方法主要包括:获取需要进行过滤处理的邮件的文本数据,判定所述文本数据中是否包含用于邮件过滤的字符串资源库中的字符串中的关键字,当所述文本数据中包含所述关键字时,再判定所述文本数据中是否包含所述关键字对应的所述字符串资源库中的字符串。根据所述文本数据中是否包含所述关键字对应的所述字符串资源库中的字符串的判定结果,和预定的判决策略确定所述邮件是否为垃圾邮件,并对垃圾邮件进行拦截。利用本发明专利技术,根据关键字对邮件的文本数据进行扫描,在关键字匹配后,才根据该关键字对应的字符串对邮件的文本数据进行扫描,从而可以提高扫描速度和效率,在字符串库规模较大的时候也能够实现对邮件进行实时过滤。

【技术实现步骤摘要】

本专利技术涉及网络通信
,尤其涉及一种对垃圾邮件进行拦截的方 法和装置。
技术介绍
在电子邮件领域内,垃圾邮件越来越泛滥,这不单增加了正常邮件使用 者的处理时间,还会浪费邮件系统的宝贵资源,从而阻碍了用户获取有用信 息的过程,因此垃圾邮件是一个必需要解决的问题。目前,在邮件系统中普遍采用基于字符串的拦截技术来对抗垃圾邮件, 该基于字符串的拦截技术需要预先建立一个字符串库,该字符串库中的字符 串采用现有的单字或词语,字符串的长度比较固定。该字符串库需要具有一 定的更新周期和规模,该字符串库中可供扫描的字符串规模往往达到百万级 别。在实际应用中,利用上述字符串库中的字符串,采用全文顺序扫描或正 则表达式匹配的处理方式对接收到的邮件进行过滤,判断接收到的邮件为垃 圾邮件或正常邮件,并拦截垃圾邮件。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题 使用现有的单字或词语来组成字符串会带来比较大的误判情况,因为这些现有的单字或词语并不只是出现在垃圾邮件中,有时在正常邮件中也出现,从而带来了误判。上述全文顺序扫描或正则表达式匹配的处理形式由于釆用字符串库中的完整字符串对邮件进行过滤,在字符串库的规模比较大时,效率低下,无法实现对接收到的邮件进行实时过滤,严重影响用户的使用效果。
技术实现思路
本专利技术的实施例提供了 一种对垃圾邮件进行拦截的方法和装置,以降低 垃圾邮件的误判率,并且提高邮件的过滤效率。一种对垃圾邮件进行拦截的方法,包括 获取需要进行过滤处理的邮件的文本数据;判定所述文本数据中是否包含用于邮件过滤的字符串资源库中的字符串 中的关键字,当所述文本数据中包含所述关键字时,再判定所述文本数据中 是否包含所述关键字对应的所述字符串资源库中的字符串;根据所述文本数据中是否包含所述关键字对应的所述字符串资源库中的 字符串的判定结果,和预定的判决策略确定所述邮件是否为垃圾邮件,并对垃圾邮件进行拦截。一种对垃圾邮件进行拦截的装置,包括文本数据获取模块,用于获取需要进行过滤处理的邮件的文本数据;字符判定模块,用于判定所述文本数据中是否包含用于邮件过滤的字符 串资源库中的字符串中的关键字,当所述文本数据中包含所述关键字时,再 判定所述文本数据中是否包含所述关键字对应的所述字符串资源库中的字符串;邮件处理模块,用于根据所述文本数据中是否包含所述关键字对应的所 述字符串资源库中的字符串的判定结果,和预定的判决策略确定所述邮件是 否为垃圾邮件,并对垃圾邮件进行拦截。由上述本专利技术的实施例提供的技术方案可以看出,本专利技术实施例根据关 键字对邮件的文本数据进行扫描,在关键字匹配后,才根据该关键字对应的字符串对邮件的文本数据进行扫描,从而可以提高扫描速度和效率,在字符 串库规才莫较大的时候也能够实现对邮件进行实时过滤。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发 明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的 前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例一提供的对垃圾邮件进行拦截的方法的处理流程图; 图2为实施例二提供的一种对垃圾邮件进行拦截的装置的具体实现结构图。具体实施例方式在本专利技术实施例中,获取需要进行过滤处理的邮件的文本数据。判定所 述文本数据中是否包含用于邮件过滤的字符串资源库中的字符串中的关键 字,当所述文本数据中包含所述关键字时,再判定所述文本数据中是否包含所述关^:字对应的所述字符串资源库中的字符串。根据所述文本数据中是否包含所述关键字对应的所述字符串资源库中的 字符串的判定结果,和预定的判决策略确定所述邮件是否为垃圾邮件,并对 垃圾邮件进行拦截。进一步地,在接收到一个需要进行过滤处理的邮件后,对该邮件解码, 获得该邮件的标题和正文字内容,将该标题和正文进行拼接后,得到所述邮 件的待过滤的文本数据,并将该文本数据进行保存。进一步地,所述的字符串资源库中的字符串由一个或多个字符单位来组成,该字符单位包括 一个英文单词、 一个中文单字、单个英文字母、半个 中文单字或一个全角半角的标点符号中的至少一项。进一步地,建立所述字符串资源库的哈希总表和哈希链表,所述哈希总 表中保存所述字符串资源库中的字符串中的关键字和该关键字对应的字符串 的长度信息,所述哈希链表中保存所述关键字对应的字符串的完整的组成字 符信息;从所述文本数据的第一个字符单位开始,取出设定数量的字符出来,检 测所述哈希总表中是否存在和所述设定数量的字符相同的关键字,如存在, 则获取该关键字对应的长度值,根据该长度值从所述文本数据中截取相应的 字符串,检测所迷哈希链表中是否存在所述截取的字符串,如存在,则确定 对所述文本数据一次扫描命中,并记录扫描命中的次数,以及相应的关4t字和字符串信息;如果所述哈希总表中不存在和所述设定数量的字符相同的关键字,或 者,所述哈希链表中不存在所述截取的字符串,则后移一个字符单位后从所 述文本数据中取出设定数量的字符出来,再执行和所述的从第一个字符开始 取出的设定数量的字符相同的处理过程,直到所述文本数据的最后设定数量 的字符串被检测完毕。具体包括截取所述字符串资源库中的第 一个字符串的头设定数量的字符作为关^:字,判断所述字符串资源库中的除了第一个字符串的其它字符串的头设定数量的字符是不是和所述关键字相同,如果相同,则将所述关键字和其 它字符串的长度信息记录在哈希总表中,将所述其它字符串的完整的组成字符信息记录在哈希链表中;再截取所述字符串资源库中的除了所述哈希链表中记载的字符串之外的 第二个字符串的头设定数量的字符作为关键字,执行和所述的第 一个字符串的头设定数量的字符相同的处理过程,直到所述字符串资源库中的所有字符 串的头设定数量的字符和长度信息都记录在哈希总表中,所有字符串的完整 的组成字符信息都记录在P合希《连表中。进一步地,获取根据所述文本数据中包含所述关键字对应的所述字符串 资源库中的字符串后,而记录的所述文本数据的扫描命中的次数信息、相应的关键字和字符串信息;根据所述扫描命中的次数信息、相应的关键字和字符串信息,基于预定 的判决策略判定邮件是否为垃圾邮件,对判定的垃圾邮件进行拦截。进一步地,所述的预定的判决策略包括当所述邮件的扫描命中的次数 大于设定的次数,则判定所述邮件为垃圾邮件;或者,当所述邮件的扫描命 中的次数大于设定的次数,并且扫描命中的字符串的长度大于设定的长度, 则判定所述邮件为垃:欧邮件。为便于对本专利技术实施例的理解,下面将结合附图以几个具体实施例为例 做进一步的解释说明,且各个实施例并不构成对本专利技术实施例的限定。哈希方案是一种存储结构,在哈希方案中,在数据的存储位置和该数据 的关键字之间建立了 一种对应关系,通过该对应关系将关键字的集合映射到 地址集合上,该对应关系的设置很灵活,只要这个地址集合的大小不超出允 许范围即可。哈希方案中通常包括哈希总表和哈希链表。在实际应用中, 哈希总表和哈希链表需要根据实际情况而构造。实施例一该实施例提供的对垃圾邮件进行拦截的方法的处理流程如图1所示,包括 如下处理步骤步骤11、获取需要进行过滤处理的邮件的文本数据。在接收到一个本文档来自技高网...

【技术保护点】
一种对垃圾邮件进行拦截的方法,其特征在于,包括: 获取需要进行过滤处理的邮件的文本数据; 判定所述文本数据中是否包含用于邮件过滤的字符串资源库中的字符串中的关键字,当所述文本数据中包含所述关键字时,再判定所述文本数据中是否包含所述关键字对应的所述字符串资源库中的字符串; 根据所述文本数据中是否包含所述关键字对应的所述字符串资源库中的字符串的判定结果,和预定的判决策略确定所述邮件是否为垃圾邮件,并对垃圾邮件进行拦截。

【技术特征摘要】
1、一种对垃圾邮件进行拦截的方法,其特征在于,包括获取需要进行过滤处理的邮件的文本数据;判定所述文本数据中是否包含用于邮件过滤的字符串资源库中的字符串中的关键字,当所述文本数据中包含所述关键字时,再判定所述文本数据中是否包含所述关键字对应的所述字符串资源库中的字符串;根据所述文本数据中是否包含所述关键字对应的所述字符串资源库中的字符串的判定结果,和预定的判决策略确定所述邮件是否为垃圾邮件,并对垃圾邮件进行拦截。2、 根据权利要求1所述的方法,其特征在于,所述的获取需要进行过滤 处理的邮件的文本数据,具体包括在接收到一个需要进行过滤处理的邮件后,对该邮件解码,获得该邮件 的标题和正文字内容,将该标题和正文进行拼接后,得到所述邮件的待过滤 的文本数据,并将该文本lt据进行保存。3、 根据权利要求1所述的方法,其特征在于,所述的字符串资源库中的 字符串由一个或多个字符单位来组成,该字符单位包括 一个英文单词、一 个中文单字、单个英文字母、半个中文单字或一个全角半角的标点符号中的 至少一项。4、 根据权利要求1所述的方法,其特征在于,所述的判定所述文本数据 中是否包含用于邮件过滤的字符串资源库中的字符串中的关键字,当所述文 本数据中包含所述关键字时,再判定所述文本数据中是否包含所述关键字对 应的所述字符串资源库中的字符串,具体包括建立所述字符串资源库的哈希总表和哈希链表,所述哈希总表中保存所述字符串资源库中的字符串中的关键字和该关键字对应的字符串的长度信息,所述哈希链表中保存所述关键字对应的字符串的完整的组成字符信息;从所述文本数据的第一个字符单位开始,取出设定数量的字符出来,检 测所述哈希总表中是否存在和所述设定数量的字符相同的关键字,如存在, 则获取该关键字对应的长度值,根据该长度值从所述文本数据中截取相应的 字符串,检测所述哈希链表中是否存在所述截取的字符串,如存在,则确定 对所述文本数据一次扫描命中,并记录扫描命中的次数,以及相应的关键字 和字符串信息;如果所述哈希总表中不存在和所述设定数量的字符相同的关键字,或 者,所述哈希链表中不存在所述截取的字符串,则后移一个字符单位后从所 述文本数据中取出设定数量的字符出来,再执行和所述的从第一个字符开始 取出的设定数量的字符相同的处理过程,直到所述文本数据的最后设定数量 的字符串被检测完毕。5、根据权利要求4所述的方法,其特征在于,所述的建立所述字符串资 源库的哈希总表和哈希链表,具体包括截取所述字符串资源库中的第 一个字符串的头设定数量的字符作为关键 字,判断所述字符串资源库中的除了第一个字符串的其它字符串的头设定数 量的字符是不是和所述关键字相同,如果相同,则将所述关键字和其它字符 串的长度信息记录在哈希总表中,将所述其它字符串的完整的组成字符信息 记录在哈希链表中;再截取所述字符串资源库中的除了所述哈希链表中记载的字符串之外的 第二个字符串的头设定数量的字符作为关键字,执行和所述的第一个字符串的头设定数量的字符相同的处理过程,直到所述字符串资源库中的所有字符 串的头设定数量的字符和长度信息都记录在哈希总表中,所有字符串的完整 ...

【专利技术属性】
技术研发人员:王晖
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利