【技术实现步骤摘要】
本专利技术涉及网络通信
,尤其涉及一种对垃圾邮件进行拦截的方 法和装置。
技术介绍
在电子邮件领域内,垃圾邮件越来越泛滥,这不单增加了正常邮件使用 者的处理时间,还会浪费邮件系统的宝贵资源,从而阻碍了用户获取有用信 息的过程,因此垃圾邮件是一个必需要解决的问题。目前,在邮件系统中普遍采用基于字符串的拦截技术来对抗垃圾邮件, 该基于字符串的拦截技术需要预先建立一个字符串库,该字符串库中的字符 串采用现有的单字或词语,字符串的长度比较固定。该字符串库需要具有一 定的更新周期和规模,该字符串库中可供扫描的字符串规模往往达到百万级 别。在实际应用中,利用上述字符串库中的字符串,采用全文顺序扫描或正 则表达式匹配的处理方式对接收到的邮件进行过滤,判断接收到的邮件为垃 圾邮件或正常邮件,并拦截垃圾邮件。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题 使用现有的单字或词语来组成字符串会带来比较大的误判情况,因为这些现有的单字或词语并不只是出现在垃圾邮件中,有时在正常邮件中也出现,从而带来了误判。上述全文顺序扫描或正则表达式匹配的处理形式由于釆用字符串库中的完整字符串对邮件进行过滤,在字符串库的规模比较大时,效率低下,无法实现对接收到的邮件进行实时过滤,严重影响用户的使用效果。
技术实现思路
本专利技术的实施例提供了 一种对垃圾邮件进行拦截的方法和装置,以降低 垃圾邮件的误判率,并且提高邮件的过滤效率。一种对垃圾邮件进行拦截的方法,包括 获取需要进行过滤处理的邮件的文本数据;判定所述文本数据中是否包含用于邮件过滤的字符串资源库中的字符串 中的关键字, ...
【技术保护点】
一种对垃圾邮件进行拦截的方法,其特征在于,包括: 获取需要进行过滤处理的邮件的文本数据; 判定所述文本数据中是否包含用于邮件过滤的字符串资源库中的字符串中的关键字,当所述文本数据中包含所述关键字时,再判定所述文本数据中是否包含所述关键字对应的所述字符串资源库中的字符串; 根据所述文本数据中是否包含所述关键字对应的所述字符串资源库中的字符串的判定结果,和预定的判决策略确定所述邮件是否为垃圾邮件,并对垃圾邮件进行拦截。
【技术特征摘要】
1、一种对垃圾邮件进行拦截的方法,其特征在于,包括获取需要进行过滤处理的邮件的文本数据;判定所述文本数据中是否包含用于邮件过滤的字符串资源库中的字符串中的关键字,当所述文本数据中包含所述关键字时,再判定所述文本数据中是否包含所述关键字对应的所述字符串资源库中的字符串;根据所述文本数据中是否包含所述关键字对应的所述字符串资源库中的字符串的判定结果,和预定的判决策略确定所述邮件是否为垃圾邮件,并对垃圾邮件进行拦截。2、 根据权利要求1所述的方法,其特征在于,所述的获取需要进行过滤 处理的邮件的文本数据,具体包括在接收到一个需要进行过滤处理的邮件后,对该邮件解码,获得该邮件 的标题和正文字内容,将该标题和正文进行拼接后,得到所述邮件的待过滤 的文本数据,并将该文本lt据进行保存。3、 根据权利要求1所述的方法,其特征在于,所述的字符串资源库中的 字符串由一个或多个字符单位来组成,该字符单位包括 一个英文单词、一 个中文单字、单个英文字母、半个中文单字或一个全角半角的标点符号中的 至少一项。4、 根据权利要求1所述的方法,其特征在于,所述的判定所述文本数据 中是否包含用于邮件过滤的字符串资源库中的字符串中的关键字,当所述文 本数据中包含所述关键字时,再判定所述文本数据中是否包含所述关键字对 应的所述字符串资源库中的字符串,具体包括建立所述字符串资源库的哈希总表和哈希链表,所述哈希总表中保存所述字符串资源库中的字符串中的关键字和该关键字对应的字符串的长度信息,所述哈希链表中保存所述关键字对应的字符串的完整的组成字符信息;从所述文本数据的第一个字符单位开始,取出设定数量的字符出来,检 测所述哈希总表中是否存在和所述设定数量的字符相同的关键字,如存在, 则获取该关键字对应的长度值,根据该长度值从所述文本数据中截取相应的 字符串,检测所述哈希链表中是否存在所述截取的字符串,如存在,则确定 对所述文本数据一次扫描命中,并记录扫描命中的次数,以及相应的关键字 和字符串信息;如果所述哈希总表中不存在和所述设定数量的字符相同的关键字,或 者,所述哈希链表中不存在所述截取的字符串,则后移一个字符单位后从所 述文本数据中取出设定数量的字符出来,再执行和所述的从第一个字符开始 取出的设定数量的字符相同的处理过程,直到所述文本数据的最后设定数量 的字符串被检测完毕。5、根据权利要求4所述的方法,其特征在于,所述的建立所述字符串资 源库的哈希总表和哈希链表,具体包括截取所述字符串资源库中的第 一个字符串的头设定数量的字符作为关键 字,判断所述字符串资源库中的除了第一个字符串的其它字符串的头设定数 量的字符是不是和所述关键字相同,如果相同,则将所述关键字和其它字符 串的长度信息记录在哈希总表中,将所述其它字符串的完整的组成字符信息 记录在哈希链表中;再截取所述字符串资源库中的除了所述哈希链表中记载的字符串之外的 第二个字符串的头设定数量的字符作为关键字,执行和所述的第一个字符串的头设定数量的字符相同的处理过程,直到所述字符串资源库中的所有字符 串的头设定数量的字符和长度信息都记录在哈希总表中,所有字符串的完整 ...
【专利技术属性】
技术研发人员:王晖,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:94[中国|深圳]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。