垃圾邮件过滤方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:43854815 阅读:21 留言:0更新日期:2024-12-31 18:45
本申请涉及一种垃圾邮件过滤方法、装置、电子设备及可读存储介质,属于通信技术领域。方法包括:建立垃圾邮件集和非垃圾邮件集;基于词袋模型技术进行分词得到对应的独立字符串,并计算对应词频;建立垃圾邮件哈希表和非垃圾邮件哈希表;基于词袋模型技术对新邮件进行分词得到独立字符串并计算词频,构建建立临时哈希表,计算临时哈希表中的独立字符串在垃圾邮件哈希表与非垃圾邮件哈希表中的词频;计算基础词频阈值并添加至临时哈希表;基于临时哈希表中独立字符串的词频与基础词频阈值的大小关系判断新邮件是否为垃圾邮件并更新垃圾邮件哈希表与非垃圾邮件哈希表。本申请解决了现有的垃圾邮件过滤方法的过滤准确率低的问题。

【技术实现步骤摘要】

本申请涉及通信,尤其涉及一种垃圾邮件过滤方法、装置、电子设备及可读存储介质


技术介绍

1、电子邮件作为数字通信的早期先驱,至今仍在全球范围内支撑着众多业务流程的运作,成为日常工作中不可或缺的一部分。然而,伴随其广泛应用的是垃圾邮件问题的日益严峻。早期的垃圾邮件主要限于未经请求的商业广告,但随着互联网技术的飞速发展,其形态已扩展到包含恶意软件、计算机病毒及伪装成用户感兴趣话题的内容,严重威胁到个人信息安全及网络安全。因此,有效应对垃圾邮件已成为维护数字通信环境健康的重要课题。

2、现有反垃圾邮件技术主要依赖于关键词过滤、黑名单过滤及基于正则表达式规则的过滤等方法,这些方法被广泛应用于邮件服务器插件、反垃圾邮件网关及客户端功能中。然而,这些技术存在显著局限性:首先,它们易于被绕过。垃圾邮件发送者利用拆词、组词或特殊字符替换等技术,能够轻松规避基于关键词的过滤机制,即便是较为先进的贝叶斯过滤器算法,也需频繁更新以应对不断变化的垃圾邮件策略,存在时效性挑战。其次,误报率高是另一大问题。正常邮件中若包含与垃圾邮件相似的关键词或句式,有可能被错误地归类为本文档来自技高网...

【技术保护点】

1.一种垃圾邮件过滤方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的垃圾邮件过滤方法,其特征在于,所述基于邮件系统中的垃圾邮件和非垃圾邮件分别建立对应的垃圾邮件集和非垃圾邮件集,包括:

3.根据权利要求1所述的垃圾邮件过滤方法,其特征在于,所述基于词袋模型技术分别对所述垃圾邮件集与所述非垃圾邮件集中的中各邮件进行分词得到对应的独立字符串,计算所述独立字符串在不同邮件中的词频,基于所述不同邮件中的词频计算对应的平均词频,包括:

4.根据权利要求1所述的垃圾邮件过滤方法,其特征在于,所述基于所述垃圾邮件集中的各独立字符串与各邮件的对应关系结合所述...

【技术特征摘要】

1.一种垃圾邮件过滤方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的垃圾邮件过滤方法,其特征在于,所述基于邮件系统中的垃圾邮件和非垃圾邮件分别建立对应的垃圾邮件集和非垃圾邮件集,包括:

3.根据权利要求1所述的垃圾邮件过滤方法,其特征在于,所述基于词袋模型技术分别对所述垃圾邮件集与所述非垃圾邮件集中的中各邮件进行分词得到对应的独立字符串,计算所述独立字符串在不同邮件中的词频,基于所述不同邮件中的词频计算对应的平均词频,包括:

4.根据权利要求1所述的垃圾邮件过滤方法,其特征在于,所述基于所述垃圾邮件集中的各独立字符串与各邮件的对应关系结合所述垃圾邮件集中的各独立字符串的词频及平均词频建立垃圾邮件哈希表,基于所述非垃圾邮件集中的各独立字符串与邮件的对应关系结合所述非垃圾邮件集中的各独立字符串的词频及平均词频建立非垃圾邮件哈希表,包括:

5.根据权利要求1所述的垃圾邮件过滤方法,其特征在于,所述基于词袋模型技术对新邮件进行分词得到所述新邮件对应的独立字符串并计算对应的词频,基于所述新邮件中的独立字符串及对应的词频建立临时哈希表,计算所述临时哈希表中的各独立字符串在所述垃圾邮件哈希表中以及所述非垃圾邮件哈希表中的词频,包括:

6.根据...

【专利技术属性】
技术研发人员:訾瑞杰夏博义
申请(专利权)人:华科凌宇北京技术有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1