【技术实现步骤摘要】
本申请涉及通信,尤其涉及一种垃圾邮件过滤方法、装置、电子设备及可读存储介质。
技术介绍
1、电子邮件作为数字通信的早期先驱,至今仍在全球范围内支撑着众多业务流程的运作,成为日常工作中不可或缺的一部分。然而,伴随其广泛应用的是垃圾邮件问题的日益严峻。早期的垃圾邮件主要限于未经请求的商业广告,但随着互联网技术的飞速发展,其形态已扩展到包含恶意软件、计算机病毒及伪装成用户感兴趣话题的内容,严重威胁到个人信息安全及网络安全。因此,有效应对垃圾邮件已成为维护数字通信环境健康的重要课题。
2、现有反垃圾邮件技术主要依赖于关键词过滤、黑名单过滤及基于正则表达式规则的过滤等方法,这些方法被广泛应用于邮件服务器插件、反垃圾邮件网关及客户端功能中。然而,这些技术存在显著局限性:首先,它们易于被绕过。垃圾邮件发送者利用拆词、组词或特殊字符替换等技术,能够轻松规避基于关键词的过滤机制,即便是较为先进的贝叶斯过滤器算法,也需频繁更新以应对不断变化的垃圾邮件策略,存在时效性挑战。其次,误报率高是另一大问题。正常邮件中若包含与垃圾邮件相似的关键词或句式,
...【技术保护点】
1.一种垃圾邮件过滤方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的垃圾邮件过滤方法,其特征在于,所述基于邮件系统中的垃圾邮件和非垃圾邮件分别建立对应的垃圾邮件集和非垃圾邮件集,包括:
3.根据权利要求1所述的垃圾邮件过滤方法,其特征在于,所述基于词袋模型技术分别对所述垃圾邮件集与所述非垃圾邮件集中的中各邮件进行分词得到对应的独立字符串,计算所述独立字符串在不同邮件中的词频,基于所述不同邮件中的词频计算对应的平均词频,包括:
4.根据权利要求1所述的垃圾邮件过滤方法,其特征在于,所述基于所述垃圾邮件集中的各独立字符串与各邮
...【技术特征摘要】
1.一种垃圾邮件过滤方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的垃圾邮件过滤方法,其特征在于,所述基于邮件系统中的垃圾邮件和非垃圾邮件分别建立对应的垃圾邮件集和非垃圾邮件集,包括:
3.根据权利要求1所述的垃圾邮件过滤方法,其特征在于,所述基于词袋模型技术分别对所述垃圾邮件集与所述非垃圾邮件集中的中各邮件进行分词得到对应的独立字符串,计算所述独立字符串在不同邮件中的词频,基于所述不同邮件中的词频计算对应的平均词频,包括:
4.根据权利要求1所述的垃圾邮件过滤方法,其特征在于,所述基于所述垃圾邮件集中的各独立字符串与各邮件的对应关系结合所述垃圾邮件集中的各独立字符串的词频及平均词频建立垃圾邮件哈希表,基于所述非垃圾邮件集中的各独立字符串与邮件的对应关系结合所述非垃圾邮件集中的各独立字符串的词频及平均词频建立非垃圾邮件哈希表,包括:
5.根据权利要求1所述的垃圾邮件过滤方法,其特征在于,所述基于词袋模型技术对新邮件进行分词得到所述新邮件对应的独立字符串并计算对应的词频,基于所述新邮件中的独立字符串及对应的词频建立临时哈希表,计算所述临时哈希表中的各独立字符串在所述垃圾邮件哈希表中以及所述非垃圾邮件哈希表中的词频,包括:
6.根据...
【专利技术属性】
技术研发人员:訾瑞杰,夏博义,
申请(专利权)人:华科凌宇北京技术有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。