垃圾邮件过滤方法及装置制造方法及图纸

技术编号:8492030 阅读:171 留言:0更新日期:2013-03-28 23:09
本发明专利技术涉及一种垃圾邮件过滤方法,包括:在接收到电子邮件时,扫描内容中是否存在命中预设的模糊词和情境识别库中条目的模糊词;如果存在命中条目,则对电子邮件进行情境分析,并根据电子邮件对应的情境调整得到电子邮件的邮件值向量;根据电子邮件的邮件值向量计算垃圾邮件概率,并将垃圾邮件概率与预设阈值进行比较,以判断电子邮件是否为可疑垃圾邮件,并对确定为可疑垃圾邮件的电子邮件进行拦截处理。本发明专利技术还涉及一种垃圾邮件过滤装置。本发明专利技术基于模糊词识别和情境分析,对包含模糊词的垃圾邮件进行拦截,在大大提高垃圾邮件的拦截范围的同时保证过滤的准确度,还对现有的以关键字过滤方式的垃圾邮件拦截方式提供了进一步的补充和优化。

【技术实现步骤摘要】

本专利技术涉及反垃圾邮件技术,尤其涉及一种垃圾邮件过滤方法及装置
技术介绍
垃圾电子邮件(简称垃圾邮件)是指未经用户许可就强行发送到用户的邮箱中的任何电子邮件。电子邮件是目前互联网用户的基础应用之一,而垃圾邮件主要通过电子邮箱来发送。2010年12月监测数据显示,全球每天发送的垃圾电子邮件数量约为500亿个。垃圾邮件的内容包括推销广告、成人广告、赚钱信息,以及包含电脑病毒等破坏性的电子邮件,给电子邮件使用者带来了诸多困扰,因此各大邮件提供商都把提升电子邮件反垃圾系统效果作为提升邮箱用户体验的重要关注点。 常用的反垃圾系统是通过预定义的关键字技术进行过滤的,即先预定义一个关键字列表,然后从通过的邮件中抓取内容与关键字列表进行对比,如果有命中的则进行相应的垃圾邮件拦截动作。这种单纯的关键字列表匹配方式虽然实现比较简单,但很容易被垃圾邮件制造者通过加插干扰字符、使用同音字、使用形近字等方式规避,进而令垃圾邮件过滤系统失效。另外,单纯关键字过滤的方案在识别正常邮件的能力上还有欠缺,可能将部分正常邮件错误拦截,影响到电子邮件使用者的正常使用。
技术实现思路
本专利技术的目的是提出一种垃圾邮件过滤方法及装置,能够在提高垃圾邮件的拦截范围的同时,保证垃圾邮件过滤的准确度。为实现上述目的,本专利技术提供了一种垃圾邮件过滤方法,包括在接收到电子邮件时,扫描所述电子邮件的内容中是否存在命中预设的模糊词和情境识别库中条目的模糊词;如果存在命中条目,则对所述电子邮件进行情境分析,并根据所述电子邮件对应的情境调整得到所述电子邮件的邮件值向量;根据调整后得到的所述电子邮件的邮件值向量计算垃圾邮件概率,并将所述垃圾邮件概率与预设阈值进行比较,以判断所述电子邮件是否为可疑垃圾邮件,并对确定为可疑垃圾邮件的电子邮件进行拦截处理。为实现上述目的,本专利技术提供了一种垃圾邮件过滤装置,包括电子邮件接收单元,用于接收电子邮件;模糊词扫描单元,用于扫描所述电子邮件的内容中是否存在命中预设的模糊词和情境识别库中条目的模糊词;情境分析单元,用于在存在命中条目时,对所述电子邮件进行情境分析;向量调整单元,用于根据所述电子邮件对应的情境调整得到所述电子邮件的邮件值向量;垃圾邮件概率计算单元,用于根据调整后得到的所述电子邮件的邮件值向量计算垃圾邮件概率;阈值比较单元,用于将所述垃圾邮件概率与预设阈值进行比较,以判断所述电子邮件是否为可疑垃圾邮件;邮件处理单元,用于对确定为可疑垃圾邮件的电子邮件进行拦截处理。基于上述技术方案,本专利技术基于模糊词识别和情境分析,对包含模糊词的垃圾邮件进行拦截,在大大提高垃圾邮件的 拦截范围的同时保证过滤的准确度,还对现有的以关键字过滤方式的垃圾邮件拦截方式提供了进一步的补充和优化。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中图1为本专利技术垃圾邮件过滤方法的一实施例的流程示意图。图2为本专利技术垃圾邮件过滤方法的另一实施例中建立模糊词和情境识别库的流程不意图。图3为本专利技术垃圾邮件过滤方法的又一实施例的流程示意图。图4为本专利技术垃圾邮件过滤装置的一实施例的结构示意图。图5为本专利技术垃圾邮件过滤装置的另一实施例中实现建库过程的相关单元的结构示意图。图6为本专利技术垃圾邮件过滤装置的又一实施例的结构示意图。具体实施例方式下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。本专利技术在反垃圾邮件系统已有关键字拦截基础上增加模糊词(包括同音词、形近词、拆分词等)识别的垃圾邮件分拣方法,以便拦截经过模糊词处理的垃圾邮件。本专利技术在识别过程中,对邮件进行模糊词和情境处理,在处理过程中综合考虑邮件的干扰符情况、模糊词命中情况、对应的情境辅助分析等,基于向量运算和概率,对邮件进行分拣,并根据处理结果对系统进行优化。如图1所示,为本专利技术垃圾邮件过滤方法的一实施例的流程示意图。在本实施例中,垃圾邮件过滤方法包括步骤101、在接收到电子邮件时,扫描所述电子邮件的内容中是否存在命中预设的模糊词和情境识别库中条目的模糊词;步骤102、如果存在命中条目,则对所述电子邮件进行情境分析,并根据所述电子邮件对应的情境调整得到所述电子邮件的邮件值向量;步骤103、根据调整后得到的所述电子邮件的邮件值向量计算垃圾邮件概率;步骤104、将所述垃圾邮件概率与预设阈值进行比较,以判断所述电子邮件是否为可疑垃圾邮件;步骤105、对确定为可疑垃圾邮件的电子邮件进行拦截处理。在本实施例中,在接收到电子邮件时先进行库内条目的查询,在模糊词和情境识别库中包括的条目为模糊词与已有垃圾关键词的对应关系以及相应的参考邮件值向量,还包括多个情境下模糊词与已有垃圾关键词的对应关系的影响概率。在库内条目查询过程中,主要是查找电子邮件的内容中是否存在库中相同的模糊词,以此来定位命中条目。在命中了某个条目后,需要对该电子邮件进行情境分析,这个分析过程可以具体包括分析获得所述电子邮件的情境元素,将获得的所述电子邮件的情境元素与命中条目中的各种情境所包括的情境元素进行匹配,确定所述电子邮件对应的情境。这里的情境元素可以包括邮件的发送时间、邮件内容中包括的一些字词、发送者的邮箱域名等,但不限于所举例的这几种,这些情境元素通过组合可以表达出不同的情境,对应于不同的情境,出现某个模糊词的电子邮件属于垃圾电子邮件的概率相应的增加或降低。举例如果分析出某封电子邮件的发送时间在中秋节前后,在邮件中出现了“回收”,而该命中条目的模糊词为“月并”,这些情境元素可以基本确定出在中秋节前后月饼回收的场景,被认为属于一种非正常的邮件的范围,其作为垃圾邮件的概率就增加了。在分析出该电子邮件所对应的情境后,就可以利用命中条目中对应情境的影响概率进行调整的操作,具体包括根据情境分析确定的所述电子邮件对应的情境查询对应的影响概率,通过所述影响概率对所述命中条目对应的参考邮件值向量进行调整,得到所述电子邮件的邮件值向量,所述电子邮件的邮件值向量包括关键字分值、替换分值、情境分值和干扰符分值。该调整操作需要在命中条目对应的参考邮件值向量上进行调整,调整后的邮件值向量作为该电子邮件的邮件值向量。在获得该电子邮件的邮件值向量后,将根据该邮件值向量继续计算垃圾邮件概率,计算过程主要是将所述电子邮件的邮件值向量中的关键字分值和替换分值的乘积与情境分值及干扰符分值进行累加,得到所述电子邮件对应的垃圾邮件概率。技术人员可以根据计算结果与垃圾邮件的实际确定情况调整计算公式中的变量或使用新的计算公式,而该计算公式仅为了说明,并非对保护范围的限制。计算出垃圾邮件概率后,通过预设的阈值进行比较,可以判断该电子邮件是否为可疑垃圾邮件,例如当计算出的垃圾邮件概率大于预设阈值,则确定该电子邮件为可疑垃圾邮件,如果该邮件计算出的垃圾邮件概率小于等于预设阈值,则确定该电子邮件排除垃圾邮件嫌疑,可以正常投寄。在判断时,也可以是在计算出的垃圾邮件概率大于等于预设阈值时,确定该电子邮件为可疑垃圾邮件,如果该邮件计算出的垃圾邮件概率小于预设阈值,则确定该电子邮件排除垃圾邮件嫌疑,可以正常投寄。如图2所示,为本专利技术垃圾邮件过滤方法的另一实施例中建立模糊词和情境识别库的流程示意图。本文档来自技高网...

【技术保护点】
一种垃圾邮件过滤方法,包括:在接收到电子邮件时,扫描所述电子邮件的内容中是否存在命中预设的模糊词和情境识别库中条目的模糊词;如果存在命中条目,则对所述电子邮件进行情境分析,并根据所述电子邮件对应的情境调整得到所述电子邮件的邮件值向量;根据调整后得到的所述电子邮件的邮件值向量计算垃圾邮件概率,并将所述垃圾邮件概率与预设阈值进行比较,以判断所述电子邮件是否为可疑垃圾邮件,并对确定为可疑垃圾邮件的电子邮件进行拦截处理。

【技术特征摘要】

【专利技术属性】
技术研发人员:郭涛于洪涌薛立宏丘凌张国威
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1