一种垃圾邮件检测的方法和设备技术

技术编号:10408234 阅读:221 留言:0更新日期:2014-09-10 17:39
本发明专利技术的实施方式提供了一种垃圾邮件检测的方法。该方法包括:响应于接收待测邮件,解析该待测邮件的脚注声明标签并将脚注声明标签作用范围内的内容确定为待验证脚注;依据提取出的该待验证脚注的属性特征,利用真伪脚注分类模型检测该待验证脚注的真伪性;所述真伪脚注分类模型为预先基于历史真脚注的属性特征与历史真脚注间对应关系以及历史伪脚注的属性特征与历史伪脚注间对应关系而建立的;响应于该待验证脚注被检测为真脚注,基于待测邮件中去除该待验证脚注的剩余内容进行垃圾邮件检测;响应于该待验证脚注被检测为伪脚注,基于待测邮件中的所有内容进行垃圾邮件检测。此外,本发明专利技术的实施方式提供了一种垃圾邮件检测的设备。

【技术实现步骤摘要】
一种垃圾邮件检测的方法和设备
本专利技术的实施方式涉及网络信息处理技术,更具体地,本专利技术的实施方式涉及一种垃圾邮件检测的方法和设备。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。目前,网络邮箱已经成为人们日常工作、生活中必不可少的沟通工具。虽然网络邮箱为用户的沟通提供了便捷,但网络邮箱中越来越多的垃圾邮件也给用户带来了烦恼。为了防止垃圾邮件的发送,现有的邮件反垃圾技术中,垃圾邮件检测的方式主要是基于垃圾邮件一般是大量具有相似内容的邮件,通过自动收集内容相似的邮件,如果彼此间具有相似内容的邮件数量较多,则将这些邮件识别为垃圾邮件。然而,实际上彼此间具有相似内容且数量较多的邮件并非都是垃圾邮件。在用户发送的邮件中,邮件正文有时会被邮箱系统自动加入格式固定的一部分内容,这些内容可以被视为邮件的脚注内容,如邮箱服务商自身的系统版本声明或者超大附件列表等。由于邮件脚注是由邮箱系统自动添加的,往往大量来自同一邮箱系统的正常邮件会包含相同的脚注内容,此时,如果基于完整的邮件内容进行垃圾邮件检测,就会导致这些不属于本文档来自技高网...
一种垃圾邮件检测的方法和设备

【技术保护点】
一种方法,包括:响应于接收待测邮件,从所述待测邮件中解析脚注声明标签,并将所述脚注声明标签作用范围内的内容确定为待验证脚注;提取所述待验证脚注的属性特征,并依据所述待验证脚注的属性特征,利用真伪脚注分类模型检测所述待验证脚注的真伪性;所述真伪脚注分类模型为预先基于历史真脚注的属性特征与所述历史真脚注之间的对应关系以及历史伪脚注的属性特征与所述历史伪脚注之间的对应关系而建立的;响应于所述待验证脚注被检测为真脚注,基于所述待测邮件中去除所述待验证脚注的剩余内容,对所述待测邮件进行垃圾邮件检测;响应于所述待验证脚注被检测为伪脚注,基于所述待测邮件中的所有内容,对所述待测邮件进行垃圾邮件检测。

【技术特征摘要】
1.一种垃圾邮件检测的方法,包括:响应于接收待测邮件,从所述待测邮件中解析脚注声明标签,并将所述脚注声明标签作用范围内的内容确定为待验证脚注;提取所述待验证脚注的属性特征,并依据所述待验证脚注的属性特征,利用真伪脚注分类模型检测所述待验证脚注的真伪性;所述真伪脚注分类模型为预先基于历史真脚注的属性特征与所述历史真脚注之间的对应关系以及历史伪脚注的属性特征与所述历史伪脚注之间的对应关系而建立的;响应于所述待验证脚注被检测为真脚注,基于所述待测邮件中去除所述待验证脚注的剩余内容,对所述待测邮件进行垃圾邮件检测;响应于所述待验证脚注被检测为伪脚注,基于所述待测邮件中的所有内容,对所述待测邮件进行垃圾邮件检测。2.根据权利要求1所述的方法,所述真伪脚注分类模型包括至少一个决策树。3.根据权利要求2所述的方法,所述决策树的建立过程具体包括:以所述决策树的根节点作为当前节点,为所述当前节点选取多个历史脚注组成当前样本集合;判断所述当前样本集合中各历史脚注的真伪性;响应于所述当前样本集合中仅存在历史真脚注,将所述当前节点确定为表示检测结果为真脚注的叶子节点;响应于所述当前样本集合中仅存在历史伪脚注,将所述当前节点确定为表示检测结果为伪脚注的叶子节点;响应于所述当前样本集合中同时存在历史真脚注和历史伪脚注,执行如下步骤:为所述当前节点选取一种属性特征作为当前划分属性;按照所述当前划分属性的特征阈值与所述当前样本集合中各历史脚注属于所述当前划分属性的属性特征,将所述当前样本集合中各历史脚注划分成两个不同的样本子集合,以使两个所述样本子集合具有历史脚注的真伪性区分度;在所述当前节点上为两个所述样本子集合构造两个子节点,并分别以两个所述子节点作为当前节点,以所述当前节点的样本子集合作为当前样本集合,返回执行所述判断所述当前样本集合中各历史脚注的真伪性。4.根据权利要求2所述的方法,所述依据所述待验证脚注的属性特征,利用真伪脚注分类模型检测所述待验证脚注的真伪性,包括:在所述真伪脚注分类模型的各个决策树上,从根节点开始,按照各个节点的划分属性及特征阈值确定所述待验证脚注所属的各级节点,直至在各个决策树上确定所述待验证脚注所属的叶子节点,作为各个决策树对所述待验证脚注的检测结果节点;响应于所述检测结果节点中表示检测结果为真脚注的节点数量大于决策阈值,将所述待验证脚注检测为真脚注;响应于所述检测结果节点中表示检测结果为真脚注的节点数量不大于决策阈值,将所述待验证脚注检测为伪脚注。5.根据权利要求1所述的方法,还包括:响应于将所述脚注声明标签作用范围内的内容确定为待验证脚注,将所述待验证脚注与预先收集的各个历史真脚注模板进行匹配;响应于所述待验证脚注具有相匹配的历史真脚注模板,基于所述待测邮件中去除所述待验证脚注的剩余内容,对所述待测邮件进行垃圾邮件检测;响应于所述待验证脚注不具有匹配的历史真脚注模板,进入执行所述提取所述待验证脚注的属性特征。6.根据权利要求5所述的方法,还包括:响应于所述待验证脚注被检测为真脚注,基于所述待验证脚注形成待验证模板,并统计所述待验证模板的形成次数;响应于所述形成次数达到记录阈值,收集所述待验证模板脚注作为历史真脚注模板。7.根据权利要求5所述的方法,其中,所述将所述待验证脚注与预先收集的各个历史真脚注模板进行匹配,具体为将待验证脚注与预先收集的各个历史真脚注模板进行模糊匹配。8.根据权利要求7所述的方法,所述将所述待验证脚注与预先收集的各个历史真脚注模板进行模糊匹配,包括:对所述待验证脚注进行模糊处理,得到所述待验证脚注的简化信息;从所述简化信息中提取信息摘要的特征码,作为所述待验证脚注的待匹配信息;在预先收集的历史真脚注模板中查找与所述待匹配信息相同的历史真脚注模板;其中,查找到的历史真脚注模板为与所述待验证脚注相匹配的历史真脚注模板,所述历史真脚注模板为历史真脚注经过模糊处理和提取信息摘要特征码之后而形成的信息。9.一种垃圾邮件检测的设备,包括:脚注标签解析模块,用于响应于接收待测邮件,从所述待测邮件中解析脚注声明标签;待验证脚...

【专利技术属性】
技术研发人员:林洋港潘照明周森
申请(专利权)人:网易杭州网络有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1