过滤非训练语言的内容中的贝叶斯担保校验以减少假阳性制造技术

技术编号:3475739 阅读:249 留言:0更新日期:2012-04-11 18:40
一种贝叶斯垃圾过滤器,确定由训练知道的输入电邮信息中的内容量。如果过滤器熟悉阈值量的内容,则过滤器处理以分类电邮信息为垃圾或合法。另一方面,如果过滤器经训练没有知道电邮中的足够词汇,则过滤器不能准确确定信息是否是垃圾。对该情形,过滤器分类该信息为未知类型。可以使用不同的阈值矩阵,诸如已知词汇的百分比和在处理中使用的最大校正值的百分比。这极大的改进了对以过滤器未被训练的语言记载的电邮的处理。

【技术实现步骤摘要】

本专利技术通常涉及电子内容的贝叶斯过滤,并更具体地涉及当处理以非训 练语言记载的电邮时,在贝叶斯垃圾电邮过滤中使用担保校验以减少假阳 性。
技术介绍
当前统计垃圾电邮的检测技术主要依靠在分类电子信息时寻找已知词 汇的能力。垃圾电邮的发布者已意识到这一点,并经常在他们的信息中包括无意义(nonsense)的词汇。使用无意义的词汇以欺骗垃圾检测采取两种 主要形式。第一种是向电邮中插入少量(例如, 一或二个)的无意义词汇。 这用于阻碍单个信息的复制备份(发送到一个因特网服务运营商的许多用 户)的简单哈希检测。通过将不同的无意义词汇插入信息的每个备份,简 单哈希检测程序不能确定该信息是复制的。这种无意义的词汇插入的形式 称为"哈希破坏法"。第二种形式由向电邮中插入更多的无意义词汇所组成。 该词汇作为组合造成整体信息的误分类。垃圾电邮分类引擎基于诸如贝叶斯分析的各种统计技术来分析电邮信 息的内容并试图确定哪些邮件是垃圾。贝叶斯垃圾过滤是基于出现在垃圾 或合法电邮中的具体词汇的已建立的概率。例如,上述的无意义词汇以及 诸如"伟哥(Viagra)"、"再筹款(Refinance)"、"抵押(Mortgage)"等的特定词汇频繁出现在垃圾中,而很少或不常出现在合法电邮中。因此,这 些术语的出现增加了电邮成为垃圾的概率。贝叶斯垃圾分类引擎对这些概 率没有原有的知识,而相反通过由电邮信息集合训练而建立这些概率。当使用诸如贝叶斯法的统计方法分类文档时,分类输出的可靠性只和输 入一样(output is as good as i叩ut)。这在统计分类器遇到以该分类器没有受训的语言记载的信息时(例如,当以英语受训的分类器试图分类德文文档 时),就产生了问题。更具体地,与无意义词汇相反或除了无意义词汇以外, 垃圾邮件发布者在垃圾电邮中插入外语词汇或短语已变得很普遍。这经常导致某些常用的外语词汇(例如,"el"、 "los"、 "der"、 "die"、 "und"等)被分类引擎分类为与垃圾电邮相关。因为这些词汇出现在许多垃圾电邮中但 实际上不出现在以英语写成的合法电邮中,用英语数据集训练的贝叶斯分 类引擎将把它们在电邮信息中的出现解释为包括垃圾的信息的强烈指示。过去,已提出两种不同方式用于非训练语言中的内容的问题。 一种方法 是使用能确定文档语言的二级分类器。对贝叶斯垃圾过滤器的输入随后被 限制为以其已经被训练的语言记载的内容。第二种方法是使贝叶斯过滤器 尝试分类每个文档而不论语言。第一种方法在金钱和计算效率上都是昂贵的。为了通过语言分类每个文 档,必须注册或构建昂贵的语言分类引擎以仅仅确定垃圾引擎是否应监视 输入的信息。而且,用其他引擎分类每个输入的电邮是耗时的,并减慢垃 圾过滤处理。在垃圾的范围中,当过滤以贝叶斯过滤器没有受训的语言记载的电邮 时,第二种方法通常导致极高的假阳性率。如上所指出,以未训练的外语 记载的非常常用的词汇可能在垃圾的训练数据中很普遍。例如,当用英语 记载的电邮集训练时,类似"und"和"der"的词汇经常出现在垃圾中并几乎不 出现在合法电邮中。然而,当处理德文电邮时,这些词汇几乎出现在无论 是垃圾或合法的每个信息中。因此,以英语而不是德语训练的分类器会将 所有或大多数德文电邮分类为垃圾。当处理以贝叶斯过滤器没有受训的语言记载的内容时,期望能不必须使 用能确定文档语言的昂贵的二级分类器而避免该过量的假阳性率。特殊处理允许极大地改进以外语记载的电邮信息的贝叶斯垃圾过滤。贝 叶斯垃圾过滤器确定输入的电邮信息中由训练知道的内容量。如果过滤器 了解该内容的阈值量,则过滤器将该将电邮信息进行分类为垃圾或合法。 另一方面,如果过滤器经训练所知道的电邮中的词汇不够,则过滤器不能准确确定该信息是否是垃圾。当电邮信息是以过滤器没有被训练的语言写 成时通常是这一情形。对该情形,分类器分类该信息为类型未知。按需要 可以使用不同的阈值矩阵,诸如已知电邮中词汇的百分比,以及在电邮的 贝叶斯处理中使用的最大校正值的百分比。在该概述和如下详细说明中记载的特点和优点并非包括一切,并尤其 是,许多其他特点和优点通过附图、说明书、和其权利要求对于本领域技 术人员将变的显而易见。而且,应该注意,说明书中使用的语言主要用于 可读性和指导目的,并不用于勾画或限制专利技术的主题,权利要求用于确定 该专利技术的主题。附图的简要说明附图说明图1是框图,说明根据本专利技术的一些实施例的系统,其中当处理以非训 练语言记载的电邮时,在贝叶斯垃圾电邮过滤中使用担保校验以减少假阳 性。本图描绘本专利技术的实施例只用于说明。本领域技术人员将从如下讨论中 轻易理解到,可以使用本文说明的结构和方法的其他实施例而不不背离本 文所述的专利技术的原理。详细说明图1说明根据本专利技术的一些实施例的系统ioo,其中当处理以非训练语言记载的电邮时,在贝叶斯垃圾电邮过滤中使用担保校验105以减少假阳 性。应该理解,虽然图1所示的各种组件为单独实体,每个所示组件表示 能以软件、硬件、固件或这些的任何组合实施的功能体的组合。组件以软 件实施时,其可以以孤立程序实施,但也可以以其他方式实施,例如作为 较大程序的一部分、作为多个单独程序、作为内核可加载模块、作为一个 或多个设备驱动或作为一个或多个静止或动态链接库。如图1所示,贝叶斯垃圾过滤器101接收输入的电邮信息103。标准贝 叶斯垃圾过滤器101的实施机制对本领域技术人员是已知的,并在本专利技术 的范围内其用法对于该技术水平的人员根据本说明书是很明显的。在使用 贝叶斯法以浏览输入电邮103时,贝叶斯垃圾过滤器101分析这些电邮信息103的内容。除了标准贝叶斯处理,贝叶斯垃圾过滤器101对输入的电邮103执行担保校验105。本文的担保校验105指分析以确定是否已知大于 阈值107量的内容。例如,为了对输入电邮信息103执行担保校验105,贝 叶斯垃圾过滤器101根据对其训练的数据,分析电邮信息103的内容,并 确定其中哪些词汇是贝叶斯垃圾过滤器101已知的。换而言之,如果贝叶 斯垃圾过滤器101在训练期间遇到特定词汇并且该词汇与分类概率相关, 则该词汇是已知的。如果贝叶斯垃圾过滤器101在训练期间没有遇到词汇 从而不与设定的概率相关,则该词汇是未知的。如下文的更详细描述,电 邮103中未知内容的量帮助贝叶斯垃圾过滤器101分类电邮103。更具体地,如果大于阈值107量的电邮内容103是未知的,贝叶斯垃圾 过滤器101分类该文档为未知106类型。换而言之,由于太多内容对于过 滤器101是未知的,所以不能可靠地将电邮103分类为垃圾102或合法104。 因为过滤器101没有对电邮103中的足够词汇受训,不能根据它知道的词 汇的概率数据对于电邮103的特性得出可靠的结论。另一方面,如果贝叶 斯垃圾过滤器101确定少于阈值107量的电邮103的内容是已知的,则过 滤器101有足够信息以执行文档的标准贝叶斯概率分类。例如,如果贝叶斯垃圾过滤器101已对英语电邮集而不是德语电邮集受 训,由于大多数德语词汇对于过滤器101是未知的,过滤器101将错误地 将所有或大多数德语电邮103分类为垃圾102,但一些常用的德语词汇(例 如,定冠词和常用连词)与垃圾102的本文档来自技高网...

【技术保护点】
一种用于在贝叶斯过滤中减少假分类的计算机实施的方法,所述方法包括如下步骤: 在贝叶斯过滤的范围中,分析至少一个要被分类的文档的内容; 确定所述至少一个文档中是否已知大于阈值量的内容;以及 响应所述确定的结果来分类所述文档。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:肖恩库利
申请(专利权)人:赛门铁克公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利