用于使用字符直方图进行垃圾邮件检测的系统和方法技术方案

技术编号:10459056 阅读:188 留言:0更新日期:2014-09-24 14:43
所描述的包含串识别、预过滤以及字符直方图和时戳比较步骤的垃圾邮件检测技术促进了对在短持续波中到达的快速改变的垃圾邮件的准确、计算上高效的检测。在一些实施例中,计算机系统从例如博客评论等电子通信提取目标字符串,将其发射到反垃圾邮件服务器,且从所述反垃圾邮件服务器接收相应电子通信是否为垃圾邮件或非垃圾邮件的指示符。所述反垃圾邮件服务器根据所述目标串的所述字符直方图的某些特征确定所述电子通信是否为垃圾邮件或非垃圾邮件。一些实施例还执行将传入目标串无监督地群集为若干群集,其中群集的所有成员具有相似的字符直方图。

【技术实现步骤摘要】
【国外来华专利技术】
技术介绍
本专利技术涉及用于分类电子通信的方法和系统,且特定来说涉及用于对非请求商业 电子通信(垃圾邮件(spam))进行过滤的系统和方法。 非请求商业电子通信(也称为垃圾邮件)形成全世界所有通信业务的重要部分, 从而影响计算机和电话消息接发服务。垃圾邮件可采取许多形式,从非请求电子邮件通信 至IJ装作例如博客和社交网络站点等各种因特网站点上的用户评论的垃圾邮件消息。垃圾邮 件占用有价值的硬件资源,影响生产力,且被通信服务和/或因特网的许多用户视为厌烦 和打扰的。 在电子邮件垃圾邮件的情况下,在用户或电子邮件服务提供者的计算机系统上运 行的软件可用以将电子邮件消息分类为垃圾邮件或非垃圾邮件,且甚至在各种垃圾邮件消 息之间进行区分(例如,产品报价、成人内容、电子邮件欺诈)。随后可将垃圾邮件消息引导 到特殊文件夹或删除。 类似地,在内容提供者的计算机系统上运行的软件可用以拦截张贴到网站的欺骗 消息且防止相应消息被显示,或向网站的用户显示相应消息可能是垃圾邮件的警告。 已经提出若干方法来识别垃圾邮件消息,包含将消息的发源地址匹配于已知的违 反或受信任地址的列表(分别称为列黑名单和列白名单的技术)、搜索某些字或字模式(例 如,重新募集资金、Viagra?、股票)以及分析消息标头。特征提取/匹配方法经常结合自 动化数据分类方法(例如,贝叶斯滤波、神经网络)来使用。 垃圾邮件经常以相似消息的快速连续群组到达,也称为垃圾邮件波。垃圾邮件的 形式和内容可大体上在垃圾邮件波之间改变,因此成功检测可得益于能够快速地辨识新垃 圾邮件波且对其作出反应的方法和系统。
技术实现思路
根据一个方面,一种方法包括:采用计算机系统接收形成电子通信的一部分的目 标串;根据所述目标串确定串合格性准则;以及根据所述串合格性准则对参考串的语料库 进行预过滤,以产生多个候选串。响应于选择所述候选串,采用所述计算机系统执行所述目 标串的字符直方图与所述多个候选串中的候选串的字符直方图之间的第一比较,以及所述 电子通信的时戳与所述候选串的时戳之间的第二比较。所述计算机系统根据所述第一比较 和第二比较的结果确定所述电子通信是否为垃圾邮件或非垃圾邮件。 根据另一方面,一种计算机系统包括经编程以进行以下操作的至少一处理器:接 收形成电子通信的一部分的目标串;根据所述目标串确定串合格性准则;以及根据所述串 合格性准则对参考串的语料库进行预过滤,以产生多个候选串。所述处理器进一步经编程 以响应于选择所述候选串,执行所述目标串的字符直方图与所述多个候选串中的候选串的 字符直方图之间的第一比较,以及所述电子通信的时戳与所述候选串的时戳之间的第二比 较。所述处理器进一步经编程以根据所述第一比较和第二比较的结果确定所述电子通信是 否为垃圾邮件或非垃圾邮件。 根据另一方面,一种方法包括:采用计算机系统接收电子通信;响应于接收到所 述电子通信,从所述电子通信提取目标串;将所述目标串发射到反垃圾邮件服务器;以及 响应于发射所述目标串,接收指示所述电子通信是否为垃圾邮件或非垃圾邮件的目标标 签,其中所述目标标签是在所述反垃圾邮件服务器处确定。确定所述目标标签包括:采用所 述反垃圾邮件服务器根据所述目标串确定合格性准则;根据所述准则条件对参考串的语料 库进行预过滤,以产生多个候选串;响应于选择所述候选串,执行所述目标串的字符直方图 与所述多个候选串中的候选串的字符直方图之间的第一比较,以及所述电子通信的时戳与 所述候选串的时戳之间的第二比较;以及根据所述第一比较和第二比较的结果确定所述目 标标签。 根据另一方面,一种方法包括:采用计算机系统接收形成电子通信的一部分的目 标串;根据所述目标串确定串合格性准则;根据所述串合格性准则对参考串的语料库进行 预过滤,以产生多个候选串。响应于选择所述候选串,所述方法采用所述计算机系统确定将 所述目标串与所述多个候选串中的候选串分离的串间距离,所述串间距离是根据所述目标 串内的选定字符的发生计数和所述候选串内的所述选定字符的发生计数来确定。所述方法 随后包括根据所述串间距离确定所述电子通信是否为垃圾邮件或非垃圾邮件。 【附图说明】 在阅读以下详细描述后且在参考附图后将更好地了解本专利技术的前述方面和优点, 其中: 图1展示根据本专利技术的一些实施例的示范性反垃圾邮件系统。 图2展示根据本专利技术的一些实施例的服务器计算机系统的示范性硬件配置。 图3-A说明根据本专利技术的一些实施例的在客户端计算机与反垃圾邮件服务器之 间的示范性垃圾邮件检测事务。 图3-B说明根据本专利技术的一些实施例的在内容服务器与反垃圾邮件服务器之间 的示范性垃圾邮件检测事务。 图4展示根据本专利技术的一些实施例的目标通信的示范性目标指示符,所述指示符 包括目标串和额外识别垃圾邮件的数据。 图5展示根据本专利技术的一些实施例的在反垃圾邮件服务器上执行的一组示范性 应用程序的图。 图6展示根据本专利技术的一些实施例的关联于目标串且针对多个字符类计算的示 范性字符直方图。 图7说明根据本专利技术的一些实施例的在图1的反垃圾邮件服务器上操作的示范性 垃圾邮件检测器应用程序。 图8说明根据本专利技术的一些实施例的在特征超空间中表示的多个群集,每一群集 包括相似项目的集合。 图9展示根据本专利技术的一些实施例的由图7的垃圾邮件检测器执行的示范性步骤 序列。 图10-A展示随着测试串的明显不同的字符数目而变的计算机实验的结果,包括 确定针对测试串集合产生字符直方图的计算时间。 图10-B展示随着测试串的串长度而变的计算机实验的结果,包括确定针对测试 串集合产生字符直方图的计算时间。 图10-C展示随着测试串的明显不同的字符数目而变的计算机实验的结果,包括 确定针对测试串集合计算一组串间距离的计算时间。 图10-D展示随着测试串的串长度而变的计算机实验的结果,包括确定针对测试 串集合计算一组串间距离的计算时间。 图11展示针对包括垃圾邮件和非垃圾邮件的真实博客评论集合的串长度对时戳 指示符的绘图。 图12展示针对包括垃圾邮件和非垃圾邮件的真实博客评论集合的明显不同的字 符数目对时戳指示符的绘图。 【具体实施方式】 在以下描述中,应了解,结构之间所有陈述的连接可为直接操作连接或通过中间 结构的间接操作连接。一组元件包含一或多个元件。对一元件的任何陈述应理解为涉及至 少一个元件。多个元件包含至少两个元件。除非另外需要,否则任何描述的方法步骤均无 需一定以特定说明次序执行。从第二元素导出的第一元素(例如,数据)涵盖等于第二元 素的第一元素,以及通过处理第二元素和(任选地)其它数据产生的第一元素。根据参数 做出确定或决策涵盖根据参数且任选地根据其它数据做出确定或决策。除非另外指定,否 则某个量/数据的指示符可为所述量/数据自身,或不同于所述量/数据自身的指示符。 在本专利技术的一些实施例中描述的计算机程序可为独立的软件实体或其它计算机程序的子 实体(例如,子例程、代码对象)。除非另外指定,否则术语垃圾邮件不限于电子邮件垃圾 邮件,而是还涵盖例如不合法或非请求的商业用户产生的内容等电子通信,其形式为博客 本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/62/201280067397.html" title="用于使用字符直方图进行垃圾邮件检测的系统和方法原文来自X技术">用于使用字符直方图进行垃圾邮件检测的系统和方法</a>

【技术保护点】
一种方法,其包括:采用计算机系统接收形成电子通信的一部分的目标串;响应于接收到所述目标串,采用所述计算机系统根据所述目标串确定串合格性准则;采用所述计算机系统根据所述串合格性准则对参考串的语料库进行预过滤,以产生多个候选串;响应于选择所述候选串,采用所述计算机系统执行所述目标串的字符直方图与所述多个候选串中的候选串的字符直方图之间的第一比较,以及所述电子通信的时戳与所述候选串的时戳之间的第二比较;以及采用所述计算机系统根据所述第一比较和所述第二比较的结果确定所述电子通信是否为垃圾邮件或非垃圾邮件。

【技术特征摘要】
【国外来华专利技术】2012.01.25 US 13/358,3581. 一种方法,其包括: 采用计算机系统接收形成电子通信的一部分的目标串; 响应于接收到所述目标串,采用所述计算机系统根据所述目标串确定串合格性准则; 采用所述计算机系统根据所述串合格性准则对参考串的语料库进行预过滤,以产生多 个候选串; 响应于选择所述候选串,采用所述计算机系统执行所述目标串的字符直方图与所述多 个候选串中的候选串的字符直方图之间的第一比较,以及所述电子通信的时戳与所述候选 串的时戳之间的第二比较;以及 采用所述计算机系统根据所述第一比较和所述第二比较的结果确定所述电子通信是 否为垃圾邮件或非垃圾邮件。2. 根据权利要求1所述的方法,其中所述参考串的语料库包括多个群集,每一群集包 含一组互相相似串,其中所述多个候选串中的每一候选串代表一明显不同的群集,且其中 所述方法进一步包括响应于执行所述第一比较,采用所述计算机系统从所述多个群集选择 一群集且将所述目标串指派于所述选定群集。3. 根据权利要求2所述的方法,其进一步包括根据多个时戳确定所述目标通信是否为 垃圾邮件或非垃圾邮件,所述多个时戳中的每一时戳对应于所述选定群集的一成员。4. 根据权利要求2所述的方法,其进一步包括: 响应于将所述目标串指派于所述选定群集,确定所述选定群集的群集成员的计数;以 及 根据所述群集成员的计数确定所述电子通信是否为垃圾邮件或非垃圾邮件。5. 根据权利要求2所述的方法,其进一步包括根据所述选定群集将所述电子通信识别 为属于选定垃圾邮件波。6. 根据权利要求1所述的方法,其中对所述语料库进行预过滤包括: 确定所述目标串的第一串长度和所述语料库的参考串的第二串长度,且 当所述第一串长度与所述第二串长度相差小于预定阈值的量时,将所述参考串添加到 所述组候选串。7. 根据权利要求1所述的方法,其中对所述语料库进行预过滤包括: 确定所述目标串的明显不同的字符的第一计数和所述语料库的参考串的明显不同的 字符的第二计数,且 当所述第一计数与所述第二计数相差小于预定阈值的量时,将所述参考串添加到所述 组候选串。8. 根据权利要求1所述的方法,其中对所述语料库进行预过滤包括: 将所述目标串的第一串得分确定为如下函数:其中Pi表示所述目标串的第i字符的ASCII码,且Wi是字符特定权重; 确定所述语料库的参考串的第二串得分;以及 当所述第一串得分与所述第二串得分相差小于预定阈值的量时,将所述参考串添加到 所述组候选串。9. 根据权利要求1所述的方法,其中执行所述第一比较包括将串间距离确定为如下函 数:其中T表示所述目标串的字符集合,C表示所述候选串的字符集合,表示所述目标 串内字符i的发生计数,表示所述候选串内字符i的发生计数,且其中Wi是字符i的字 符特定权重。10. 根据权利要求9所述的方法,其中将所述串间距离进一步确定为如下函数:其中字符j在所述目标串内发生,但不在所述候选串内发生是字符j的字符特定权 重,且c是根据所述目标串的串长度选择的数字。11. 根据权利要求1所述的方法,其中执行所述第一比较包括将串间距离确定为如下 函数:其中T表示所述目标串的字符集合,C表示所述候选串的字符集合,其中字符i在所述 目标串内发生,但不在所述候选串内发生,Wi是字符i的字符特定权重,且c是根据所述目 标串的串长度选择的数字。12. 根据权利要求1所述的方法,其中所述电子通信包括博客评论。13. 根据权利要求1所述的方法,其中所述电子通信包括张贴于社交网络站点上的消 肩、。14. 一种计算机系统,其包括经编程以进行以下操作的至少一个处理器: 接收形成电子通信的一部分的目标串; 响应于接收到所述目标串,根据所述目标串确定串合格性准则; 根据所述串合格性准则对参考串的语料库进行预过滤,以产生多个候选串; 响应于选择所述候选串,执行所述目标串的字符直方图与所述多个候选串中的候选串 的字符直方图之间的第一比较,以及所述电子通信的时戳与所述候选串的时戳之间的第二 比较;以及 根据所述第一比较和所述第二比较的结果确定所述电子通信是否为垃圾邮件或非垃 圾邮件。15. 根据权利要求14所述的系统,其中所述参考串的语料库包括多个群集,每一群集 包含一组相似串,其中所述多个候选串中的每...

【专利技术属性】
技术研发人员:达尼埃尔·迪基乌Z·卢奇安·卢普赛斯库
申请(专利权)人:比特梵德知识产权管理有限公司
类型:发明
国别省市:塞浦路斯;CY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1