用于使用字符直方图进行垃圾邮件检测的系统和方法技术方案

技术编号：10459056 阅读：188 留言：0更新日期：2014-09-24 14:43

所描述的包含串识别、预过滤以及字符直方图和时戳比较步骤的垃圾邮件检测技术促进了对在短持续波中到达的快速改变的垃圾邮件的准确、计算上高效的检测。在一些实施例中，计算机系统从例如博客评论等电子通信提取目标字符串，将其发射到反垃圾邮件服务器，且从所述反垃圾邮件服务器接收相应电子通信是否为垃圾邮件或非垃圾邮件的指示符。所述反垃圾邮件服务器根据所述目标串的所述字符直方图的某些特征确定所述电子通信是否为垃圾邮件或非垃圾邮件。一些实施例还执行将传入目标串无监督地群集为若干群集，其中群集的所有成员具有相似的字符直方图。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】
技术介绍
本专利技术涉及用于分类电子通信的方法和系统，且特定来说涉及用于对非请求商业电子通信（垃圾邮件（spam))进行过滤的系统和方法。非请求商业电子通信（也称为垃圾邮件）形成全世界所有通信业务的重要部分，从而影响计算机和电话消息接发服务。垃圾邮件可采取许多形式，从非请求电子邮件通信至IJ装作例如博客和社交网络站点等各种因特网站点上的用户评论的垃圾邮件消息。垃圾邮件占用有价值的硬件资源，影响生产力，且被通信服务和/或因特网的许多用户视为厌烦和打扰的。在电子邮件垃圾邮件的情况下，在用户或电子邮件服务提供者的计算机系统上运行的软件可用以将电子邮件消息分类为垃圾邮件或非垃圾邮件，且甚至在各种垃圾邮件消息之间进行区分（例如，产品报价、成人内容、电子邮件欺诈）。随后可将垃圾邮件消息引导到特殊文件夹或删除。类似地，在内容提供者的计算机系统上运行的软件可用以拦截张贴到网站的欺骗消息且防止相应消息被显示，或向网站的用户显示相应消息可能是垃圾邮件的警告。已经提出若干方法来识别垃圾邮件消息，包含将消息的发源地址匹配于已知的违反或受信任地址的列表（分别称为列黑名单和列白名单的技术）、搜索某些字或字模式（例如，重新募集资金、Viagra?、股票）以及分析消息标头。特征提取/匹配方法经常结合自动化数据分类方法（例如，贝叶斯滤波、神经网络）来使用。垃圾邮件经常以相似消息的快速连续群组到达，也称为垃圾邮件波。垃圾邮件的形式和内容可大体上在垃圾邮件波之间改变，因此成功检测可得益于能够快速地辨识新垃圾邮件波且对其作出反应...
<a href="http://www.xjishu.com/zhuanli/62/201280067397.html" title="用于使用字符直方图进行垃圾邮件检测的系统和方法原文来自X技术">用于使用字符直方图进行垃圾邮件检测的系统和方法</a>

【技术保护点】
一种方法，其包括：采用计算机系统接收形成电子通信的一部分的目标串；响应于接收到所述目标串，采用所述计算机系统根据所述目标串确定串合格性准则；采用所述计算机系统根据所述串合格性准则对参考串的语料库进行预过滤，以产生多个候选串；响应于选择所述候选串，采用所述计算机系统执行所述目标串的字符直方图与所述多个候选串中的候选串的字符直方图之间的第一比较，以及所述电子通信的时戳与所述候选串的时戳之间的第二比较；以及采用所述计算机系统根据所述第一比较和所述第二比较的结果确定所述电子通信是否为垃圾邮件或非垃圾邮件。

【技术特征摘要】
【国外来华专利技术】2012.01.25 US 13/358,3581. 一种方法，其包括：采用计算机系统接收形成电子通信的一部分的目标串；响应于接收到所述目标串，采用所述计算机系统根据所述目标串确定串合格性准则；采用所述计算机系统根据所述串合格性准则对参考串的语料库进行预过滤，以产生多个候选串；响应于选择所述候选串，采用所述计算机系统执行所述目标串的字符直方图与所述多个候选串中的候选串的字符直方图之间的第一比较，以及所述电子通信的时戳与所述候选串的时戳之间的第二比较；以及采用所述计算机系统根据所述第一比较和所述第二比较的结果确定所述电子通信是否为垃圾邮件或非垃圾邮件。2. 根据权利要求1所述的方法，其中所述参考串的语料库包括多个群集，每一群集包含一组互相相似串，其中所述多个候选串中的每一候选串代表一明显不同的群集，且其中所述方法进一步包括响应于执行所述第一比较，采用所述计算机系统从所述多个群集选择一群集且将所述目标串指派于所述选定群集。3. 根据权利要求2所述的方法，其进一步包括根据多个时戳确定所述目标通信是否为垃圾邮件或非垃圾邮件，所述多个时戳中的每一时戳对应于所述选定群集的一成员。4. 根据权利要求2所述的方法，其进一步包括：响应于将所述目标串指派于所述选定群集，确定所述选定群集的群集成员的计数；以及根据所述群集成员的计数确定所述电子通信是否为垃圾邮件或非垃圾邮件。5. 根据权利要求2所述的方法，其进一步包括根据所述选定群集将所述电子通信识别为属于选定垃圾邮件波。6. 根据权利要求1所述的方法，其中对所述语料库进行预过滤包括：确定所述目标串的第一串长度和所述语料库的参考串的第二串长度，且当所述第一串长度与所述第二串长度相差小于预定阈值的量时，将所述参考串添加到所述组候选串。7. 根据权利要求1所述的方法，其中对所述语料库进行预过滤包括：确定所述目标串的明显不同的字符的第一计数和所述语料库的参考串的明显不同的字符的第二计数，且当所述第一计数与所述第二计数相差小于预定阈值的量时，将所述参考串添加到所述组候选串。8. 根据权利要求1所述的方法，其中对所述语料库进行预过滤包括：将所述目标串的第一串得分确定为如下函数：其中Pi表示所述目标串的第i字符的ASCII码，且Wi是字符特定权重；确定所述语料库的参考串的第二串得分；以及当所述第一串得分与所述第二串得分相差小于预定阈值的量时，将所述参考串添加到所述组候选串。9. 根据权利要求1所述的方法，其中执行所述第一比较包括将串间距离确定为如下函数：其中T表示所述目标串的字符集合，C表示所述候选串的字符集合，表示所述目标串内字符i的发生计数，表示所述候选串内字符i的发生计数，且其中Wi是字符i的字符特定权重。10. 根据权利要求9所述的方法，其中将所述串间距离进一步确定为如下函数：其中字符j在所述目标串内发生，但不在所述候选串内发生是字符j的字符特定权重，且c是根据所述目标串的串长度选择的数字。11. 根据权利要求1所述的方法，其中执行所述第一比较包括将串间距离确定为如下函数：其中T表示所述目标串的字符集合，C表示所述候选串的字符集合，其中字符i在所述目标串内发生，但不在所述候选串内发生，Wi是字符i的字符特定权重，且c是根据所述目标串的串长度选择的数字。12. 根据权利要求1所述的方法，其中所述电子通信包括博客评论。13. 根据权利要求1所述的方法，其中所述电子通信包括张贴于社交网络站点上的消肩、。14. 一种计算机系统，其包括经编程以进行以下操作的至少一个处理器：接收形成电子通信的一部分的目标串；响应于接收到所述目标串，根据所述目标串确定串合格性准则；根据所述串合格性准则对参考串的语料库进行预过滤，以产生多个候选串；响应于选择所述候选串，执行所述目标串的字符直方图与所述多个候选串中的候选串的字符直方图之间的第一比较，以及所述电子通信的时戳与所述候选串的时戳之间的第二比较；以及根据所述第一比较和所述第二比较的结果确定所述电子通信是否为垃圾邮件或非垃圾邮件。15. 根据权利要求14所述的系统，其中所述参考串的语料库包括多个群集，每一群集包含一组相似串，其中所述多个候选串中的每...

【专利技术属性】
技术研发人员：达尼埃尔·迪基乌，Z·卢奇安·卢普赛斯库，
申请(专利权)人：比特梵德知识产权管理有限公司，
类型：发明
国别省市：塞浦路斯;CY

全部详细技术资料下载我是这个专利的主人