【技术实现步骤摘要】
【国外来华专利技术】
技术介绍
本专利技术涉及用于分类电子通信的方法和系统,且特定来说涉及用于对非请求商业 电子通信(垃圾邮件(spam))进行过滤的系统和方法。 非请求商业电子通信(也称为垃圾邮件)形成全世界所有通信业务的重要部分, 从而影响计算机和电话消息接发服务。垃圾邮件可采取许多形式,从非请求电子邮件通信 至IJ装作例如博客和社交网络站点等各种因特网站点上的用户评论的垃圾邮件消息。垃圾邮 件占用有价值的硬件资源,影响生产力,且被通信服务和/或因特网的许多用户视为厌烦 和打扰的。 在电子邮件垃圾邮件的情况下,在用户或电子邮件服务提供者的计算机系统上运 行的软件可用以将电子邮件消息分类为垃圾邮件或非垃圾邮件,且甚至在各种垃圾邮件消 息之间进行区分(例如,产品报价、成人内容、电子邮件欺诈)。随后可将垃圾邮件消息引导 到特殊文件夹或删除。 类似地,在内容提供者的计算机系统上运行的软件可用以拦截张贴到网站的欺骗 消息且防止相应消息被显示,或向网站的用户显示相应消息可能是垃圾邮件的警告。 已经提出若干方法来识别垃圾邮件消息,包含将消息的发源地址匹配于已知的违 反或受信任地址的列表(分别称为列黑名单和列白名单的技术)、搜索某些字或字模式(例 如,重新募集资金、Viagra?、股票)以及分析消息标头。特征提取/匹配方法经常结合自 动化数据分类方法(例如,贝叶斯滤波、神经网络)来使用。 垃圾邮件经常以相似消息的快速连续群组到达,也称为垃圾邮件波。垃圾邮件的 形式和内容可大体上在垃圾邮件波之间改变,因此成功检测可得益于能够快速地辨识新垃 圾邮件波且对其作出反应 ...
【技术保护点】
一种方法,其包括:采用计算机系统接收形成电子通信的一部分的目标串;响应于接收到所述目标串,采用所述计算机系统根据所述目标串确定串合格性准则;采用所述计算机系统根据所述串合格性准则对参考串的语料库进行预过滤,以产生多个候选串;响应于选择所述候选串,采用所述计算机系统执行所述目标串的字符直方图与所述多个候选串中的候选串的字符直方图之间的第一比较,以及所述电子通信的时戳与所述候选串的时戳之间的第二比较;以及采用所述计算机系统根据所述第一比较和所述第二比较的结果确定所述电子通信是否为垃圾邮件或非垃圾邮件。
【技术特征摘要】
【国外来华专利技术】2012.01.25 US 13/358,3581. 一种方法,其包括: 采用计算机系统接收形成电子通信的一部分的目标串; 响应于接收到所述目标串,采用所述计算机系统根据所述目标串确定串合格性准则; 采用所述计算机系统根据所述串合格性准则对参考串的语料库进行预过滤,以产生多 个候选串; 响应于选择所述候选串,采用所述计算机系统执行所述目标串的字符直方图与所述多 个候选串中的候选串的字符直方图之间的第一比较,以及所述电子通信的时戳与所述候选 串的时戳之间的第二比较;以及 采用所述计算机系统根据所述第一比较和所述第二比较的结果确定所述电子通信是 否为垃圾邮件或非垃圾邮件。2. 根据权利要求1所述的方法,其中所述参考串的语料库包括多个群集,每一群集包 含一组互相相似串,其中所述多个候选串中的每一候选串代表一明显不同的群集,且其中 所述方法进一步包括响应于执行所述第一比较,采用所述计算机系统从所述多个群集选择 一群集且将所述目标串指派于所述选定群集。3. 根据权利要求2所述的方法,其进一步包括根据多个时戳确定所述目标通信是否为 垃圾邮件或非垃圾邮件,所述多个时戳中的每一时戳对应于所述选定群集的一成员。4. 根据权利要求2所述的方法,其进一步包括: 响应于将所述目标串指派于所述选定群集,确定所述选定群集的群集成员的计数;以 及 根据所述群集成员的计数确定所述电子通信是否为垃圾邮件或非垃圾邮件。5. 根据权利要求2所述的方法,其进一步包括根据所述选定群集将所述电子通信识别 为属于选定垃圾邮件波。6. 根据权利要求1所述的方法,其中对所述语料库进行预过滤包括: 确定所述目标串的第一串长度和所述语料库的参考串的第二串长度,且 当所述第一串长度与所述第二串长度相差小于预定阈值的量时,将所述参考串添加到 所述组候选串。7. 根据权利要求1所述的方法,其中对所述语料库进行预过滤包括: 确定所述目标串的明显不同的字符的第一计数和所述语料库的参考串的明显不同的 字符的第二计数,且 当所述第一计数与所述第二计数相差小于预定阈值的量时,将所述参考串添加到所述 组候选串。8. 根据权利要求1所述的方法,其中对所述语料库进行预过滤包括: 将所述目标串的第一串得分确定为如下函数:其中Pi表示所述目标串的第i字符的ASCII码,且Wi是字符特定权重; 确定所述语料库的参考串的第二串得分;以及 当所述第一串得分与所述第二串得分相差小于预定阈值的量时,将所述参考串添加到 所述组候选串。9. 根据权利要求1所述的方法,其中执行所述第一比较包括将串间距离确定为如下函 数:其中T表示所述目标串的字符集合,C表示所述候选串的字符集合,表示所述目标 串内字符i的发生计数,表示所述候选串内字符i的发生计数,且其中Wi是字符i的字 符特定权重。10. 根据权利要求9所述的方法,其中将所述串间距离进一步确定为如下函数:其中字符j在所述目标串内发生,但不在所述候选串内发生是字符j的字符特定权 重,且c是根据所述目标串的串长度选择的数字。11. 根据权利要求1所述的方法,其中执行所述第一比较包括将串间距离确定为如下 函数:其中T表示所述目标串的字符集合,C表示所述候选串的字符集合,其中字符i在所述 目标串内发生,但不在所述候选串内发生,Wi是字符i的字符特定权重,且c是根据所述目 标串的串长度选择的数字。12. 根据权利要求1所述的方法,其中所述电子通信包括博客评论。13. 根据权利要求1所述的方法,其中所述电子通信包括张贴于社交网络站点上的消 肩、。14. 一种计算机系统,其包括经编程以进行以下操作的至少一个处理器: 接收形成电子通信的一部分的目标串; 响应于接收到所述目标串,根据所述目标串确定串合格性准则; 根据所述串合格性准则对参考串的语料库进行预过滤,以产生多个候选串; 响应于选择所述候选串,执行所述目标串的字符直方图与所述多个候选串中的候选串 的字符直方图之间的第一比较,以及所述电子通信的时戳与所述候选串的时戳之间的第二 比较;以及 根据所述第一比较和所述第二比较的结果确定所述电子通信是否为垃圾邮件或非垃 圾邮件。15. 根据权利要求14所述的系统,其中所述参考串的语料库包括多个群集,每一群集 包含一组相似串,其中所述多个候选串中的每...
【专利技术属性】
技术研发人员:达尼埃尔·迪基乌,Z·卢奇安·卢普赛斯库,
申请(专利权)人:比特梵德知识产权管理有限公司,
类型:发明
国别省市:塞浦路斯;CY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。