关键词列表维护方法及系统技术方案

技术编号:11703549 阅读:85 留言:0更新日期:2015-07-09 02:44
本申请公开了一种关键词列表维护方法,包括:获取邮件内容;确定所述邮件内容中的分词;根据确定出的各分词的属性,从各分词中确定出关键词;更新所述关键词至关键词列表。本申请实施例关键词列表维护方法或系统通过对邮件内容进行自动分析,获取关键词,以实现对关键词列表的快速更新,同时减少人力投入且避免人工查找关键字的不便。本申请还公开一种关键词列表维护系统。

【技术实现步骤摘要】

本申请涉及网络通信
,尤其涉及一种关键词列表维护方法和系统。
技术介绍
随着互联网应用的发展,电子邮件得到广泛的应用,已成为互联网上最基本的服务之一,用户可以通过电子邮件与远程用户进行经济、方便和快捷的信息交流。然而,就在电子邮件逐渐成为一种不可缺少的重要信息交流工具的同时,也正在成为一种商业广告手段。用户在收到有用信息的同时,还必须花费大量时间和精力对各种各样的邮件进行分类识别,以分辨垃圾邮件。垃圾邮件,即那些人们没有意愿去接收的电子邮件,严重干扰了人们的正常生活,浪费用户的时间,造成经济损失。因而,反垃圾邮件技术应运而生。目前,基于邮件内容的反垃圾邮件系统,主要分为两大类:一、关键词匹配,人工定义关键词列表,通过正则匹配邮件内容中是否出现过关键词,进行邮件的判定。二、分类器,如基于贝叶斯(Bayes)、支持向量机(SupportVectorMachine,SVM)、决策树等算法的分类器。该方案预先收集一批邮件样本,人工标注成垃圾邮件和非垃圾邮件两类,然后运用分类算法训练一个分类器,最后对于一封新邮件,利用分类器对邮件进行判定。现有技术方案主要存在以下不足:1、关键词匹配:人工被动建立,需要人工主动发现垃圾邮件然后找到共同点进而更新关键词列表;缺乏灵活性,邮件变种复杂,没有明显的关键词。2、分类器:反馈不及时,新出现的垃圾邮件不能及时运用到在分类器上,因为训练分类器的成本较高;并且,对人工标注的要求较高,需要预先正确标注大量的分类邮件样本,用于训练分类器。
技术实现思路
本申请实施例提供一种关键词列表维护方法,用于解决邮件系统中关键词列表更新慢或关键词列表无法准确更新的问题。本申请实施例提供一种关键词列表维护系统,用于解决邮件系统中关键词列表更新慢或关键词列表无法准确更新的问题。—种关键词列表维护方法,包括:获取邮件内容;确定所述邮件内容中的分词;根据确定出的各分词的属性,从各分词中确定出关键词;更新所述关键词至关键词列表。—种关键词列表维护系统,包括:获取模块,用于获取邮件内容;提取模块,用于确定所述邮件内容中的分词;分析模块,用于根据确定出的各分词的属性,从各分词中确定出关键词;更新模块;用于更新所述关键词至关键词列表。与现有技术相比,本申请实施例具有以下有益效果:本申请实施例关键词列表维护方法或系统通过对邮件内容进行自动分析,获取关键词,以实现对关键词列表的快速更新,同时减少人力投入且避免人工查找关键字的不便。【附图说明】此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本申请实施例提供的一种关键词列表维护处理方法的流程示意图;图2是本申请实施例提供的一种关键词列表维护系统的架构示意图;图3是本申请实施例提供的关键词列表维护方法应用于邮件服务器的一种具体实施例的流程详解图;图4是本申请实施例提供的关键词列表维护方法应用于邮件服务器的另一种具体实施例的流程详解图;图5是本申请实施例提供的关键词列表维护方法应用于邮件发送客户端的一种具体实施例的流程详解图。【具体实施方式】为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获取的所有其他实施例,都属于本申请保护的范围。以下结合附图,详细说明本申请各实施例提供的技术方案。图1为本申请实施例提供的一种关键词列表维护处理方法的流程示意图。所述关键词列表维护方法具体包括以下步骤:SlOl:获取邮件内容。本实施例中,执行主体可以为关键词列表维护系统,所述关键词列表维护系统可以安装于邮件服务器上,可也以安装于邮件发送客户端。所述关键词列表维护系统包括获取模块,所述获取模块获取邮件内容。当用户进行邮件发送时,所述获取模块获取所述邮件,进一步地,所述获取模块对所获取到的邮件进行解析,提取到邮件标题和邮件正文,以得到邮件内容。在较佳实施例中,为保证后续处理的准确性及可靠性,所述获取模块对邮件内容进行编码转换,可以将邮件内容的编码统一转换为UTF-8 (8-bit UnicodeTransformat1n Format,万国石马)格式、GBK(Chinese Internal Code Specificat1n,汉字编码字符集)格式、ASCII (American Standard Code for Informat1n Interchange,美国信息互换标准代码)格式、UNICODE (Universal Multiple-Octet Coded Character Set,统一码)格式等。S102:确定所述邮件内容中的分词。所述关键词列表维护系统还包括提取模块,所述提取模块确定所述邮件内容中的分词。所述提取模块根据预定义的规则,对邮件内容中出现的即时通讯号码、电话号码、网址、邮箱账号、中文词语等分词进行确定。具体如下举例:当出现5至11位数字且这些数字所在的段落里有即时通讯产品名称,所述提取模块确定该5至11位数字为即时通讯号码。当出现11位数字且这些数字所在的段落里有“电话”、“手机”词语,所述提取模块确定该11位数字为电话号码。当出现以“www.”开头的字符串,所述提取模块确定该字符串为网址。当在20个字符内先后出现和com”,所述提取模块识别出该字符串,并确定该字符串为邮箱账号。当前后相连的2、3或4个汉字的组合,通过分析,具有实际语义,所述提取模块确定该汉字组合为中文词语。S103:根据确定出的各分词的属性,从各分词中确定出关键词。所述关键词列表维护系统还包括分析模块,所述分析模块根据确定出的各分词的属性,从各分词中确定出关键词。一种实施例中,所述分析模块对各分词的出现次数进行统计分析,以确定该分词是否为关键词。S104:更新所述关键词至关键词列表。所述关键词列表维护系统还包括更新模块,所述更新模块将已经确认为关键词的分词更新至关键词列表,以满足及时对后续邮件进行筛查。本申请实施例关键词列表维护方法通过对邮件内容进行自动分析,获取关键词,以实现对关键词列表的快速更新,同时减少人力投入且避免人工查找关键字的不便。进一步地,对根据确定出的各分词的属性,从各分词中确定出关键词进行说明。所述分析模块针对每个分词,统计该分词的出现次数。若该分词的出现次数异常,则确定该分词为关键词。进一步地,对统计该分词的出现次数进行说明。所述分析模块根据预设的时间间隔,统计该分词在所述时间间隔内的出现次数。对该分词的出现次数异常进行说明。若该分词在所述时间间隔内的出现次数超过设定的第一阈值,则确定所述该分词的出现次数异常;或者若该分词在所述时间间隔内的出现次数与在上一个时间间隔内的出现次数的差值或增长率超过设定的第二阈值,则确定该分词的出现次数出现异常。所述关键词列表维护系统定义有第一时间间隔、第二时间间隔。所述分析模块每经过第一时间间隔进行一次分析,以统计第二时间间隔内的分词的出现次数,并进行分析。为保证统计分析的及时性,所述第一时间间隔可以定义为较短本文档来自技高网...

【技术保护点】
一种关键词列表维护方法,其特征在于,包括:获取邮件内容;确定所述邮件内容中的分词;根据确定出的各分词的属性,从各分词中确定出关键词;更新所述关键词至关键词列表。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘洋
申请(专利权)人:新浪网技术中国有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1