The invention discloses a spam filtering method based on intelligent algorithm, which comprises the following steps: obtaining the original text sample; sample collection for any sample of vocabulary; vocabulary set an independent vocabulary, are calculated by the probability of independent vocabulary in spam samples and non spam messages appear in the sample; for any sample of vocabulary set in a separate vocabulary, obtained at any of the independent vocabulary contains a message for the probability of spam messages; when any one appears to be filtered SMS sample set in a vocabulary independent vocabulary, for the message to be filtered in each independent vocabulary, including the independent free the vocabulary of a message for the probability of non spam messages; get the message to be filtered into the probability of spam messages; get blacklist library to realize; The discrimination of filtered SMS and the upgrade of black and white list library. The garbage short message filtering method can improve the accuracy of garbage short message filtering.
【技术实现步骤摘要】
一种基于智能算法的垃圾短信过滤方法
本专利技术涉及软件信息安全
更具体地,涉及一种基于智能算法的垃圾短信过滤方法。
技术介绍
众所周知,手机用户经常会遇到垃圾短信,往往给手机用户带来诸多不便。因此,需要将垃圾短信过滤掉。现有技术中,垃圾短信拦截策略相对单一,绝大多数垃圾短信过滤方法采用电话号码黑名单或垃圾词汇黑名单等形式来实现。现有技术的上述垃圾短信过滤方法的缺点是简单粗暴,容易导致误判现象的发生,且误判率较高。因此,需要提供一种基于智能算法的垃圾短信过滤方法。
技术实现思路
本专利技术的目的在于提供一种基于智能算法的垃圾短信过滤方法。为达到上述目的,本专利技术采用下述技术方案:一种基于智能算法的垃圾短信过滤方法,该垃圾短信过滤方法包括如下步骤:S1:获得原始短信样本中垃圾短信出现的概率和非垃圾短信出现的概率;S2:获得样本词汇集合;S3:对于样本词汇集合中的任意一个独立词汇,通过统计的方法分别计算得到该独立词汇在垃圾短信样本中出现的概率以及该独立词汇在非垃圾短信样本中出现的概率;S4:对于样本词汇集合中的任意一个独立词汇,利用贝叶斯公式计算得到包含该独立词汇的任意一条短信为垃圾短信的概率;S5:当任意一条待过滤短信中出现所述样本词汇集合中的多个独立词汇时,对于该条待过滤短信中每一个独立词汇,重复所述步骤S4,分别计算得到仅包含该独立词汇的任意一条短信为垃圾短信的概率,然后获得包含该独立词汇的任意一条短信为非垃圾短信的概率;S6:计算所述步骤S5得到的包含该条待过滤短信中每一个独立词汇的任意一条短信为垃圾短信的概率的乘积,得到该条待过滤短信为非垃圾短信 ...
【技术保护点】
一种基于智能算法的垃圾短信过滤方法,其特征在于,该垃圾短信过滤方法包括如下步骤:S1:获得原始短信样本中垃圾短信出现的概率和非垃圾短信出现的概率;S2:获得样本词汇集合;S3:对于样本词汇集合中的任意一个独立词汇,通过统计的方法分别计算得到该独立词汇在垃圾短信样本中出现的概率以及该独立词汇在非垃圾短信样本中出现的概率;S4:对于样本词汇集合中的任意一个独立词汇,利用贝叶斯公式计算得到包含该独立词汇的任意一条短信为垃圾短信的概率;S5:当任意一条待过滤短信中出现所述样本词汇集合中的多个独立词汇时,对于该条待过滤短信中每一个独立词汇,重复所述步骤S4,分别计算得到仅包含该独立词汇的任意一条短信为垃圾短信的概率,然后获得包含该独立词汇的任意一条短信为非垃圾短信的概率;S6:计算所述步骤S5得到的包含该条待过滤短信中每一个独立词汇的任意一条短信为垃圾短信的概率的乘积,得到该条待过滤短信为非垃圾短信的概率,然后获得该条待过滤短信为垃圾短信的概率。
【技术特征摘要】
1.一种基于智能算法的垃圾短信过滤方法,其特征在于,该垃圾短信过滤方法包括如下步骤:S1:获得原始短信样本中垃圾短信出现的概率和非垃圾短信出现的概率;S2:获得样本词汇集合;S3:对于样本词汇集合中的任意一个独立词汇,通过统计的方法分别计算得到该独立词汇在垃圾短信样本中出现的概率以及该独立词汇在非垃圾短信样本中出现的概率;S4:对于样本词汇集合中的任意一个独立词汇,利用贝叶斯公式计算得到包含该独立词汇的任意一条短信为垃圾短信的概率;S5:当任意一条待过滤短信中出现所述样本词汇集合中的多个独立词汇时,对于该条待过滤短信中每一个独立词汇,重复所述步骤S4,分别计算得到仅包含该独立词汇的任意一条短信为垃圾短信的概率,然后获得包含该独立词汇的任意一条短信为非垃圾短信的概率;S6:计算所述步骤S5得到的包含该条待过滤短信中每一个独立词汇的任意一条短信为垃圾短信的概率的乘积,得到该条待过滤短信为非垃圾短信的概率,然后获得该条待过滤短信为垃圾短信的概率。2.根据权利要求1所述的基于智能算法的垃圾短信过滤方法,其特征在于,所述垃圾短信过滤方法在所述步骤S6之后还包括如下步骤:S7:通过编码设定号码黑白名单、号码段黑名单以及基于行为的号码白名单,获得黑白名单库;S8:利用布隆过滤算法对黑白名单库进行信息压缩,并利用判别接口和删除接口对布隆过滤算法表进行操作,以实现对待过滤短信的判别和对黑白名单库的升级。3.根据权利要求1或2所述的基于智能算法的垃圾短信过滤方法,其特征在于,所述步骤S1为:获取原始短信样本,通过人工标记的方式将原始短信样本区分为垃圾短信样本和非垃圾短信样本,并通过统计的方法分别计算得到原始短信样本中垃圾短信出现的概率和非垃圾短信出现的概率。4.根据权利要求1或2所述的基于智能算法的垃圾短信过滤方法,其特征在于,所述步骤S2为:对垃圾短信样本和非垃圾短信样本进行分词,获得在垃圾短信样本和非垃圾短信样本之一中出现的所有...
【专利技术属性】
技术研发人员:李刚,
申请(专利权)人:深圳市新悦蓝图网络科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。