一种基于智能算法的垃圾短信过滤方法技术

技术编号:16191090 阅读:20 留言:0更新日期:2017-09-12 12:42
本发明专利技术公开一种基于智能算法的垃圾短信过滤方法,包括如下步骤:获取原始短信样本;获得样本词汇集合;对于样本词汇集合中的任意一个独立词汇,分别计算得到该独立词汇在垃圾短信样本和非垃圾短信样本中出现的概率;对于样本词汇集合中的任意一个独立词汇,计算得到包含该独立词汇的任意一条短信为垃圾短信的概率;当任意一条待过滤短信中出现样本词汇集合中的多个独立词汇时,对于该条待过滤短信中每一个独立词汇,获得包含该独立词汇的任意一条短信为非垃圾短信的概率;得到该条待过滤短信为垃圾短信的概率;获得黑白名单库;实现对待过滤短信的判别和对黑白名单库的升级。所述垃圾短信过滤方法能够提高垃圾短信过滤的准确性。

A spam filtering method based on Intelligent Algorithm

The invention discloses a spam filtering method based on intelligent algorithm, which comprises the following steps: obtaining the original text sample; sample collection for any sample of vocabulary; vocabulary set an independent vocabulary, are calculated by the probability of independent vocabulary in spam samples and non spam messages appear in the sample; for any sample of vocabulary set in a separate vocabulary, obtained at any of the independent vocabulary contains a message for the probability of spam messages; when any one appears to be filtered SMS sample set in a vocabulary independent vocabulary, for the message to be filtered in each independent vocabulary, including the independent free the vocabulary of a message for the probability of non spam messages; get the message to be filtered into the probability of spam messages; get blacklist library to realize; The discrimination of filtered SMS and the upgrade of black and white list library. The garbage short message filtering method can improve the accuracy of garbage short message filtering.

【技术实现步骤摘要】
一种基于智能算法的垃圾短信过滤方法
本专利技术涉及软件信息安全
更具体地,涉及一种基于智能算法的垃圾短信过滤方法。
技术介绍
众所周知,手机用户经常会遇到垃圾短信,往往给手机用户带来诸多不便。因此,需要将垃圾短信过滤掉。现有技术中,垃圾短信拦截策略相对单一,绝大多数垃圾短信过滤方法采用电话号码黑名单或垃圾词汇黑名单等形式来实现。现有技术的上述垃圾短信过滤方法的缺点是简单粗暴,容易导致误判现象的发生,且误判率较高。因此,需要提供一种基于智能算法的垃圾短信过滤方法。
技术实现思路
本专利技术的目的在于提供一种基于智能算法的垃圾短信过滤方法。为达到上述目的,本专利技术采用下述技术方案:一种基于智能算法的垃圾短信过滤方法,该垃圾短信过滤方法包括如下步骤:S1:获得原始短信样本中垃圾短信出现的概率和非垃圾短信出现的概率;S2:获得样本词汇集合;S3:对于样本词汇集合中的任意一个独立词汇,通过统计的方法分别计算得到该独立词汇在垃圾短信样本中出现的概率以及该独立词汇在非垃圾短信样本中出现的概率;S4:对于样本词汇集合中的任意一个独立词汇,利用贝叶斯公式计算得到包含该独立词汇的任意一条短信为垃圾短信的概率;S5:当任意一条待过滤短信中出现所述样本词汇集合中的多个独立词汇时,对于该条待过滤短信中每一个独立词汇,重复所述步骤S4,分别计算得到仅包含该独立词汇的任意一条短信为垃圾短信的概率,然后获得包含该独立词汇的任意一条短信为非垃圾短信的概率;S6:计算所述步骤S5得到的包含该条待过滤短信中每一个独立词汇的任意一条短信为垃圾短信的概率的乘积,得到该条待过滤短信为非垃圾短信的概率,然后获得该条待过滤短信为垃圾短信的概率。优选地,所述垃圾短信过滤方法在所述步骤S6之后还包括如下步骤:S7:通过编码设定号码黑白名单、号码段黑名单以及基于行为的号码白名单,获得黑白名单库;S8:利用布隆过滤算法对黑白名单库进行信息压缩,并利用判别接口和删除接口对布隆过滤算法表进行操作,以实现对待过滤短信的判别和对黑白名单库的升级。进一步优选地,所述步骤S1为:获取原始短信样本,通过人工标记的方式将原始短信样本区分为垃圾短信样本和非垃圾短信样本,并通过统计的方法分别计算得到原始短信样本中垃圾短信出现的概率和非垃圾短信出现的概率。进一步优选地,所述步骤S2为:对垃圾短信样本和非垃圾短信样本进行分词,获得在垃圾短信样本和非垃圾短信样本之一中出现的所有独立词汇,且在垃圾短信样本和非垃圾短信样本之一中出现的所有独立词汇构成样本词汇集合。进一步优选地,所述贝叶斯公式为:其中,P(S|W)为包含该独立词汇W的任意一条短信为垃圾短信的概率;P(W|S)为样本词汇集合J中的任意一个独立词汇W在垃圾短信样本S中出现的概率;P(W|H)为样本词汇集合J中的任意一个独立词汇W在非垃圾短信样本H中出现的概率;P(S)为原始短信样本中垃圾短信出现的概率;P(H)为原始短信样本中非垃圾短信出现的概率。进一步优选地,所述黑白名单库包括号码黑白名单、号码段黑名单和基于行为的号码白名单。更进一步优选地,所述号码黑白名单为:将已有的发送短信的号码库中的角色进行收集并设置成号码黑白名单,其中诈骗和广告推销类为黑名单,快递和市政类为白名单;所述号码段黑名单为:对广告营销类专用号码段进行垃圾短信概率权限增加,针对1069广告营销类短信通道进行更低阈值的垃圾短信判别;所述基于行为的号码白名单为:将用户本机联系人、用户主动去电号码、用户主动发送短信号码、以及用户主动回复短信号码设置为基于行为的号码白名单。更进一步优选地,对于基于行为的号码白名单中的任意一条短信,无需利用贝叶斯公式计算该条短信为垃圾短信的概率,直接将该条短信判定为非垃圾短信。进一步优选地,所述步骤S1中,利用搜索引擎获取所述原始短信样本。进一步优选地,所述步骤S7中,用户解锁开始使用手机后更新所述黑白名单库。本专利技术的有益效果如下:与现有技术相比,本专利技术的所述垃圾短信过滤方法首次将贝叶斯公式引入垃圾短信过滤中,结合综合性的策略整合,从而能够实现对垃圾短信的智能过滤,避免误判现象的发生,提高垃圾短信过滤的准确性。附图说明下面结合附图对本专利技术的具体实施方式作进一步详细的说明。图1为本专利技术实施例提供的基于智能算法的垃圾短信过滤方法的流程图;图2为本专利技术另一实施例提供的基于智能算法的垃圾短信过滤方法的流程图。具体实施方式为了更清楚地说明本专利技术,下面结合优选实施例和附图对本专利技术做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解,下面所具体描述的内容是说明性的而非限制性的,不应以此限制本专利技术的保护范围。如图1所示,本专利技术一个实施例提供的基于智能算法的垃圾短信过滤方法包括如下步骤:S1:获得原始短信样本中垃圾短信出现的概率和非垃圾短信出现的概率;该步骤进一步为:获取原始短信样本,通过人工标记的方式将原始短信样本区分为垃圾短信样本S和非垃圾短信样本H,并通过统计的方法分别计算得到原始短信样本中垃圾短信出现的概率P(S)和非垃圾短信出现的概率P(H);例如,获取的原始短信样本包含10万条短信,通过人工标记的方式将原始短信样本区分为垃圾短信样本S和非垃圾短信样本H,其中垃圾短信样本S包含1万条短信,非垃圾短信样本H包含其余的9万条短信,通过统计的方法分别计算得到原始短信样本中垃圾短信出现的概率P(S)为10%,以及原始短信样本中非垃圾短信出现的概率P(H)为90%;S2:获得样本词汇集合;该步骤进一步为:对垃圾短信样本S和非垃圾短信样本H进行分词,获得在垃圾短信样本S和非垃圾短信样本H之一中出现的所有独立词汇,且在垃圾短信样本S和非垃圾短信样本H之一中出现的所有独立词汇构成样本词汇集合J;S3:对于样本词汇集合J中的任意一个独立词汇W,通过统计的方法分别计算得到该独立词汇W在垃圾短信样本S中出现的概率P(W|S)以及该独立词汇W在非垃圾短信样本H中出现的概率P(W|H);例如,如果上述垃圾短信样本中的100条短信出现了独立词汇“发票”,通过统计的方法计算得到独立词汇“发票”在垃圾短信样本S中出现的概率P(W|S)为1%;如果上述非垃圾短信样本中的90条短信出现了独立词汇“发票”,通过统计的方法计算得到独立词汇“发票”在非垃圾短信样本H中出现的概率P(W|H)为0.1%;S4:对于样本词汇集合J中的任意一个独立词汇W,利用贝叶斯公式计算得到包含该独立词汇W的任意一条短信为垃圾短信的概率;上述贝叶斯公式为:公式(1);公式(1)中,P(S|W)为包含该独立词汇W的任意一条短信为垃圾短信的概率;P(W|S)为样本词汇集合J中的任意一个独立词汇W在垃圾短信样本S中出现的概率;P(W|H)为样本词汇集合J中的任意一个独立词汇W在非垃圾短信样本H中出现的概率;P(S)为原始短信样本中垃圾短信出现的概率;P(H)为原始短信样本中非垃圾短信出现的概率;例如,利用贝叶斯公式计算得到待过滤短信中任意一条包含独立词汇“发票”的短信为垃圾短信的概率为52%;S5:当任意一条待过滤短信A中出现上述样本词汇集合J中的多个独立词汇时,对于该条待过滤短信A中每一个独立词汇Wi,其中i为该条待过滤短信A中独立词汇的个数,重复本文档来自技高网...
一种基于智能算法的垃圾短信过滤方法

【技术保护点】
一种基于智能算法的垃圾短信过滤方法,其特征在于,该垃圾短信过滤方法包括如下步骤:S1:获得原始短信样本中垃圾短信出现的概率和非垃圾短信出现的概率;S2:获得样本词汇集合;S3:对于样本词汇集合中的任意一个独立词汇,通过统计的方法分别计算得到该独立词汇在垃圾短信样本中出现的概率以及该独立词汇在非垃圾短信样本中出现的概率;S4:对于样本词汇集合中的任意一个独立词汇,利用贝叶斯公式计算得到包含该独立词汇的任意一条短信为垃圾短信的概率;S5:当任意一条待过滤短信中出现所述样本词汇集合中的多个独立词汇时,对于该条待过滤短信中每一个独立词汇,重复所述步骤S4,分别计算得到仅包含该独立词汇的任意一条短信为垃圾短信的概率,然后获得包含该独立词汇的任意一条短信为非垃圾短信的概率;S6:计算所述步骤S5得到的包含该条待过滤短信中每一个独立词汇的任意一条短信为垃圾短信的概率的乘积,得到该条待过滤短信为非垃圾短信的概率,然后获得该条待过滤短信为垃圾短信的概率。

【技术特征摘要】
1.一种基于智能算法的垃圾短信过滤方法,其特征在于,该垃圾短信过滤方法包括如下步骤:S1:获得原始短信样本中垃圾短信出现的概率和非垃圾短信出现的概率;S2:获得样本词汇集合;S3:对于样本词汇集合中的任意一个独立词汇,通过统计的方法分别计算得到该独立词汇在垃圾短信样本中出现的概率以及该独立词汇在非垃圾短信样本中出现的概率;S4:对于样本词汇集合中的任意一个独立词汇,利用贝叶斯公式计算得到包含该独立词汇的任意一条短信为垃圾短信的概率;S5:当任意一条待过滤短信中出现所述样本词汇集合中的多个独立词汇时,对于该条待过滤短信中每一个独立词汇,重复所述步骤S4,分别计算得到仅包含该独立词汇的任意一条短信为垃圾短信的概率,然后获得包含该独立词汇的任意一条短信为非垃圾短信的概率;S6:计算所述步骤S5得到的包含该条待过滤短信中每一个独立词汇的任意一条短信为垃圾短信的概率的乘积,得到该条待过滤短信为非垃圾短信的概率,然后获得该条待过滤短信为垃圾短信的概率。2.根据权利要求1所述的基于智能算法的垃圾短信过滤方法,其特征在于,所述垃圾短信过滤方法在所述步骤S6之后还包括如下步骤:S7:通过编码设定号码黑白名单、号码段黑名单以及基于行为的号码白名单,获得黑白名单库;S8:利用布隆过滤算法对黑白名单库进行信息压缩,并利用判别接口和删除接口对布隆过滤算法表进行操作,以实现对待过滤短信的判别和对黑白名单库的升级。3.根据权利要求1或2所述的基于智能算法的垃圾短信过滤方法,其特征在于,所述步骤S1为:获取原始短信样本,通过人工标记的方式将原始短信样本区分为垃圾短信样本和非垃圾短信样本,并通过统计的方法分别计算得到原始短信样本中垃圾短信出现的概率和非垃圾短信出现的概率。4.根据权利要求1或2所述的基于智能算法的垃圾短信过滤方法,其特征在于,所述步骤S2为:对垃圾短信样本和非垃圾短信样本进行分词,获得在垃圾短信样本和非垃圾短信样本之一中出现的所有...

【专利技术属性】
技术研发人员:李刚
申请(专利权)人:深圳市新悦蓝图网络科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1