【技术实现步骤摘要】
一种垃圾短信的拦截方法和拦截装置
本申请涉及短信
,尤其涉及一种垃圾短信的拦截方法和拦截装置。
技术介绍
随着通讯业务的发展,手机的普及和短信的资费的下降,用户使用短信传递信息越来越多。但是,用户接收广告短信、诈骗短信等垃圾短信的次数也越来越多,垃圾短信越来越泛滥。垃圾短信的泛滥已经严重影响到用户对短信使用的感受,甚至超出了用户的忍受限度,因此,针对垃圾短信进行治理已经刻不容缓。目前,垃圾短信的拦截方式为基于神经网络模型进行拦截,即根据大量的垃圾短信样本和非垃圾短信样本训练一个神经网络模型,然后利用训练出来的神经网络模型对垃圾短信进行分类识别,对识别出的垃圾短信进行拦截。但是,当遇到垃圾短信的未知变种时,基于神经网络模型的拦截方法的拦截率会降低。例如,垃圾短信的发送者会根据垃圾短信发送的成功与否情况,更改部分文字,文字顺序,采用拼接字、合体字、同音字、同型字等等手段迷惑欺骗基于神经网络模型的拦截系统。
技术实现思路
本申请提供一种垃圾短信的拦截方法,可以提高垃圾短信的拦截成功率。r>第一方面,本申请本文档来自技高网...
【技术保护点】
1.一种垃圾短信的拦截方法,其特征在于,包括:/n步骤一:获取第一垃圾短信样本库,所述第一垃圾短信样本库中的垃圾短信划分为T个类别,所述T类别中第T
【技术特征摘要】
1.一种垃圾短信的拦截方法,其特征在于,包括:
步骤一:获取第一垃圾短信样本库,所述第一垃圾短信样本库中的垃圾短信划分为T个类别,所述T类别中第Ti个类别的垃圾短信划分为Mi个簇,Ti为小于或等于T的正整数,Mi为正整数;
步骤二:获取嫌疑垃圾短信样本库,所述嫌疑垃圾短信样本库中的嫌疑垃圾短信样本的类别属于所述T个类别;
步骤三:计算所述嫌疑垃圾短信样本库中的每个嫌疑垃圾短信样本与所述第一垃圾短信样本库中与所述每个嫌疑垃圾短信样本中属于同一类别的垃圾短信的相似度,根据计算得到的所述相似度确定所述每个嫌疑垃圾短信样本的簇为所述每个嫌疑垃圾短信样本所属的类别中的第一簇,将所述嫌疑垃圾短信样本加入所述第一垃圾短信样本库中的所述第一簇中,得到第二垃圾短信样本库;
步骤四:判断所述第二垃圾短信样本库中的每个类别中的簇的数量是否小于或等于簇数量阈值且每个簇中的垃圾短信之间的最小相似度高于或等于相似度阈值;
步骤五:若所述第二垃圾短信样本库中的任意一个类别中的簇的数量大于簇数量阈值或任意一个簇中的垃圾短信之间的最小相似度小于相似度阈值,则判断计算所述每个嫌疑垃圾短信样本所属的所述第一簇的迭代次数是否小于或等于次数阈值;
步骤六:若所述迭代次数小于或等于所述次数阈值,则从所述第二垃圾短信样本库中获取第一子库和第二子库,所述第一子库包括所述第二垃圾短信样本库中指定类别中权值小的P个簇中的垃圾短信样本和指定簇中的垃圾短信样本,所述指定类别为T个类别中簇的数量大于簇数量阈值的类别,所述P个簇包括指定类别中除前数量阈值个簇以外的簇,所述指定簇是指垃圾短信之间的最小相似度小于所述相似度阈值的簇,所述第一子库中的每个垃圾短信样本的类别更新为垃圾短信分类模型分类得到的类别,所述第二子库包括第二垃圾短信样本库中除第一子库以外的垃圾短信样本;
步骤七:将所述嫌疑垃圾短信样本库更新为所述第一子库,将所述第一垃圾短信样本库更新为所述第二子库,重新从步骤三开始执行;
步骤八:若所述第二垃圾短信样本库中的任意一个类别中的簇的数量小于或等于所述簇数量阈值且任意一个簇中的垃圾短信之间的最小相似度大于或等于所述相似度阈值,或者,若所述迭代次数大于所述次数阈值,则从所述第二垃圾短信样本库中提取目标簇中的垃圾短信样本,得到垃圾短信负样本,所述目标簇是指包含至少两个垃圾短信样本的簇;
步骤九:在所述垃圾短信负样本中加入正常短信正样本,得到训练样本;
步骤十:使用所述训练样本对神经网络模型进行训练,得到更新后的分类模型;
步骤十一:基于所述更新后的分类模型进行垃圾短信拦截。
2.根据权利要求1所述的方法,其特征在于,所述嫌疑垃圾短信样本库中包括以下至少一种:垃圾短信分类模型输出的垃圾短信样本,用户投诉的垃圾短信样本或者管理员添加的垃圾短信样本。
3.根据权利要求1所述的方法,其特征在于,所述计算所述嫌疑垃圾短信样本库中的每个嫌疑垃圾短信样本与所述第一垃圾短信样本库中与所述每个嫌疑垃圾短信样本属于同一类别的垃圾短信的相似度,根据计算得到的相似度确定所述每个嫌疑垃圾短信样本的簇为所述每个嫌疑垃圾短信样本所属的类别中的第一簇,将所述嫌疑垃圾短信样本加入所述第一垃圾短信样本库中的所述第一簇中,得到第二垃圾短信样本库,包括:
如果所述嫌疑垃圾短信样本库中的每个嫌疑垃圾短信样本与所述第一垃圾短信样本库中的同一所述类别属性的任意一个垃圾短信样本的相似度不大于K,所述每个嫌疑垃圾短信样本所属的所述第一簇为新增加的单独的一个簇,将所述嫌疑垃圾短信样本加入所述第一垃圾短信样本库中的所述第一簇中,得到第二垃圾短信样本库;
如果所述嫌疑垃圾短信样本库中的每个嫌疑垃圾短信样本与所述第一垃圾短信样本库中的同一所述类别属性的一个垃圾短信样本的相似度大于K,所述每个嫌疑垃圾短信样本所属的所述第一簇为的所述一个垃圾短信样本所属的簇,将所述嫌疑垃圾短信样本加入所述第一垃圾短信样本库中的所述第一簇中,得到第二垃圾短信样本库;
所述K为大于0的自然数。
4.根据权利要求1至3中任一项所述的方法,其特征在于,使用所述训练样本对神经网络模型进行训练,得到更新后的分类模型之后,还可以包括:
若当前用于训练的所述目标簇的个数大于所述簇数量阈值,将K值减小。
5.一种垃圾短信的拦截装置...
【专利技术属性】
技术研发人员:李根,贲卫国,王扬,郭超,黄鹏,王科峰,于波,宋微,刘佳,
申请(专利权)人:中国联合网络通信集团有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。