【技术实现步骤摘要】
一种垃圾短信识别方法及装置
本专利技术实施例涉及通信
,尤其涉及一种垃圾短信识别方法及装置。
技术介绍
移动通信技术的不断发展之下,短信已经成为人们生活中不可或缺的工具之一,但伴随而来的垃圾短信泛滥,不但占用了电信运营商宝贵的网络资源,而且给人们的生活、工作带来了无尽的烦恼,因此对于垃圾短信进行识别方法的研究越来越受到人们的关注。现有技术条件下,垃圾短信识别方法主要包括以下三种:(1)短信通讯信任机制,也就是在用户双方进行短信通讯之前,双方必须明确对方身份并获得短信通信信任许可,才可以进行短信通讯;(2)关键词过滤技术,主要通过移动运营商SMSC确定关键词、建立关键词库以及垃圾短信关键词匹配规则,来识别短信是否为垃圾短信;(3)黑名单过滤技术,一般通过两种方式完成,一方面用户在手机上设置白名单与黑名单来进行短信过滤,另一方面,运营商通过SMSC系统来设置黑名单和白名单来进行短信过滤。但是,方法(1)对短信通讯带来了极大的不便,方法(2)以关键词匹配识别垃圾短信的方法误检率较高,而且事后增加关键词存在滞后性;方法(3)对黑白名单的处理数量有上限要求。综上所述,现有技术条件下的识别方法大大影响了垃圾短信的识别效率。因此,提出一种方法提高垃圾短信识别的效率是目前业界亟待解决的重要课题。
技术实现思路
针对现有技术中的缺陷,本专利技术实施例提供一种垃圾短信识别方法及装置。一方面,本专利技术实施例提供一种垃圾短信识别方法,包括:提取待识别短信中的多个关键词,并确定各所述关键词对应的属性,并根据所述待识别短信的各所述关键词、各所述关键词对应的属性以及预设样本短信数据 ...
【技术保护点】
1.一种垃圾短信识别方法,其特征在于,包括:提取待识别短信中的多个关键词,并确定各所述关键词对应的属性,并根据所述待识别短信的各所述关键词、各所述关键词对应的属性以及预设样本短信数据库,生成目标样本短信数据库;所述预设样本短信数据库包括多个样本短信以及各样本短信中包括的多个关键词的属性;按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数;所述预设模型包括各所述特征参数对应的计算策略;根据所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数分别生成各所述关键词对应的特征向量,根据所述各关键词对应的特征向量建立随机二叉树,并根据所述随机二叉树计算所述待识别短信的异常分数,根据所述异常分数对所述待识别短信进行垃圾短信识别。
【技术特征摘要】
1.一种垃圾短信识别方法,其特征在于,包括:提取待识别短信中的多个关键词,并确定各所述关键词对应的属性,并根据所述待识别短信的各所述关键词、各所述关键词对应的属性以及预设样本短信数据库,生成目标样本短信数据库;所述预设样本短信数据库包括多个样本短信以及各样本短信中包括的多个关键词的属性;按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数;所述预设模型包括各所述特征参数对应的计算策略;根据所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数分别生成各所述关键词对应的特征向量,根据所述各关键词对应的特征向量建立随机二叉树,并根据所述随机二叉树计算所述待识别短信的异常分数,根据所述异常分数对所述待识别短信进行垃圾短信识别。2.根据权利要求1所述的方法,其特征在于,所述按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数,包括:根据公式计算所述目标样本短信数据库中包括的第i个关键词的词频;其中,TFi为所述第i个关键词的词频,Pi为所述第i个关键词在所述目标样本短信数据库中出现的次数,P*为所述目标样本短信数据库中包括的全部关键词出现的总次数;根据公式:计算所述目标样本短信数据库中包括的第i个关键词的区分能力特征值;其中,TIi所述第i个关键词的区分能力特征值,TFi为所述第i个关键词的词频,ni为所述目标样本数据库中包括所述第i个关键词的短信的条数,N为所述目标样本数据库中包括的短信总条数,Wi为所述第i个关键词的属性对应的权重值;根据公式:计算所述目标样本短信数据库中包括的第i个关键词的信誉度特征参数;其中,Ai为所述第i个关键词的信誉度特征值,TIi为所述第i个关键词的区分能力特征值,TI*为所述目标样本数库中包括的全部关键词的区分能力特征值之和,Mi为所述第i个关键词在所述目标样本数据库中出现的总次数,Ui为与所述第i个关键词属性相同的关键词在所述目标样本数据库中出现的总次数。3.根据权利要求1所述的方法,其特征在于,所述按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数,包括:根据公式:计算所述目标样本短信数据库中包括的第i个关键词的位置特征参数;其中,Bi为所述第i个关键词的位置特征参数,Qi,j为在所述目标样本短信数据库的第j条短信中处于所述第i个关键词之前的字符个数,Zi,j为所述第j条短信中包括的字符的总个数,N为所述目标样本数据库中包括的短信总条数。4.根据权利要求1所述的方法,其特征在于,所述按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数,包括:根据公式:计算所述目标样本短信数据库中包括的第i个关键词的属性特征参数;其中,Xi,j为所述目标样本短信数据库的第j条短信中与所述第i个关键词属性相同的关键词的个数,Gi,j为所述第j条短信中包括的关键词总个数,N为所述目标样本数据库中包括的短信的总条数。5.根据权利要求1所述的方法,其特征在于,所述按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数,包括:根据公式:计算所述目标样本短信数据库中包括的第i个关键词的第一距离特征参数;其中,Di为所述第i个关键词的第一距离特征参数,Hi,j为在所述目标样本短信数...
【专利技术属性】
技术研发人员:白浩,张永涛,王静,
申请(专利权)人:中国移动通信集团公司,中国移动通信集团内蒙古有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。