一种垃圾短信识别方法及装置制造方法及图纸

技术编号:21438995 阅读:57 留言:0更新日期:2019-06-22 14:07
本发明专利技术实施例提供一种垃圾短信识别方法及装置。所述方法包括:提取待识别短信中的多个关键词,并确定各关键词对应的属性,并根据待识别短信的各关键词、各关键词对应的属性以及预设样本短信数据库,生成目标样本短信数据库;按照预设模型计算目标样本短信数据库中包括的各关键词对应的多个特征参数;根据目标样本短信数据库中包括的各关键词对应的多个特征参数分别生成各关键词对应的特征向量,根据各关键词对应的特征向量建立随机二叉树,并根据随机二叉树计算待识别短信的异常分数,根据异常分数对所述待识别短信进行垃圾短信识别。所述装置用于执行上述方法。本发明专利技术提供的方法及装置提高了垃圾短信的识别效率。

【技术实现步骤摘要】
一种垃圾短信识别方法及装置
本专利技术实施例涉及通信
,尤其涉及一种垃圾短信识别方法及装置。
技术介绍
移动通信技术的不断发展之下,短信已经成为人们生活中不可或缺的工具之一,但伴随而来的垃圾短信泛滥,不但占用了电信运营商宝贵的网络资源,而且给人们的生活、工作带来了无尽的烦恼,因此对于垃圾短信进行识别方法的研究越来越受到人们的关注。现有技术条件下,垃圾短信识别方法主要包括以下三种:(1)短信通讯信任机制,也就是在用户双方进行短信通讯之前,双方必须明确对方身份并获得短信通信信任许可,才可以进行短信通讯;(2)关键词过滤技术,主要通过移动运营商SMSC确定关键词、建立关键词库以及垃圾短信关键词匹配规则,来识别短信是否为垃圾短信;(3)黑名单过滤技术,一般通过两种方式完成,一方面用户在手机上设置白名单与黑名单来进行短信过滤,另一方面,运营商通过SMSC系统来设置黑名单和白名单来进行短信过滤。但是,方法(1)对短信通讯带来了极大的不便,方法(2)以关键词匹配识别垃圾短信的方法误检率较高,而且事后增加关键词存在滞后性;方法(3)对黑白名单的处理数量有上限要求。综上所述,现有技术条件下的识别方法大大影响了垃圾短信的识别效率。因此,提出一种方法提高垃圾短信识别的效率是目前业界亟待解决的重要课题。
技术实现思路
针对现有技术中的缺陷,本专利技术实施例提供一种垃圾短信识别方法及装置。一方面,本专利技术实施例提供一种垃圾短信识别方法,包括:提取待识别短信中的多个关键词,并确定各所述关键词对应的属性,并根据所述待识别短信的各所述关键词、各所述关键词对应的属性以及预设样本短信数据库,生成目标样本短信数据库;所述预设样本短信数据库包括多个样本短信以及各样本短信中包括的多个关键词的属性;按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数;所述预设模型包括各所述特征参数对应的计算策略;根据所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数分别生成各所述关键词对应的特征向量,根据所述各关键词对应的特征向量建立随机二叉树,并根据所述随机二叉树计算所述待识别短信的异常分数,根据所述异常分数对所述待识别短信进行垃圾短信识别。另一方面,本专利技术实施例提供一种垃圾短信识别装置,包括:处理单元,用于提取待识别短信中的多个关键词,并确定各所述关键词对应的属性,并根据所述待识别短信的各所述关键词、各所述关键词对应的属性以及预设样本短信数据库,生成目标样本短信数据库;所述预设样本短信数据库包括多个样本短信以及各样本短信中包括的多个关键词的属性;计算单元,用于按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数;所述预设模型包括各所述特征参数对应的计算策略;识别单元,用于根据所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数分别生成各所述关键词对应的特征向量,根据所述各关键词对应的特征向量建立随机二叉树,并根据所述随机二叉树计算所述待识别短信的异常分数,根据所述异常分数对所述待识别短信进行垃圾短信识别。又一方面,本专利技术实施例提供一种电子设备,包括处理器、存储器和总线,其中:所述处理器,所述存储器通过总线完成相互间的通信;所述处理器可以调用存储器中的计算机程序,以执行上述方法的步骤。再一方面,本专利技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。本专利技术实施例提供的垃圾短信识别方法及装置,通过根据提取待识别短信中的多个关键词、各所述关键词对应的属性,以及预设样本短信数据库,生成目标样本短信数据库,并按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数,生成各所述关键词对应的特征向量,并根据各所述关键词对应的特征向量,建立随机二叉树,并根据所述随机二叉树计算所述待识别短信的异常分数,根据所述异常分数对所述待识别短信进行垃圾短信识别,提高了垃圾短信识别效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的垃圾短信识别方法的流程示意图;图2为本专利技术实施例提供的垃圾短信识别装置的结构示意图;图3为本专利技术实施例提供的电子设备实体装置结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术实施例提供的垃圾短信识别方法的流程示意图,如图1所示,本实施例提供一种垃圾短信识别方法,包括:S101、提取待识别短信中的多个关键词,并确定各所述关键词对应的属性,并根据所述待识别短信的各所述关键词、各所述关键词对应的属性以及预设样本短信数据库,生成目标样本短信数据库;所述预设样本短信数据库包括多个样本短信以及各样本短信中包括的多个关键词的属性;具体地,垃圾短信识别装置可以通过现有的分词方法(如统计语言模型)对所述待识别短信进行分词处理,得到多个词语,然后对所述多个词语进行清洗处理(如删除*、※等特殊字符,进行数字变换等),然后基于现有的语义识别技术,从所述多个词语中筛选可以用于表达语义的词语作为所述关键词。然后,所述装置分别确定各所述关键词对应的属性,例如,对于词性为名词的关键词,确定其属性为名词属性;对于词性为动词的关键词,确定其属性为动词属性;对于表示URL的关键词,确定其属性为链接属性;对于表示邮箱的关键词,确定其属性为邮箱属性;对于包括第一预设位数的数字的关键词,确定其属性为电话号码属性;对于包括第一预设位数的数字的关键词,确定其属性为卡号属性;当然还可以包括其他关键词属性的确定方式,具体可以根据实际情况进行设置和调整,此处不做具体限定。接着,所述装置将所述待识别短信作为新增的样本短信,将所述待识别短信的各所述关键词、各所述关键词对应的属性添加至所述预设样本短信数据库,生成目标样本短信数据库;其中,所述预设样本短信数据库包括多个样本短信以及各样本短信中包括的多个关键词的属性。S102、按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数;所述预设模型包括各所述特征参数对应的计算策略;具体地,所述装置按照预设模型计算所述目标样本短信数据库中包括的所述各关键词对应的多个特征参数。其中,所述预设模型包括各所述特征参数对应的计算策略;所述特征参数可以包括信誉度特征参数、位置特征参数、属性特征参数、第一距离特征参数、第二距离特征参数、关联特征参数,还可以包括其他特征参数,具体可以根据实际情况进行设置和调整,此处不做具体限定。S103、根据所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数分别生成各所述关键词对应的特征向量,根据所述各关键词对应的特征向量建立随机二叉树,并根据所述随机二叉树计算所述待识别短信本文档来自技高网...

【技术保护点】
1.一种垃圾短信识别方法,其特征在于,包括:提取待识别短信中的多个关键词,并确定各所述关键词对应的属性,并根据所述待识别短信的各所述关键词、各所述关键词对应的属性以及预设样本短信数据库,生成目标样本短信数据库;所述预设样本短信数据库包括多个样本短信以及各样本短信中包括的多个关键词的属性;按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数;所述预设模型包括各所述特征参数对应的计算策略;根据所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数分别生成各所述关键词对应的特征向量,根据所述各关键词对应的特征向量建立随机二叉树,并根据所述随机二叉树计算所述待识别短信的异常分数,根据所述异常分数对所述待识别短信进行垃圾短信识别。

【技术特征摘要】
1.一种垃圾短信识别方法,其特征在于,包括:提取待识别短信中的多个关键词,并确定各所述关键词对应的属性,并根据所述待识别短信的各所述关键词、各所述关键词对应的属性以及预设样本短信数据库,生成目标样本短信数据库;所述预设样本短信数据库包括多个样本短信以及各样本短信中包括的多个关键词的属性;按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数;所述预设模型包括各所述特征参数对应的计算策略;根据所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数分别生成各所述关键词对应的特征向量,根据所述各关键词对应的特征向量建立随机二叉树,并根据所述随机二叉树计算所述待识别短信的异常分数,根据所述异常分数对所述待识别短信进行垃圾短信识别。2.根据权利要求1所述的方法,其特征在于,所述按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数,包括:根据公式计算所述目标样本短信数据库中包括的第i个关键词的词频;其中,TFi为所述第i个关键词的词频,Pi为所述第i个关键词在所述目标样本短信数据库中出现的次数,P*为所述目标样本短信数据库中包括的全部关键词出现的总次数;根据公式:计算所述目标样本短信数据库中包括的第i个关键词的区分能力特征值;其中,TIi所述第i个关键词的区分能力特征值,TFi为所述第i个关键词的词频,ni为所述目标样本数据库中包括所述第i个关键词的短信的条数,N为所述目标样本数据库中包括的短信总条数,Wi为所述第i个关键词的属性对应的权重值;根据公式:计算所述目标样本短信数据库中包括的第i个关键词的信誉度特征参数;其中,Ai为所述第i个关键词的信誉度特征值,TIi为所述第i个关键词的区分能力特征值,TI*为所述目标样本数库中包括的全部关键词的区分能力特征值之和,Mi为所述第i个关键词在所述目标样本数据库中出现的总次数,Ui为与所述第i个关键词属性相同的关键词在所述目标样本数据库中出现的总次数。3.根据权利要求1所述的方法,其特征在于,所述按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数,包括:根据公式:计算所述目标样本短信数据库中包括的第i个关键词的位置特征参数;其中,Bi为所述第i个关键词的位置特征参数,Qi,j为在所述目标样本短信数据库的第j条短信中处于所述第i个关键词之前的字符个数,Zi,j为所述第j条短信中包括的字符的总个数,N为所述目标样本数据库中包括的短信总条数。4.根据权利要求1所述的方法,其特征在于,所述按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数,包括:根据公式:计算所述目标样本短信数据库中包括的第i个关键词的属性特征参数;其中,Xi,j为所述目标样本短信数据库的第j条短信中与所述第i个关键词属性相同的关键词的个数,Gi,j为所述第j条短信中包括的关键词总个数,N为所述目标样本数据库中包括的短信的总条数。5.根据权利要求1所述的方法,其特征在于,所述按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数,包括:根据公式:计算所述目标样本短信数据库中包括的第i个关键词的第一距离特征参数;其中,Di为所述第i个关键词的第一距离特征参数,Hi,j为在所述目标样本短信数...

【专利技术属性】
技术研发人员:白浩张永涛王静
申请(专利权)人:中国移动通信集团公司中国移动通信集团内蒙古有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1