一种垃圾短信的识别方法、装置和移动终端制造方法及图纸

技术编号:17779710 阅读:39 留言:0更新日期:2018-04-22 08:13
本发明专利技术公开了一种垃圾短信的识别方法、装置和移动终端,所述方法包括:获取终端设备接收到的待检测短信;根据预设分词词表对所述待检测短信进行最大匹配分词处理,得到待检测分词,所述预设分词词表中保存有预先根据训练短信进行分词处理的各个分词;通过将所述待检测分词输入到预先配置的短信识别模型进行分析,确定所述待检测短信是否为垃圾短信。通过上述方案,利用经过学习训练得到的短信识别模型,根据所有分词的整体分类情况识别整个短信的内容,来判断该短信是否是垃圾短信,有效提高垃圾短信识别的准确率,进而对垃圾短信进行全面的拦截处理。

【技术实现步骤摘要】
一种垃圾短信的识别方法、装置和移动终端
本专利技术涉及信息处理领域,特别是涉及一种垃圾短信的识别方法、装置和移动终端。
技术介绍
现在手机的垃圾短信越来越多,垃圾短信包括各种公司、网站的宣传内容,当人们查看短信时,需要从众多垃圾短信中寻找自己想要查看的短信内容,并且用户想要删除垃圾短信,还要对每个短信内容进行一一识别然后删除,给手机用户造成不便。目前,为了解决这种情况,开发出了各种拦截垃圾短信的拦截软件,这些拦截软件可以根据短信中包含的内容,参考包含敏感词汇和垃圾短信发送者号码的黑名单来判断短信是否为垃圾短信,一旦发现该短信是垃圾短信就会对其进行拦截。然而,这样有可能就会将带有敏感词汇的有用短信当做垃圾短信进行拦截,使用户不能及时获知短信的内容;还有可能出现无法拦截没有敏感词汇、或短信发送者不在黑名单内的垃圾短信,使垃圾短信被当做正常短信。因此,拦截软件无法将所有的垃圾短信识别出来,致使垃圾短信的拦截准确率降低,不方便用户使用。
技术实现思路
有鉴于此,本专利技术提供了一种垃圾短信的识别方法、装置和移动终端,主要目的在于可以解决拦截软件无法将所有的垃圾短信识别出来,致使垃圾短信的拦截准确率较低的问题。依据本专利技术第一方面,提供了一种垃圾短信的识别方法,包括:获取终端设备接收到的待检测短信;根据预设分词词表对所述待检测短信进行最大匹配分词处理,得到待检测分词,所述预设分词词表中保存有预先根据训练短信进行分词处理的各个分词;通过将所述待检测分词输入到预先配置的短信识别模型进行分析,确定所述待检测短信是否为垃圾短信。依据本专利技术第二方面,提供了一种垃圾短信的识别装置,包括:获取单元,用于获取终端设备接收到的待检测短信;分词单元,用于根据预设分词词表对所述待检测短信进行最大匹配分词处理,得到待检测分词,所述预设分词词表中保存有预先根据训练短信进行分词处理的各个分词;分析单元,用于通过将所述待检测分词输入到预先配置的短信识别模型进行分析,确定所述待检测短信是否为垃圾短信。依据本专利技术第三方面,提供了一种存储设备,其上存储有计算机程序,所述程序被处理器执行时实现第一方面所述的垃圾短信的识别方法。依据本专利技术第四方面,提供了一种移动终端,所述移动终端包括存储设备和处理器,所述存储设备,用于存储计算机程序;所述处理器,用于执行所述计算机程序以实现第一方面所述的垃圾短信的识别方法。借由上述技术方案,本专利技术提供的一种短信识别模型的获取方法、装置和移动终端,与参考包含敏感词汇和垃圾短信发送者号码的黑名单来判断短信是否为垃圾短信相比,本专利技术根据预设分词词表对待检测短信进行最大匹配分词处理,得到待检测分词,然后将待检测分词输入到预先配置的短信识别模型进行分析,确定该待检测短信是否为垃圾短信。通过上述方案,利用经过学习训练得到的短信识别模型,根据所有分词的整体分类情况识别整个短信的内容,来判断该短信是否是垃圾短信,有效提高垃圾短信识别的准确率,进而对垃圾短信进行全面的拦截处理。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本专利技术的垃圾短信的识别方法的一个实施例的流程图;图2示出了本专利技术的垃圾短信的识别方法的训练及检测过程示意图;图3示出了本专利技术的垃圾短信的识别方法的另一个实施例的流程图;图4示出了本专利技术的短信识别模型的训练过程示意图;图5示出了本专利技术的垃圾短信的识别装置的一个实施例的结构示意图;图6示出了本专利技术的垃圾短信的识别装置的另一个实施例的结构示意图;图7示出了本专利技术的移动终端的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。本专利技术的实施例提出了一种垃圾短信的识别方法,优选应用于客户端侧,也可以应用于服务器侧,利用经过学习训练得到的短信识别模型,根据所有分词的整体分类情况识别整个短信的内容,来判断该短信是否是垃圾短信,有效提高垃圾短信识别的准确率,进而对垃圾短信进行全面的拦截处理。如图1所示,本实施例的垃圾短信的识别方法,步骤包括:步骤101,获取终端设备接收到的待检测短信。对于本实施例的执行主体可以为用于垃圾短信识别的装置,可以配置在客户端侧,相应的垃圾短信识别的触发条件是可以由客户端侧检测到终端设备接收到未知短信,需要对该未知短信进行垃圾短信识别时触发垃圾短信识别操作,在客户端本地进行垃圾短信识别;该装置还可以配置在服务器侧,由客户端上传终端设备接收到的未知短信至服务器,在服务器中利用本装置进行垃圾短信识别;此外,还可以由用户根据垃圾短信识别的实际业务需求主动向该装置输入相应的指令,对指定的短信进行垃圾短信识别等。步骤102,根据预设分词词表对待检测短信进行最大匹配分词处理,得到待检测分词。其中,预设分词词表中保存有预先根据训练短信进行分词处理的各个分词。对于本实施例,预设分词词表中的分词处理过程需要使用分词模型,该分词模型的学习训练过程会占用较多的存储空间,因此可以不在客户端侧进行,在服务器中分词处理完毕并生成预设分词词表后下发到客户端侧。在上述技术方案中,终端设备中预先存储有按照各个分词的比划数或首字母顺序进行排序的预设分词词表,将待检测短信的文字内容按照最大匹配分词算法,与预设分词词表中存储的各个分词进行查找比对,从预设分词词表中查找与待检测短信的文字内容相对应的分词,并将该分词按照文字内容的顺序进行排列形成待检测分词,并保存在临时文件库中。其中,最大匹配分词算法包括:正向最大匹配算法、或者逆向最大匹配算法、或者双向匹配算法等。步骤103,通过将待检测分词输入到预先配置的短信识别模型进行分析,确定待检测短信是否为垃圾短信。在上述技术方案中,从临时文件库中提取待检测分词,然后将该待检测分词输入短信识别模型中,利用短信识别模型对每个分词进行识别分类,然后根据每个分词的类别,以及各个分词之间的语义关系,对该待检测短信的整体内容进行综合判断,进而确定该待检测短信是否是垃圾短信。其中,短信识别模型是利用模型训练算法,将大量的训练短信经过学习训练之后得到的。当确定接收的待检测短信为垃圾短信后,将该垃圾短信放入拦截短信中,或者将该垃圾短信放入用户终端的垃圾箱中,或者将该垃圾短信进行彻底删除。另外,短信识别模型并不限于对待检测短信的识别,还可以识别一些即时通讯软件中发送的一些即时消息,或者各个网站推送的广告宣传消息。如图3所示,在服务器中利用海量日志进行学习训练得到一个词典文件(即预设分词词表),该文件是基于全局的一个分析利用信息增益、交叉熵的算法计算得到最具有显著区分性的词。利用这些词,服务器对大规模的训练短信进行分词,根据分词特征本文档来自技高网...
一种垃圾短信的识别方法、装置和移动终端

【技术保护点】
一种垃圾短信的识别方法,其特征在于,包括:获取终端设备接收到的待检测短信;根据预设分词词表对所述待检测短信进行最大匹配分词处理,得到待检测分词,所述预设分词词表中保存有预先根据训练短信进行分词处理的各个分词;通过将所述待检测分词输入到预先配置的短信识别模型进行分析,确定所述待检测短信是否为垃圾短信。

【技术特征摘要】
1.一种垃圾短信的识别方法,其特征在于,包括:获取终端设备接收到的待检测短信;根据预设分词词表对所述待检测短信进行最大匹配分词处理,得到待检测分词,所述预设分词词表中保存有预先根据训练短信进行分词处理的各个分词;通过将所述待检测分词输入到预先配置的短信识别模型进行分析,确定所述待检测短信是否为垃圾短信。2.根据权利要求1所述的方法,其特征在于,所述根据预设分词词表对所述待检测短信进行最大匹配分词处理,得到待检测分词之前,所述方法还包括:对获取的训练短信利用条件随机算法进行分词处理得到第一分词集,并根据所述第一分词集建立预设分词词表;根据所述预设分词词表对所述训练短信进行最大匹配分词处理,得到第二分词集;将所述第二分词集利用向量分类算法进行训练,得到短信识别模型。3.根据权利要求2所述的方法,其特征在于,根据所述预设分词词表对所述训练短信进行最大匹配分词处理,得到第二分词集,具体包括:获取训练短信对应的发送者号码;将所述发送者号码划分为个人号码和非个人号码;根据所述预设分词词表,分别对所述个人号码的训练短信和所述非个人号码的训练短信进行最大匹配分词处理,得到个人号码训练分词集和非个人号码训练分词集。4.根据权利要求3所述的方法,其特征在于,将所述第二分词集利用向量分类算法进行训练,得到短信识别模型,具体包括:将所述个人号码训练分词集利用向量分类算法进行训练,得到个人号码短信识别模型;及将所述非个人号码训练分词集利用向量分类算法进行训练,得到非个人号码短信识别模型;将所述个人号码短信识别模型和非个人号码短信识别模型进行组合作为短信识别模型。5.根据权利要求2所述的方法,其特征在于,根据所述第一分词集建立预设分词词表,具体包括:利用信息增益算法对所述第一分词集进行降维处理;根据降维处理结...

【专利技术属性】
技术研发人员:郭祥李强周楠
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1