一种对短信进行分类的方法、装置、通信终端及服务器制造方法及图纸

技术编号:14557870 阅读:92 留言:0更新日期:2017-02-05 12:18
本发明专利技术公开了一种对短信进行分类的方法、装置、通信终端及服务器,该方法包括:对目标短信进行分词,获得所述目标短信的至少一个分词;获得所述至少一个分词的至少一个词向量,及根据所述至少一个词向量及语料词矩阵生成所述目标短信的短信词向量;根据所述至少一个分词获得所述目标短信所属的主题向量;根据所述至少一个分词、所述短信词向量、所述主题向量对所述目标短信进行分类,获得所述目标短信所属的第一类型,由此解决了现有技术中仅根据分词进行分类导致的分类结果精确度较低的技术问题,达到了提高分类结果精确度的技术效果。

Method, device, communication terminal and server for classifying short message

The invention discloses a classification method, message device, communication terminal and server, the method comprises the following steps: segmentation of the target text, at least one word acquire the target text; at least one word vector obtained by the at least one word, and according to the at least one word vector and the word matrix generates the target message word vector; vector according to the theme of the at least one word for the target message belongs; according to the at least one word, the text word vector, the theme vector of the target text classification, the first type the target text belongs to, which solves the technical problem of word segmentation based only on the low accuracy in the classification, in order to improve the accuracy of the classification results of technical effect.

【技术实现步骤摘要】

本专利技术涉及通信
,尤其涉及一种对短信进行分类的方法、装置、通信终端及服务器
技术介绍
随着科学技术的不断发展,电子技术也得到了飞速的发展,电子产品的种类也越来越多,人们也享受到了科技发展带来的各种便利。现在人们可以通过各种类型的移动终端,享受随着科技发展带来的舒适生活。例如,智能手机、已经成为人们生活中一个重要的组成部分,用户可以使用智能手机打电话、收发短信等,实现随时随地快速通信。短信由于其具有短小精要、成本低廉等优点被人们广泛的使用,也正因为它使用的广泛和成本低廉常被广告商、不法分子等所利用。人们常常会收到诸多垃圾短信,如:诈骗短信、广告短信、骚扰短信等等。为了避免这些对用户来说无用设置有害的垃圾短信对用户造成困扰,现有技术会对用户目标短信进行分类,然后将属于垃圾短信的这类短信以及用户标记的不想收到的短信进行拦截。现有技术中,对短信进行分类时,通常是先对短信进行分词,然后将分词输入分类模型中进行分类,这种仅根据分词进行分类的方式仅从分词层面上考虑短信的特征属性,导致其分类结果存在精确度较低的技术问题。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种对短信进行分类的方法、装置、通信终端及服务器。本专利技术的一个方面,提供了一种对短信进行分类的方法,包括:对目标短信进行分词,获得所述目标短信的至少一个分词;获得所述至少一个分词的至少一个词向量,及根据所述至少一个词向量及语料词矩阵生成所述目标短信的短信词向量;根据所述至少一个分词获得所述目标短信所属的主题向量;根据所述至少一个分词、所述短信词向量、所述主题向量对所述目标短信进行分类,获得所述目标短信所属的第一类型。可选的,所述获得所述至少一个分词的至少一个词向量,及根据所述至少一个词向量及语料词矩阵生成所述目标短信的短信词向量,包括:分别将所述至少一个分词中各分词输入词向量工具获得所述至少一个词向量;将所述至少一个词向量中所有词向量及所述语料词矩阵相乘获得所述短信词向量。可选的,根据所述至少一个分词获得所述目标短信所述的主题向量,包括:将所述至少一个分词中的所有分词输入语义主题生成模型获得所述主题向量。可选的,根据所述至少一个分词、所述短信词向量、所述主题向量对所述目标短信进行分类,获得所述目标短信所属的第一类型,包括:将所述至少一个分词中的每个分词作为一个第一特征,所述短信词向量作为第二特征,所述主题向量作为第三特征;将所有所述第一特征、所述第二特征及所述第三特征组合成一特征矩阵;将所述特征矩阵输入短信分类模型对所述目标短信进行分类,获得所述目标短信所属的第一类型。可选的于,所述短信分类模型通过如下方法获得:采用预置的短信分类规则,构造多分类的短信分类模型,其中,所述短信分类模型中的各个参数依据短信的属性特征进行设置,所述属性特征包括短信的分词、词向量及主题向量;获取多种类别的短信,其中,每种类别的短信包含多条;将所述多种类别的短信作为训练样本对所述短信分类模型进行训练,计算所述短信分类模型中的各个参数,得到训练后的短信分类模型。可选的,所述将所述多种类别的短信作为训练样本对所述短信分类模型进行训练,包括:根据所述多种类别的短信内容获得属性特征;将提取的属性特征和对应的短信类别输入所述短信分类模型进行训练。可选的,在所述根据所述至少一个分词、所述短信词向量、所述主题向量对所述目标短信进行分类,获得所述目标短信所属的第一类型后,所述方法还包括:判断所述第一类型是否为垃圾短信中的一种类型;若所述第一类型是垃圾短信中的一种类型,将所述目标短信标记为所述第一类型,并执行将所述目标短信作为拦截对象进行拦截的操作。可选的,若所述第一类型不是垃圾短信中的一种类型,所述方法还包括:获得用户对所述目标短信进行标记的第二类型;判断所述第二类型是否与所述第一类型相同;若所述第二类型与所述第一类型不相同,将所述目标短信标记为所述第二类型,并将所述目标短信作为所述第二类型的训练样本更新所述短信训练模型。可选的,若所述第一类型是垃圾短信中的一种类型,所述方法还包括:获得发送所述目标短信的电话号码;建立所述目标短信所属的第一类型与所述电话号码之间的对应关系,并保存所述对应关系至预置数据库。可选的,若所述目标短信所属的第一类型不是所述垃圾短信中的一种类型,所述目标短信的发送方为陌生联系人,所述方法还包括:获得发送所述目标短信的电话号码;对所述电话号码的归属地和/或地区编码号段进行解析;若所述电话号码的归属地和/或地区编码号段与短信接收机主当前所在地和/或所述当前所在地的地区编码号段不相同,则执行将所述目标短信作为拦截对象进行拦截的操作;或者,若在所述短信接收机主的通信录中不存在与所述电话号码的归属地和/或地区编码号段相同的联系电话,则执行将所述目标短信作为拦截对象进行拦截的操作。本专利技术的另一个方面,提供一种对短信进行分类的装置,包括:分词模块,用于对目标短信进行分词,获得所述目标短信的至少一个分词;词向量获取模块,用于获得所述至少一个分词的至少一个词向量,及根据所述至少一个词向量及语料词矩阵生成所述目标短信的短信词向量;主题向量获取模块,用于根据所述至少一个分词获得所述目标短信所属的主题向量;分类模块,用于根据所述至少一个分词、所述短信词向量、所述主题向量对所述目标短信进行分类,获得所述目标短信所属的第一类型。可选的,所述词向量获取模块用于:分别将所述至少一个分词中各分词输入词向量工具获得所述至少一个词向量;将所述至少一个词向量中所有词向量及所述语料词矩阵相乘获得所述短信词向量。可选的,所述主题向量获取模块,用于:将所述至少一个分词中的所有分词输入语义主题生成模型获得所述主题向量。可选的,所述分类模块,包括:组合子模块,用于将所述至少一个分词中的每个分词作为一个第一特征,所述短信词向量作为第二特征,所述主题向量作为第三特征;将所有所述第一特征、所述第二特征及所述第三特征组合成一特征矩阵;输入子模块,用于将所述特征矩阵输入短信分类模型对所述目标短信进行分类,获得所述目标短信所属的第一类型。可选的,通过如下所述装置还包括:分类训练模块,用于采用预置的短信分类规则,构造多分类的短信分类模型,其中,所述短信分类模型中的各个参数依据短信的属性特征进行设置,所述属性特征包括短信的分词、词向量及主...

【技术保护点】
一种对短信进行分类的方法,其特征在于,包括:对目标短信进行分词,获得所述目标短信的至少一个分词;获得所述至少一个分词的至少一个词向量,及根据所述至少一个词向量及语料词矩阵生成所述目标短信的短信词向量;根据所述至少一个分词获得所述目标短信所属的主题向量;根据所述至少一个分词、所述短信词向量、所述主题向量对所述目标短信进行分类,获得所述目标短信所属的第一类型。

【技术特征摘要】
1.一种对短信进行分类的方法,其特征在于,包括:
对目标短信进行分词,获得所述目标短信的至少一个分词;
获得所述至少一个分词的至少一个词向量,及根据所述至少一个词向量及
语料词矩阵生成所述目标短信的短信词向量;
根据所述至少一个分词获得所述目标短信所属的主题向量;
根据所述至少一个分词、所述短信词向量、所述主题向量对所述目标短信
进行分类,获得所述目标短信所属的第一类型。
2.如权利要求1所述的方法,其特征在于,所述获得所述至少一个分词
的至少一个词向量,及根据所述至少一个词向量及语料词矩阵生成所述目标短
信的短信词向量,包括:
分别将所述至少一个分词中各分词输入词向量工具获得所述至少一个词
向量;
将所述至少一个词向量中所有词向量及所述语料词矩阵相乘获得所述短
信词向量。
3.如权利要求1所述的方法,其特征在于,根据所述至少一个分词获得
所述目标短信所述的主题向量,包括:
将所述至少一个分词中的所有分词输入语义主题生成模型获得所述主题
向量。
4.如权利要求1所述的方法,其特征在于,根据所述至少一个分词、所
述短信词向量、所述主题向量对所述目标短信进行分类,获得所述目标短信所
属的第一类型,包括:
将所述至少一个分词中的每个分词作为一个第一特征,所述短信词向量作
为第二特征,所述主题向量作为第三特征;
将所有所述第一特征、所述第二特征及所述第三特征组合成一特征矩阵;
将所述特征矩阵输入短信分类模型对所述目标短信进行分类,获得所述目
标短信所属的第一类型。
5.如权利要求4所述的方法,其特征在于,所述短信分类模型通过如下
方法获得:
采用预置的短信分类规则,构造多分类的短信分类模型,其中,...

【专利技术属性】
技术研发人员:张金晶常富洋李强
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1