一种短信类型识别方法、系统及短信管理平台技术方案

技术编号:15555124 阅读:97 留言:0更新日期:2017-06-08 16:10
本申请公开了一种短信类型识别方法,包括:获取待检测短信;提取待检测短信中的特征词,并为每个特征词分配相应的权重,得到与待检测短信对应的目标特征向量;分别计算目标特征向量与预先创建的正常短信特征模型向量和垃圾短信特征模型向量之间相似度,得到相应的第一相似度和第二相似度;其中,正常短信特征模型向量为对预先获取的历史正常短信集进行学习训练后得到的向量,垃圾短信特征模型向量为对预先获取的历史垃圾短信集进行学习训练后得到的向量;利用第一相似度和第二相似度,确定出待检测短信的短信类型。本申请能够对短信类型进行有效地识别。另外,本申请还公开了一种短信类型识别系统以及短信管理平台。

Short message type identification method, system and short message management platform

The invention discloses a message type identification method, including: obtaining the detected text; extracting feature word message to the test, and assign the appropriate weights for each feature, and to get feature vector corresponding to the detection message; calculated the similarity between the target vector and the previously created normal SMS feature vector model spam messages and feature model vector, get the corresponding first and second similarity similarity; the normal vector is obtained for the SMS feature vector model was trained on the pre acquisition history of normal SMS, SMS spam feature model for vector vector is obtained by training on the history of spam messages obtained beforehand by the first set; second similarity and similarity, determine the message type to be detected by sms. This application can effectively identify SMS types. In addition, the utility model also discloses a short message type identification system and a short message management platform.

【技术实现步骤摘要】

本专利技术涉及短信管理
,特别涉及一种短信类型识别方法、系统及短信管理平台
技术介绍
当前,随着短信业务的发展,手机用户受到越来越多垃圾短信的骚扰。非法短信、骚扰短信、欺诈短信以及各类垃圾短信大行其道。根据手机短消息状况调查报告显示,用户平均每周收到垃圾短信11.4条,收到垃圾短消息占全部短消息的比例为22.6%。垃圾短消息治理刻不容缓,治理好垃圾短信成为运营商提高通信服务质量的关键所在。一般地,垃圾短信的具有如下两个特征:第一,垃圾短信发送者和接受者之间不存在社会网络联系,第二,内容相同或相似的短信在短时间内达到一定的发送量。然而,由于物流、金融等正常短信虽然并不群发,但由于用户数量众多,造成其短时间内发送量巨大,使得上述两特点都难以被短信服务供应商用于反垃圾短信。如何对短信类型进行有效识别是目前亟待解决的问题。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种短信类型识别方法、系统及短信管理平台,能够对短信类型进行有效地识别。其具体方案如下:一种短信类型识别方法,包括:获取待检测短信;提取所述待检测短信中的特征词,并为每个特征词分配相应的权重,得到与所述待检测短信对应的目标特征向量;分别计算所述目标特征向量与预先创建的正常短信特征模型向量和垃圾短信特征模型向量之间相似度,得到相应的第一相似度和第二相似度;其中,所述正常短信特征模型向量为对预先获取的历史正常短信集进行学习训练后得到的向量,所述垃圾短信特征模型向量为对预先获取的历史垃圾短信集进行学习训练后得到的向量;利用所述第一相似度和所述第二相似度,确定出所述待检测短信的短信类型。可选的,所述正常短信特征模型向量的创建过程,包括:对所述历史正常短信集中的每一正常短信均进行分词处理以及过滤停用词,得到与所述历史正常短信集对应的第一分词集;其中,所述第一分词集中包括N个分词包,N值与所述历史正常短信集中的短信数量相一致,每个分词包中包括至少一个分词;为所述第一分词集的每个分词包中的每个分词分配相应的权重,得到第一赋权分词集;利用信息增益方法,对所述第一赋权分词集中的冗余分词进行过滤,得到相应的第一特征词集;利用所述第一特征词集以及所述第一特征词集中所反映的短信ID、分词和权重之间的映射关系,构造相对应的稀疏矩阵,得到第一稀疏矩阵;分别对所述第一稀疏矩阵中的每一维度进行算术平均,得到所述正常短信特征模型向量。可选的,所述为所述第一分词集的每个分词包中的每个分词分配相应的权重的过程,包括:结合所述历史正常短信集中每一正常短信的短信发送方和/或预先获取到的正常短信关键词和/或词频和/或逆文档频率,计算所述第一分词集中每个分词对应的权重,并将得到的各个权重分配给相应的分词。可选的,所述垃圾短信特征模型向量的创建过程,包括:对所述历史垃圾短信集中的每一垃圾短信均进行分词处理以及过滤停用词,得到与所述历史垃圾短信集对应的第二分词集;其中,所述第二分词集中包括M个分词包,M值与所述历史垃圾短信集中的短信数量相一致,每个分词包中包括至少一个分词;为所述第二分词集的每个分词包中的每个分词分配相应的权重,得到第二赋权分词集;利用信息增益方法,对所述第二赋权分词集中的冗余分词进行过滤,得到相应的第二特征词集;利用所述第二特征词集以及所述第二特征词集中所反映的短信ID、分词和权重之间的映射关系,构造相对应的稀疏矩阵,得到第二稀疏矩阵;分别对所述第二稀疏矩阵中的每一维度进行算术平均,得到所述垃圾短信特征模型向量。可选的,所述利用所述第一相似度和所述第二相似度,确定出所述待检测短信的短信类型的过程,包括:判断所述第一相似度是否大于所述第二相似度,如果是,则确定所述待检测短信的短信类型为正常短信,如果否,则确定所述待检测短信的短信类型为垃圾短信。可选的,所述利用所述第一相似度和所述第二相似度,确定出所述待检测短信的短信类型的过程,包括:计算所述第一相似度与所述第二相似度之间的差的绝对值,得到相似度差值;判断所述相似度差值是否大于预设阈值;若所述相似度差值大于所述预设阈值,则判断所述第一相似度是否大于所述第二相似度,如果是,则确定所述待检测短信的短信类型为正常短信,如果否,则确定所述待检测短信的短信类型为垃圾短信;若所述相似度差值小于或等于所述预设阈值,则禁止对所述待检测短信进行类型识别。本专利技术还相应公开了一种短信类型识别系统,包括:第一获取模块,用于获取待检测短信;第一向量创建模块,用于提取所述待检测短信中的特征词,并为每个特征词分配相应的权重,得到与所述待检测短信对应的目标特征向量;第二向量创建模块,用于预先创建正常短信特征模型向量;其中,所述正常短信特征模型向量为对预先获取的历史正常短信集进行学习训练后得到的向量;第三向量创建模块,用于预先创建垃圾短信特征模型向量;其中,所述垃圾短信特征模型向量为对预先获取的历史垃圾短信集进行学习训练后得到的向量;相似度计算模块,用于分别计算所述目标特征向量与所述正常短信特征模型向量和所述垃圾短信特征模型向量之间相似度,得到相应的第一相似度和第二相似度;类型确定模块,用于利用所述第一相似度和所述第二相似度,确定出所述待检测短信的短信类型。可选的,所述第二向量创建模块,包括:第一分词单元,用于对所述历史正常短信集中的每一正常短信均进行分词处理以及过滤停用词,得到与所述历史正常短信集对应的第一分词集;其中,所述第一分词集中包括N个分词包,N值与所述历史正常短信集中的短信数量相一致,每个分词包中包括至少一个分词;第一权重分配单元,用于为所述第一分词集的每个分词包中的每个分词分配相应的权重,得到第一赋权分词集;第一过滤单元,用于利用信息增益方法,对所述第一赋权分词集中的冗余分词进行过滤,得到相应的第一特征词集;第一矩阵构造单元,用于利用所述第一特征词集以及所述第一特征词集中所反映的短信ID、分词和权重之间的映射关系,构造相对应的稀疏矩阵,得到第一稀疏矩阵;第一向量创建单元,用于分别对所述第一稀疏矩阵中的每一维度进行算术平均,得到所述正常短信特征模型向量。可选的,所述第三向量创建模块,包括:第二分词单元,用于对所述历史垃圾短信集中的每一垃圾短信均进行分词处理以及过滤停用词,得到与所述历史垃圾短信集对应的第二分词集;其中,所述第二分词集中包括M个分词包,M值与所述历史垃圾短信集中的短信数量相一致,每个分词包中包括至少一个分词;第二权重分配单元,用于为所述第二分词集的每个分词包中的每个分词分配相应的权重,得到第二赋权分词集;第二过滤单元,用于利用信息增益方法,对所述第二赋权分词集中的冗余分词进行过滤,得到相应的第二特征词集;第二矩阵构造单元,用于利用所述第二特征词集以及所述第二特征词集中所反映的短信ID、分词和权重之间的映射关系,构造相对应的稀疏矩阵,得到第二稀疏矩阵;第二向量创建单元,用于分别对所述第二稀疏矩阵中的每一维度进行算术平均,得到所述垃圾短信特征模型向量。本专利技术进一步公开了一种短信管理平台,包括前述公开的短信类型识别系统。本专利技术中,短信类型识别方法,包括:获取待检测短信;提取待检测短信中的特征词,并为每个特征词分配相应的权重,得到与待检测短信对应的目标特征向量;分别计算目标特征向量与预先创建的正常短信特征模型向量和垃圾短信特本文档来自技高网...
一种短信类型识别方法、系统及短信管理平台

【技术保护点】
一种短信类型识别方法,其特征在于,包括:获取待检测短信;提取所述待检测短信中的特征词,并为每个特征词分配相应的权重,得到与所述待检测短信对应的目标特征向量;分别计算所述目标特征向量与预先创建的正常短信特征模型向量和垃圾短信特征模型向量之间相似度,得到相应的第一相似度和第二相似度;其中,所述正常短信特征模型向量为对预先获取的历史正常短信集进行学习训练后得到的向量,所述垃圾短信特征模型向量为对预先获取的历史垃圾短信集进行学习训练后得到的向量;利用所述第一相似度和所述第二相似度,确定出所述待检测短信的短信类型。

【技术特征摘要】
1.一种短信类型识别方法,其特征在于,包括:获取待检测短信;提取所述待检测短信中的特征词,并为每个特征词分配相应的权重,得到与所述待检测短信对应的目标特征向量;分别计算所述目标特征向量与预先创建的正常短信特征模型向量和垃圾短信特征模型向量之间相似度,得到相应的第一相似度和第二相似度;其中,所述正常短信特征模型向量为对预先获取的历史正常短信集进行学习训练后得到的向量,所述垃圾短信特征模型向量为对预先获取的历史垃圾短信集进行学习训练后得到的向量;利用所述第一相似度和所述第二相似度,确定出所述待检测短信的短信类型。2.根据权利要求1所述的短信类型识别方法,其特征在于,所述正常短信特征模型向量的创建过程,包括:对所述历史正常短信集中的每一正常短信均进行分词处理以及过滤停用词,得到与所述历史正常短信集对应的第一分词集;其中,所述第一分词集中包括N个分词包,N值与所述历史正常短信集中的短信数量相一致,每个分词包中包括至少一个分词;为所述第一分词集的每个分词包中的每个分词分配相应的权重,得到第一赋权分词集;利用信息增益方法,对所述第一赋权分词集中的冗余分词进行过滤,得到相应的第一特征词集;利用所述第一特征词集以及所述第一特征词集中所反映的短信ID、分词和权重之间的映射关系,构造相对应的稀疏矩阵,得到第一稀疏矩阵;分别对所述第一稀疏矩阵中的每一维度进行算术平均,得到所述正常短信特征模型向量。3.根据权利要求2所述的短信类型识别方法,其特征在于,所述为所述第一分词集的每个分词包中的每个分词分配相应的权重的过程,包括:结合所述历史正常短信集中每一正常短信的短信发送方和/或预先获取到的正常短信关键词和/或词频和/或逆文档频率,计算所述第一分词集中每个分词对应的权重,并将得到的各个权重分配给相应的分词。4.根据权利要求1所述的短信类型识别方法,其特征在于,所述垃圾短信特征模型向量的创建过程,包括:对所述历史垃圾短信集中的每一垃圾短信均进行分词处理以及过滤停用词,得到与所述历史垃圾短信集对应的第二分词集;其中,所述第二分词集中包括M个分词包,M值与所述历史垃圾短信集中的短信数量相一致,每个分词包中包括至少一个分词;为所述第二分词集的每个分词包中的每个分词分配相应的权重,得到第二赋权分词集;利用信息增益方法,对所述第二赋权分词集中的冗余分词进行过滤,得到相应的第二特征词集;利用所述第二特征词集以及所述第二特征词集中所反映的短信ID、分词和权重之间的映射关系,构造相对应的稀疏矩阵,得到第二稀疏矩阵;分别对所述第二稀疏矩阵中的每一维度进行算术平均,得到所述垃圾短信特征模型向量。5.根据权利要求1至4任一项所述的短信类型识别方法,其特征在于,所述利用所述第一相似度和所述第二相似度,确定出所述待检测短信的短信类型的过程,包括:判断所述第一相似度是否大于所述第二相似度,如果是,则确定所述待检测短信的短信类型为正常短信,如果否,则确定所述待检测短信的短信类型为垃圾短信。6.根据权利要求1至4任一项所述的短信类型识别方法,其特征在于,所述利用所述第一相似度和所述第二相似度,确定出所述待检测短信的短信类型的过程,包括:计算所述第一相似度与所述第...

【专利技术属性】
技术研发人员:姚铎夏天高小勇苗路平
申请(专利权)人:上海大汉三通通信股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1