The invention discloses a message type identification method, including: obtaining the detected text; extracting feature word message to the test, and assign the appropriate weights for each feature, and to get feature vector corresponding to the detection message; calculated the similarity between the target vector and the previously created normal SMS feature vector model spam messages and feature model vector, get the corresponding first and second similarity similarity; the normal vector is obtained for the SMS feature vector model was trained on the pre acquisition history of normal SMS, SMS spam feature model for vector vector is obtained by training on the history of spam messages obtained beforehand by the first set; second similarity and similarity, determine the message type to be detected by sms. This application can effectively identify SMS types. In addition, the utility model also discloses a short message type identification system and a short message management platform.
【技术实现步骤摘要】
本专利技术涉及短信管理
,特别涉及一种短信类型识别方法、系统及短信管理平台。
技术介绍
当前,随着短信业务的发展,手机用户受到越来越多垃圾短信的骚扰。非法短信、骚扰短信、欺诈短信以及各类垃圾短信大行其道。根据手机短消息状况调查报告显示,用户平均每周收到垃圾短信11.4条,收到垃圾短消息占全部短消息的比例为22.6%。垃圾短消息治理刻不容缓,治理好垃圾短信成为运营商提高通信服务质量的关键所在。一般地,垃圾短信的具有如下两个特征:第一,垃圾短信发送者和接受者之间不存在社会网络联系,第二,内容相同或相似的短信在短时间内达到一定的发送量。然而,由于物流、金融等正常短信虽然并不群发,但由于用户数量众多,造成其短时间内发送量巨大,使得上述两特点都难以被短信服务供应商用于反垃圾短信。如何对短信类型进行有效识别是目前亟待解决的问题。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种短信类型识别方法、系统及短信管理平台,能够对短信类型进行有效地识别。其具体方案如下:一种短信类型识别方法,包括:获取待检测短信;提取所述待检测短信中的特征词,并为每个特征词分配相应的权重,得到与所述待检测短信对应的目标特征向量;分别计算所述目标特征向量与预先创建的正常短信特征模型向量和垃圾短信特征模型向量之间相似度,得到相应的第一相似度和第二相似度;其中,所述正常短信特征模型向量为对预先获取的历史正常短信集进行学习训练后得到的向量,所述垃圾短信特征模型向量为对预先获取的历史垃圾短信集进行学习训练后得到的向量;利用所述第一相似度和所述第二相似度,确定出所述待检测短信的短信类型。可选的,所述 ...
【技术保护点】
一种短信类型识别方法,其特征在于,包括:获取待检测短信;提取所述待检测短信中的特征词,并为每个特征词分配相应的权重,得到与所述待检测短信对应的目标特征向量;分别计算所述目标特征向量与预先创建的正常短信特征模型向量和垃圾短信特征模型向量之间相似度,得到相应的第一相似度和第二相似度;其中,所述正常短信特征模型向量为对预先获取的历史正常短信集进行学习训练后得到的向量,所述垃圾短信特征模型向量为对预先获取的历史垃圾短信集进行学习训练后得到的向量;利用所述第一相似度和所述第二相似度,确定出所述待检测短信的短信类型。
【技术特征摘要】
1.一种短信类型识别方法,其特征在于,包括:获取待检测短信;提取所述待检测短信中的特征词,并为每个特征词分配相应的权重,得到与所述待检测短信对应的目标特征向量;分别计算所述目标特征向量与预先创建的正常短信特征模型向量和垃圾短信特征模型向量之间相似度,得到相应的第一相似度和第二相似度;其中,所述正常短信特征模型向量为对预先获取的历史正常短信集进行学习训练后得到的向量,所述垃圾短信特征模型向量为对预先获取的历史垃圾短信集进行学习训练后得到的向量;利用所述第一相似度和所述第二相似度,确定出所述待检测短信的短信类型。2.根据权利要求1所述的短信类型识别方法,其特征在于,所述正常短信特征模型向量的创建过程,包括:对所述历史正常短信集中的每一正常短信均进行分词处理以及过滤停用词,得到与所述历史正常短信集对应的第一分词集;其中,所述第一分词集中包括N个分词包,N值与所述历史正常短信集中的短信数量相一致,每个分词包中包括至少一个分词;为所述第一分词集的每个分词包中的每个分词分配相应的权重,得到第一赋权分词集;利用信息增益方法,对所述第一赋权分词集中的冗余分词进行过滤,得到相应的第一特征词集;利用所述第一特征词集以及所述第一特征词集中所反映的短信ID、分词和权重之间的映射关系,构造相对应的稀疏矩阵,得到第一稀疏矩阵;分别对所述第一稀疏矩阵中的每一维度进行算术平均,得到所述正常短信特征模型向量。3.根据权利要求2所述的短信类型识别方法,其特征在于,所述为所述第一分词集的每个分词包中的每个分词分配相应的权重的过程,包括:结合所述历史正常短信集中每一正常短信的短信发送方和/或预先获取到的正常短信关键词和/或词频和/或逆文档频率,计算所述第一分词集中每个分词对应的权重,并将得到的各个权重分配给相应的分词。4.根据权利要求1所述的短信类型识别方法,其特征在于,所述垃圾短信特征模型向量的创建过程,包括:对所述历史垃圾短信集中的每一垃圾短信均进行分词处理以及过滤停用词,得到与所述历史垃圾短信集对应的第二分词集;其中,所述第二分词集中包括M个分词包,M值与所述历史垃圾短信集中的短信数量相一致,每个分词包中包括至少一个分词;为所述第二分词集的每个分词包中的每个分词分配相应的权重,得到第二赋权分词集;利用信息增益方法,对所述第二赋权分词集中的冗余分词进行过滤,得到相应的第二特征词集;利用所述第二特征词集以及所述第二特征词集中所反映的短信ID、分词和权重之间的映射关系,构造相对应的稀疏矩阵,得到第二稀疏矩阵;分别对所述第二稀疏矩阵中的每一维度进行算术平均,得到所述垃圾短信特征模型向量。5.根据权利要求1至4任一项所述的短信类型识别方法,其特征在于,所述利用所述第一相似度和所述第二相似度,确定出所述待检测短信的短信类型的过程,包括:判断所述第一相似度是否大于所述第二相似度,如果是,则确定所述待检测短信的短信类型为正常短信,如果否,则确定所述待检测短信的短信类型为垃圾短信。6.根据权利要求1至4任一项所述的短信类型识别方法,其特征在于,所述利用所述第一相似度和所述第二相似度,确定出所述待检测短信的短信类型的过程,包括:计算所述第一相似度与所述第...
【专利技术属性】
技术研发人员:姚铎,夏天,高小勇,苗路平,
申请(专利权)人:上海大汉三通通信股份有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。