一种垃圾短信检测方法及装置制造方法及图纸

技术编号:13457530 阅读:34 留言:0更新日期:2016-08-03 15:23
本发明专利技术实施例提供一种垃圾短信检测方法及装置,涉及信息处理领域,用于提高垃圾短信检测的准确性和效率。该方法包括:获取当前训练时间窗内的训练样本流,其中,当前训练时间窗内的训练样本流根据当前短信时间窗的上一短信时间窗内的短信流获得;提取当前训练时间窗内的训练样本流的特征信息,该特征信息包括短信发送特征和短信内容特征,其中,该特征信息包含至少一个特征参数;基于特征信息对当前训练时间窗内的训练样本流进行训练分类,以获取正常短信和垃圾短信对应的至少一个特征参数的参数值;基于至少一个特征参数的参数值对当前短信时间窗内的短信流进行分类判断,以确定当前短信时间窗内短信流中的垃圾短信。

【技术实现步骤摘要】

本专利技术涉及信息处理领域,尤其涉及一种垃圾短信检测方法及装置
技术介绍
随着通讯技术的快速发展,手机的使用越来越广泛,其中,使用手机进行短信发送,已成为用户沟通联系的重要方式。但是,垃圾短信的出现,也给用户造成了很大的困扰,一些不法分子利用短信散布广告、谣言,或者进行诈骗等,严重影响了用户的生活。目前,针对垃圾短信的检测方法有多种,有基于短信的内容特征检测的,比如,关键字匹配和文本分类过滤等,也有基于短信的发送者检测的,比如基于黑白名单和发送频率过滤等。但是,这些检测方法都或多或少的存在一定的缺陷,比如基于关键字匹配的方法,该方法与预设的词库容量有关,若预设的词库容量较大,则会影响检测的速度,若预设的词库容量较小,又会产生漏检测的情况,其中,在对短信内容进行预处理和分词时会耗费一定的时间,且其检测结果也会出现误差,从而检测准确度和检测效率有限。
技术实现思路
本专利技术的实施例提供一种垃圾短信检测方法及装置,用于提高垃圾短信检测的准确性和效率。为达到上述目的,本专利技术的实施例采用如下技术方案:第一方面,提供一种垃圾短信检测方法,所述方法包括:获取当前训练时间窗内的训练样本流,其中,所述当前训练时间窗内的训练样本流根据当前短信时间窗的上一短信时间窗内的短信流获得;提取所述当前训练时间窗内的训练样本流的特征信息,所述特征信息包括短信发送特征和短信内容特征,其中,所述特征信息包含至少一个特征参数;基于所述特征信息对所述当前训练时间窗内的训练样本流进行训练分类,以获取正常短信和垃圾短信对应的所述至少一个特征参数的参数值;基于所述至少一个特征参数的参数值对当前短信时间窗内的短信流进行分类判断,以确定所述当前短信时间窗内短信流中的垃圾短信。其中,训练时间窗用于表示训练样本流在时间方向上的宽度大小,短信时间窗用于表示短信流在时间方向上的宽度大小,且该训练时间窗和短信时间窗的宽度大小相等,都可以通过参数来表示,m为训练时间窗和短信时间窗的最小值,单位可以为时间单位,比如分钟、秒等,是可变的,用于动态调整训练时间窗或短信时间窗的大小,且另外,短信时间窗是随着时间实时性的进行滑动,也即是,短信时间窗是实时的进行更新的;当前训练时间窗与上一训练时间窗的时间间隔为m,即训练时间窗每隔m的时间长度进行一次更新。再者,短信发送特征包括的特征参数为发送次数、被叫个数、发送失败率和短信内容的长度方差等;短信内容特征是指用于描述短信发送者发送的短信内容的特征,该短信内容特征可以是指对短信内容进行预处理、语义翻译和分词处理之后,提取的各个分词的最大频繁项集。结合第一方面,在第一方面的第一种可能的实现方式中,所述基于至少一个特征参数的参数值对当前短信时间窗内的短信流进行分类判断,包括:对所述当前短信时间窗内的短信流进行特征信息提取;基于所述当前短信时间窗内的短信流的特征信息和所述至少一个特征参数的参数值,对所述当前短信时间窗内的短信流进行分类判断。结合第一方面或者第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,所述方法还包括:当接收到终端发送的反馈短信时,将所述反馈短信确定为垃圾短信;将所述当前短信时间窗内的短信流中,与所述反馈短信属于同一发送者的短信、以及与所述反馈短信的内容长度相同的短信标记为垃圾短信。其中,当短信服务器将短信时间窗内的短信流中的短信发送到用户的终端之后,若该用户将接收的短信标记为垃圾短信,终端可以向短信服务器发送反馈短信;或者,当该用户将接收的短信标记为垃圾短信时,短信服务器可以对终端进行检测,若检测到发送的短信被用户标记为垃圾短信,短信服务器将该短信确定为垃圾短信。另外,基于反馈短信对当前短信时间窗内的短信流中短信进行垃圾的操作可以是周期性的,比如,该周期可以是m,当然,在实际应用中,该周期也可以为其他,本专利技术对此不作限定。结合第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,所述基于至少一个特征参数的参数值对当前短信时间窗内的短信流进行分类判断,以确定所述当前时间窗内短信流中的垃圾短信之后,还包括:将所述当前短信时间窗内第一预设长度的短信流中的垃圾短信进行标记;拦截所述当前短信时间窗内第一预设长度的短信流中的垃圾短信,并向所述垃圾短信的发送者发送错误消息;将所述当前短信时间窗内第一预设长度的短信流中未被标记的短信确定为正常短信,以及发送所述正常短信。其中,第一预设长度的大小可以为m,且第一预设长度内的短信为最晚进入当前短信时间窗内的短信流中的短信。结合第一方面在第一方面的第四种可能的实现方式中,所述方法还包括:在经过预设时间后,将所述当前短信时间窗内第二预设长度的短信流中的正常短信进行标记;将所述当前短信时间窗内第二预设长度的短信流更新到当前训练时间窗的下一训练时间窗内的训练样本流中,以及将所述下一训练时间窗内第二预设长度的训练样本流进行删除。其中,该预设时间可以是m,也即是,训练时间窗进行一次更新的时间长度。另外,第二预设长度的大小可以为也即是,当前短信时间窗内除第一预设长度之外的长度,且当前短信时间窗内第二预设长度的短信流是指最早进入短信流中的短信。结合第一方面的第四种可能的实现方式,在第一方面的第五种可能的实现方式中,所述将所述当前短信时间窗内第二预设长度的短信流更新到当前训练时间窗的下一训练时间窗内的训练样本流中,还包括:当所述当前短信时间窗内第二预设长度的短信流中存在已进行更新的短信时,则将所述已进行更新的短信不更新到当前训练时间窗的下一训练时间窗内的训练样本流中。第二方面,提供一种垃圾短信检测装置,所述装置包括:获取单元,用于获取当前训练时间窗内的训练样本流,其中,所述当前训练时间窗内的训练样本流根据当前短信时间窗的上一短信时间窗内的短信流获得;提取单元,用于提取所述当前训练时间窗内的训练样本流的特征信息,所述特征信息包括短信发送特征和短信内容特征,其中,所述特征信息包含至少一个特征参数;训练单元,用于基于所述特征信息对所述当前训练时间窗内的训练样本流进行训练分类,以获取正常短信和垃圾短信对应的所述至少一个特征参数的参数值;判断单元,用于基于所述至少一个特征参数的参数值对当前短信时间窗内的短信流进行分类判断,以确定所述当前短信时间窗内短信流中的垃...

【技术保护点】
一种垃圾短信检测方法,其特征在于,所述方法包括:获取当前训练时间窗内的训练样本流,其中,所述当前训练时间窗内的训练样本流根据当前短信时间窗的上一短信时间窗内的短信流获得;提取所述当前训练时间窗内的训练样本流的特征信息,所述特征信息包括短信发送特征和短信内容特征,其中,所述特征信息包含至少一个特征参数;基于所述特征信息对所述当前训练时间窗内的训练样本流进行训练分类,以获取正常短信和垃圾短信对应的所述至少一个特征参数的参数值;基于所述至少一个特征参数的参数值对当前短信时间窗内的短信流进行分类判断,以确定所述当前短信时间窗内短信流中的垃圾短信。

【技术特征摘要】
1.一种垃圾短信检测方法,其特征在于,所述方法包括:
获取当前训练时间窗内的训练样本流,其中,所述当前训练时间窗内的
训练样本流根据当前短信时间窗的上一短信时间窗内的短信流获得;
提取所述当前训练时间窗内的训练样本流的特征信息,所述特征信息包
括短信发送特征和短信内容特征,其中,所述特征信息包含至少一个特征参
数;
基于所述特征信息对所述当前训练时间窗内的训练样本流进行训练分
类,以获取正常短信和垃圾短信对应的所述至少一个特征参数的参数值;
基于所述至少一个特征参数的参数值对当前短信时间窗内的短信流进
行分类判断,以确定所述当前短信时间窗内短信流中的垃圾短信。
2.根据权利要求1所述的方法,其特征在于,所述基于至少一个特征
参数的参数值对当前短信时间窗内的短信流进行分类判断,包括:
对所述当前短信时间窗内的短信流进行特征信息提取;
基于所述当前短信时间窗内的短信流的特征信息和所述至少一个特征
参数的参数值,对所述当前短信时间窗内的短信流进行分类判断。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
当接收到终端发送的反馈短信时,将所述反馈短信确定为垃圾短信;
将所述当前短信时间窗内的短信流中,与所述反馈短信属于同一发送者
的短信、以及与所述反馈短信的内容长度相同的短信标记为垃圾短信。
4.根据权利要求3所述的方法,其特征在于,所述基于至少一个特征
参数的参数值对当前短信时间窗内的短信流进行分类判断,以确定所述当前
时间窗内短信流中的垃圾短信之后,还包括:
将所述当前短信时间窗内第一预设长度的短信流中的垃圾短信进行标
记;
拦截所述当前短信时间窗内第一预设长度的短信流中的垃圾短信,并向
所述垃圾短信的发送者发送错误消息;
将所述当前短信时间窗内第一预设长度的短信流中未被标记的短信确
定为正常短信,以及发送所述正常短信。
5.根据权利要求1所述方法,其特征在于,所述方法还包括:
在经过预设时间后,将所述当前短信时间窗内第二预设长度的短信流中

\t的正常短信进行标记;
将所述当前短信时间窗内第二预设长度的短信流更新到当前训练时间
窗的下一训练时间窗内的训练样本流中,以及将所述下一训练时间窗内第二
预设长度的训练样本流进行删除。
6.根据权利要求5所述的方法,其特征在于,所述将所述当前短信时
间窗内第二预设长度的短信流更新到当前训练时间窗的下一训练时间窗内
的训练样本流中,还包括:
当所述当前短信时间窗内第二预设长度的短信流中存在已进行更新的
短信时,则将所述已进行更新的短信不更新到当前训练时间窗的下一训练时

【专利技术属性】
技术研发人员:王振亚苏飞陈璇师辰吴洋杨杉曹振夏维
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1