一种垃圾短信过滤方法、系统、移动终端以及云服务器技术方案

技术编号:10918112 阅读:98 留言:0更新日期:2015-01-15 11:31
本发明专利技术实施方式公开了一种垃圾短信过滤方法,包括:移动终端根据其存储的分类词库对待处理短信进行分类以获得分类结果,当分类结果被判定为错误的分类结果且移动终端接收到对应错误的分类结果的上传指令时,移动终端将分类错误信息上传到云服务器以更新与移动终端对应的私有短信训练集,移动终端获得云服务器的词库更新信息以同步更新移动终端存储的分类词库。本发明专利技术实施方式还公开了一种移动终端、云服务器、垃圾短信过滤系统。通过上述方式,本发明专利技术能够提高移动终端对垃圾短信的过滤效率,使垃圾短信的过滤具有个性化。

【技术实现步骤摘要】
【专利摘要】本专利技术实施方式公开了一种垃圾短信过滤方法,包括:移动终端根据其存储的分类词库对待处理短信进行分类以获得分类结果,当分类结果被判定为错误的分类结果且移动终端接收到对应错误的分类结果的上传指令时,移动终端将分类错误信息上传到云服务器以更新与移动终端对应的私有短信训练集,移动终端获得云服务器的词库更新信息以同步更新移动终端存储的分类词库。本专利技术实施方式还公开了一种移动终端、云服务器、垃圾短信过滤系统。通过上述方式,本专利技术能够提高移动终端对垃圾短信的过滤效率,使垃圾短信的过滤具有个性化。【专利说明】一种垃圾短信过滤方法、系统、移动终端以及云服务器
本专利技术涉及文本分类领域,特别是涉及一种垃圾短信过滤方法、系统、移动终端以及云服务器。
技术介绍
随着移动通信技术的飞速发展和手机普及率的迅速提升,短信正以其短小、迅速、简便、价格低廉等诸多优点日益成为人们的一种重要通信和交流方式,给用户带来了极大的交流方便,同时,垃圾短信日益猖獗,尤其是在智能手机快速普及、个人信息安全问题日益严峻的今天,不少用户都深受垃圾短信的困扰。垃圾短信是指用户没有定制过的,包含有广告、欺骗、色情等内容以及短时间内连续发送同样内容,影响用户正常使用、工作和生活的短信,常见的垃圾短信内容包括广告信息、色情信息、假中奖信息、欺诈信息、恶作剧等,即对用户没有价值的信息,给用户带来了很多的烦恼,因此急需对垃圾短信进行监控过滤。现有技术中主要包括两种垃圾短信的过滤方法:一种方法是在短信服务中心(SMSC)等短信处理中心进行处理;另一种方法则是在手机等移动终端上用编制的内嵌程序执行整个垃圾短信的过滤过程。 本申请专利技术人在长期研发中发现,有些信息例如彩票信息、票务信息、广告信息等对于一部分用户来说可能是垃圾短信,但对于另一部分用户来说则不属于垃圾短信,在短信服务中心进行过滤可能导致被错误分类的信息无法到达用户的移动终端上,垃圾短信的过滤缺乏考虑不同用户的需求差异;此外由于移动终端的计算速度和空间都比较有限,在移动终端上执行整个垃圾短信的过滤过程会消耗过多的时间与空间,影响用户对短信的正常接收。
技术实现思路
本专利技术主要解决的技术问题是提供一种垃圾短信过滤方法、系统、移动终端以及云服务器,能够提高移动终端对垃圾短信的过滤效率,使垃圾短信的过滤具有个性化。 为解决上述技术问题,本专利技术的第一方面是:提供一种垃圾短信过滤方法,包括:移动终端根据其存储的分类词库对待处理短信进行分类以获得分类结果,其中,分类结果为垃圾短信或非垃圾短信;当分类结果被判定为错误的分类结果且移动终端接收到对应错误的分类结果的上传指令时,移动终端将分类错误信息上传到云服务器以更新与移动终端对应的私有短信训练集,其中,分类错误信息包括待处理短信以及错误的分类结果;移动终端获得云服务器的词库更新信息以同步更新移动终端存储的分类词库,其中,词库更新信息为在云服务器存储的与移动终端对应的私有短信训练集和/或公有短信训练集更新后云服务器对私有短信训练集和公有短信训练集进行学习而获得。 其中,移动终端根据其存储的分类词库对待处理短信进行分类以获得分类结果的步骤具体包括:移动终端对待处理短信进行预处理以获得待处理短信对应的单词特征以及规则特征;移动终端将分类词库中存储的垃圾短信所占的比例P(C1)、非垃圾短信所占的比例P (C2)、单词特征以及规则特征在垃圾短信中的匹配概率P (Xk IC1)以及非垃圾短信中的匹配概率P(XkIC2)代入贝叶斯分类公式中,以获得待处理短信属于垃圾短信的概率P (C11X),贝叶斯分类公式具体如下所示: PiC11X)=--气- Σ^)Π^.Ι^)] ^-1 k=l 移动终端获得待处理短信属于非垃圾短信的概率P (C21 X),具体如下所示: P(C2Ix)=1-P (CjX) 移动终端获得待处理短信的分类结果,其中,当P (C11X) >P (C21X)时则待处理短信属于垃圾短信,否则待处理短信属于非垃圾短信。 其中,在移动终端对待处理短信进行预处理以获得待处理短信对应的单词特征以及规则特征的步骤之前还包括:移动终端判断待处理短信的发送者号码是否在与移动终端对应的私有黑白名单中,其中,当发送者号码在与移动终端对应的私有黑名单中时则待处理短信属于垃圾短信,当发送者号码在与移动终端对应的私有白名单中时则待处理短信属于非垃圾短信;当发送者号码不在与移动终端对应的私有黑白名单中时,移动终端继续判断发送者号码是否在公有黑白名单中,其中,当发送者号码在公有黑名单中时则待处理短信属于垃圾短信,当发送者号码在公有白名单中时则待处理短信属于非垃圾短信;当发送者号码不在公有黑白名单中时,移动终端执行对待处理短信进行预处理以获得待处理短信对应的单词特征以及规则特征的步骤。 其中,当分类结果被判定为错误的分类结果且移动终端接收到对应错误的分类结果的上传指令时,移动终端上传到云服务器的分类错误信息还包括待处理短信的发送者号码,移动终端将发送者号码上传到云服务器以判断是否将发送者号码加入云服务器存储的与移动终端对应的私有黑白名单和/或公有黑白名单中;当云服务器存储的与移动终端对应的私有黑白名单和/或公有黑白名单更新时,移动终端获得云服务器的私有黑白名单更新信息和/或公有黑白名单更新信息以同步更新移动终端存储的公有黑白名单和/或私有黑白名单。 其中,错误的分类结果为将属于垃圾短信的待处理短信分类为非垃圾短信或者将属于非垃圾短信的待处理短信分类为垃圾短信;词库更新信息至少包括私有短信训练集更新后待处理短信的单词特征以及规则特征在垃圾短信或非垃圾短信中的匹配概率、垃圾短信所占的比例以及非垃圾短信所占的比例。 为解决上述技术问题,本专利技术的第二方面是:提供一种垃圾短信过滤方法,包括:云服务器对其存储的与移动终端对应的私有短信训练集和公有短信训练集进行学习以获得与移动终端对应的分类词库,分类词库用于移动终端对待处理短信进行分类以获得分类结果,其中,分类结果为垃圾短信或非垃圾短信;当分类结果被判定为错误的分类结果且移动终端接收到对应错误的分类结果的上传指令时,云服务器接收移动终端上传的分类错误信息,其中,分类错误信息包括待处理短信以及错误的分类结果;云服务器将待处理短信加入与移动终端对应的私有短信训练集中以更新私有短信训练集;在私有短信训练集和/或公有短信训练集更新后,云服务器对私有短信训练集和公有短信训练集进行学习以获得词库更新息。 其中,错误的分类结果为将属于垃圾短信的待处理短信分类为非垃圾短信或者将属于非垃圾短信的待处理短信分类为垃圾短信;当错误的分类结果为将属于垃圾短信的待处理短信分类为非垃圾短信时,在私有短信训练集更新后,云服务器对私有短信训练集和公有短信训练集进行学习以获得词库更新信息的步骤具体包括:云服务器对待处理短信进行预处理以获得待处理短信对应的单词特征以及规则特征;云服务器根据公有短信训练集中单词特征和规则特征在垃圾短信中的匹配频次、私有训练集中单词特征和规则特征在垃圾短信中的匹配频次、私有短信训练集和公有短信训练集中的垃圾短信数量、非垃圾短信数量获得第一词库更新信息,其中,第一词库更新信息包括私有短本文档来自技高网
...

【技术保护点】
一种垃圾短信过滤方法,其特征在于,包括:移动终端根据其存储的分类词库对待处理短信进行分类以获得分类结果,其中,所述分类结果为垃圾短信或非垃圾短信;当所述分类结果被判定为错误的分类结果且移动终端接收到对应所述错误的分类结果的上传指令时,所述移动终端将分类错误信息上传到云服务器以更新与所述移动终端对应的私有短信训练集,其中,所述分类错误信息包括待处理短信以及错误的分类结果;所述移动终端获得云服务器的词库更新信息以同步更新所述移动终端存储的分类词库,其中,所述词库更新信息为在云服务器存储的与移动终端对应的私有短信训练集和/或公有短信训练集更新后云服务器对私有短信训练集和公有短信训练集进行学习而获得。

【技术特征摘要】

【专利技术属性】
技术研发人员:何通庆郭伟方礼勇杜国楹
申请(专利权)人:北京壹人壹本信息科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1