基于机器学习的Android平台垃圾短信检测系统技术方案

技术编号:19824050 阅读:22 留言:0更新日期:2018-12-19 15:31
本发明专利技术公开了基于机器学习的Android平台垃圾短信检测系统,包括操作模块、数据库模块、服务模块和判定模块;所述操作模块用于输入黑名单号码,并决定是否开启过滤服务;所述数据库模块用于保存输入的黑名单号码;所述服务模块包括黑名单匹配模块和贝叶斯分类器模块,黑名单匹配模块能够将号码和数据库模块中的黑名单号码进行匹配,如果匹配,则直接过滤该号码;贝叶斯分类器模块采用离线模式进行训练,训练好后,用于检测陌生号码是否需要过滤;所述判定模块根据贝叶斯分类器模块的检测结果过滤对应的短信。

【技术实现步骤摘要】
基于机器学习的Android平台垃圾短信检测系统
本专利技术涉及基于机器学习的Android平台垃圾短信检测系统。
技术介绍
目前,智能移动终端的普及十分迅速,Android平台占据了很大的市场份额,但伴随而来的是日趋严重的安全问题。尤其是来自垃圾短信的威胁,使得用户面临着经济损失、隐私泄露及被骚扰的危险。目前传统的解决方案普遍大多局限在电信运营商层面,提供的仅是针对非法服务提供商的监控,无法对个人的恶意、非法行为进行有效监控,用户端的垃圾短信骚扰问题始终没有得到很好的解决。
技术实现思路
本专利技术针对现有技术的不足,公开了基于机器学习的Android平台垃圾短信检测系统,包括操作模块、数据库模块、服务模块和判定模块;所述操作模块用于输入黑名单号码,并决定是否开启过滤服务;所述数据库模块用于保存输入的黑名单号码;所述服务模块包括黑名单匹配模块和贝叶斯分类器模块,黑名单匹配模块能够将号码和数据库模块中的黑名单号码进行匹配,如果匹配,则直接过滤该号码;贝叶斯分类器模块采用离线模式进行训练,训练好后,用于检测陌生号码是否需要过滤;所述判定模块根据贝叶斯分类器模块的检测结果过滤对应的短信。系统执行如下步骤:步骤1,用户通过操作模块,采用手动输入或者导入通讯录的方式输入黑名单号码,该黑名单号码存入数据库模块中,当用户移动终端接收到一条短信时,如果用户开启了过滤服务,执行步骤2,否则过滤服务不启动;步骤2,黑名单匹配模块将短信号码和数据库模块中的黑名单号码进行匹配,如果匹配,则直接过滤该条短信;如果不匹配,执行步骤3;步骤3,贝叶斯分类器模块检测该条短信是否需要过滤,如果是,则将该短信号码加入黑名单,并存入数据库模块,同时判定模块将该条短信过滤;否则判定该条短信不是垃圾短信,允许用户查阅。所述贝叶斯分类器模块采用离线模式进行训练,具体包括如下步骤:步骤A1,通过如下公式计算短信样本s属于第j个类别cj的条件概率P(cj|s):P(cj|s)=P(cj)P(s|cj)/P(s)(1)其中,P(cj)是类别cj的先验概率,P(s|cj)是类别cj的条件概率,P(s)是常量,取值为0~1,s是一组n维特征向量表示(t1,t2,…tn),用于描述对n个属性a1,a2,…an样本的n个关键字,tn表示第n个特征向量,则其中概率值P(cj|s)最大的类即文本s所属的类别;设定n个特征向量彼此独立,则:P(s|cj)=P(t1|cj)P(t2|cj)...P(tn|cj)(2)其中,P(tn|cj)表示第n个特征向量属于类别cj的条件概率;步骤A2,根据朴素贝叶斯算法,分别计算短信样本s属于类别c0和c1的后验概率值,选择概率值最大的类别作为s的分类,该类称为最大后验假定,其中c0表示正常短信集合,c1表示垃圾短信集合;步骤A3,由公式(1),要最大化P(cj|s),则需要最大化P(cj)P(s|cj),P(cj)通过用类别cj中的样本数mj除以样本总数m求得,P(s|cj)通过公式(2)求得,最终将短信样本s归类到对应后验概率值最大的类(参考文献:潘文峰.基于内容的垃圾邮件过滤研究[D].中国科学院计算技术研究所,2004)。有益效果:本专利技术提供了基于机器学习的Android平台垃圾短信检测系统,该系统结合了黑名单和朴素贝叶斯方法,其中黑名单适用于过滤来自已知联系人的恶意骚扰短信,而贝叶斯分类器则基于内容进行过滤,自动化程度较高,适用于过滤广告或诈骗类垃圾短信,该系统非常适用于手机用户。附图说明下面结合附图和具体实施方式对本专利技术做更进一步的具体说明,本专利技术的上述或其他方面的优点将会变得更加清楚。图1是本专利技术方法架构图。图2是实施例黑名单测试结果。图3是实施例贝叶斯分类器测试图。具体实施方式下面结合附图及实施例对本专利技术做进一步说明。如图1所示,本专利技术公开了基于机器学习的Android平台垃圾短信检测系统,包括操作模块、数据库模块、服务模块和判定模块;所述操作模块用于输入黑名单号码,并决定是否开启过滤服务;所述数据库模块用于保存输入的黑名单号码;所述服务模块包括黑名单匹配模块和贝叶斯分类器模块,黑名单匹配模块能够将号码和数据库模块中的黑名单号码进行匹配,如果匹配,则直接过滤该号码;贝叶斯分类器模块采用离线模式进行训练,训练好后,用于检测陌生号码是否需要过滤;所述判定模块根据贝叶斯分类器模块的检测结果过滤对应的短信。系统执行如下步骤:步骤1,用户通过操作模块,采用手动输入或者导入通讯录的方式输入黑名单号码,该黑名单号码存入数据库模块中,当用户移动终端接收到一条短信时,如果用户开启了过滤服务,执行步骤2,否则过滤服务不启动;步骤2,黑名单匹配模块将短信号码和数据库模块中的黑名单号码进行匹配,如果匹配,则直接过滤该条短信;如果不匹配,执行步骤3;步骤3,贝叶斯分类器模块检测该条短信是否需要过滤,如果是,则将该短信号码加入黑名单,并存入数据库模块,同时判定模块将该条短信过滤;否则判定该条短信不是垃圾短信,允许用户查阅。所述贝叶斯分类器模块采用离线模式进行训练,具体包括如下步骤:步骤A1,通过如下公式计算短信样本s属于第j个类别cj的条件概率P(cj|s):P(cj|s)=P(cj)P(s|cj)/P(s)(1)其中,P(cj)是类别cj的先验概率,P(s|cj)是类别cj的条件概率,P(s)是常量,取值为0~1,本专利技术实施例中取值为0.6,s是一组特征向量表示(t1,t2,…tn),用于描述对n个属性a1,a2,…an样本的n个关键字,tn表示第n个特征向量,则其中概率值P(cj|s)最大的类即文本s所属的类别;设定n个特征向量彼此独立,则:P(s|cj)=P(t1|cj)P(t2|cj)...P(tn|cj)(2)其中,P(tn|cj)表示第n个特征向量属于类别cj的条件概率;步骤A2,根据朴素贝叶斯算法,分别计算短信样本s属于类别c0和c1的后验概率值,选择概率值最大的类别作为s的分类,该类称为最大后验假定,其中c0表示正常短信集合,c1表示垃圾短信集合;步骤A3,由公式(1),要最大化P(cj|s),则需要最大化P(cj)P(s|cj),P(cj)通过用类别cj中的样本数mj除以样本总数m求得,P(s|cj)通过公式(2)求得,最终将短信样本s归类到对应后验概率值最大的类。实施例将人工收集的613条垃圾短信输入本专利技术系统检测,统计其平均响应时间、过滤准确率等数据,得到了如图2的测试结果。其中连续过滤准确率是指在连续收到多条短信,且每两条短信间隔不超过2s的情况下,能正确过滤并显示的短信条数占测试短信总量的比例。测试结果表明黑名单过滤的响应时间和准确率都比较理想,能快速过滤来自已知联系人和部分陌生号码的短信。另外,使用上述613条垃圾短信对贝叶斯分类器模块进行训练,测试期间另外收集1121条短信作为分类器测试集,其中垃圾短信217条,占19.4%。同时仿照黑名单测试检测了响应时间及准确率等指标,如图3所示。将以上测试集输入贝叶斯分类器模块检测,共过滤垃圾短信211条,占所有短信的18.8%,平均响应时间为0.33s,能够满足用户的需要。本专利技术提供了基于机器学习的Android平台垃圾短信检测系统,具体实现该技术方案的方法和途径很本文档来自技高网...

【技术保护点】
1.基于机器学习的Android平台垃圾短信检测系统,其特征在于,包括操作模块、数据库模块、服务模块和判定模块;所述操作模块用于输入黑名单号码,并决定是否开启过滤服务;所述数据库模块用于保存输入的黑名单号码;所述服务模块包括黑名单匹配模块和贝叶斯分类器模块,黑名单匹配模块能够将号码和数据库模块中的黑名单号码进行匹配,如果匹配,则直接过滤该号码;贝叶斯分类器模块采用离线模式进行训练,训练好后,用于检测陌生号码是否需要过滤;所述判定模块根据贝叶斯分类器模块的检测结果过滤对应的短信。

【技术特征摘要】
1.基于机器学习的Android平台垃圾短信检测系统,其特征在于,包括操作模块、数据库模块、服务模块和判定模块;所述操作模块用于输入黑名单号码,并决定是否开启过滤服务;所述数据库模块用于保存输入的黑名单号码;所述服务模块包括黑名单匹配模块和贝叶斯分类器模块,黑名单匹配模块能够将号码和数据库模块中的黑名单号码进行匹配,如果匹配,则直接过滤该号码;贝叶斯分类器模块采用离线模式进行训练,训练好后,用于检测陌生号码是否需要过滤;所述判定模块根据贝叶斯分类器模块的检测结果过滤对应的短信。2.根据权利要求1所述的方法,其特征在于,系统执行如下步骤:步骤1,用户通过操作模块,采用手动输入或者导入通讯录的方式输入黑名单号码,该黑名单号码存入数据库模块中,当用户移动终端接收到一条短信时,如果用户开启了过滤服务,执行步骤2,否则过滤服务不启动;步骤2,黑名单匹配模块将短信号码和数据库模块中的黑名单号码进行匹配,如果匹配,则直接过滤该条短信;如果不匹配,执行步骤3;步骤3,贝叶斯分类器模块检测该条短信是否需要过滤,如果是,则将该短信号码加入黑名单,并存入数据库模块,同时判定模块将该条短信过滤;否则判定该条短信不是垃圾短信,允许用户查阅。...

【专利技术属性】
技术研发人员:张志军
申请(专利权)人:锦上包装江苏有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1